热门
最新
红包
立Flag
投票
同城
我的
发布
数据璐(大数据分析岗位推荐师)
3 年前
trueshujlu0908
解释一下应该如何处理可疑或缺失数据?
首先需要准备提供所有可疑数据信息的验证报告它可以提供相应的信息,如失败的验证标准以及发生的日期和时间。
下一条:
如果某一次分析的结果数据特别大,有些结果数据扛不住了,请问该怎么办?其实一般的结果数据的数据量没有那么大,也就几十万是样子,这样的数据级别,对于MySQL这样的数据库是没有任何压力的但是如果这个数据量千万或者亿级别,同时有复杂的SQL查询,这个时候MySQL就肯定扛不住了。这是需要结合实际情况去考量的了,这个问题考察的还是数据量的问题。出现这个情况的时候就需要我们构建索引(例如通过lucene来对于要检索的字段添加索引),或者用分布式的内存服务器来完成查询。总之,两套思路,一个是用文件索引的形式,就是空间换时间,另外一种是用内存,就是用更快的存储来请求。
立即登录