热门

最新

红包

立Flag

投票

同城

我的

发布
qq_43465434
前水员
4 年前
trueqq_43465434

致敬每个加完班还在默默总结学习的人

郑州市南阳路街道
CSDN App 扫码分享
分享
1
7
打赏
  • 复制链接
  • 举报
下一条:
#htap 千万级造数过程#如何高效生成千万到亿级数据,最近一直在发愁这事。先是想到用Python,gifhub找了一些源码调试,发现内网安装跟外网安装千差万别,内网安装调试报各种缺包,然后是无限循环断VPN,下载包,重新连VPN放入内网,调好mysql后又因安装thrift包提示是中文路径后,暂时放弃了!!第二个想到的是用shell生成sql语句插入,好不容易调试完后,第二天检查发觉贼慢,10几小时不到10万。那千万级得猴年马月了!不放弃,继续想别的办法。既然hive有底层路径,那么htap应该也一样,好不容易找到它的底层文件,打开是乱码!!尼码。差点就望而止步了,但项目迫在眉睫,怎么也要攻克它,找来htap工程师说了我的困惑,只给了一个配置命令我,这样在当前命令窗口就不会压缩了,试了一下,果然行!!然后拿到这个底层样例数据用shell无限循环写入文件,重新put到该表的hdfs路径,千万级数据就此完成。三天折磨,终于结束。同时给htap工程师的热心和专业点个赞!!
立即登录