鲲鹏社区首页
中文
注册
我要评分
文档获取效率
文档正确性
内容完整性
文档易理解
在线提单
论坛求助

生成数据

前提条件

  • 集群环境已部署Hadoop和HBase。
  • 已下载并解压测试工具BulkLoad

生成数据

通过脚本put_data_byStage.py生成1TB数据,为了使数据更快生成,建议落到多个磁盘上,本文以“/srv/BigData/hadoop/data2-12”11个磁盘为例,生成11个csv格式文件。

1
python put_data_byStage.py 1 1073741824 /srv/BigData/hadoop/data2/Bulkload_data2.csv /srv/BigData/hadoop/data3/Bulkload_data3.csv /srv/BigData/hadoop/data4/Bulkload_data4.csv /srv/BigData/hadoop/data5/Bulkload_data5.csv /srv/BigData/hadoop/data6/Bulkload_data6.csv /srv/BigData/hadoop/data7/Bulkload_data7.csv /srv/BigData/hadoop/data8/Bulkload_data8.csv /srv/BigData/hadoop/data9/Bulkload_data9.csv /srv/BigData/hadoop/data10/Bulkload_data10.csv /srv/BigData/hadoop/data11/Bulkload_data11.csv /srv/BigData/hadoop/data12/Bulkload_data12.csv