生成数据

前提条件

集群环境已部署Hadoop和HBase。
已下载并解压测试工具BulkLoad。

生成数据

通过脚本put_data_byStage.py生成1TB数据，为了使数据更快生成，建议落到多个磁盘上，本文以“/srv/BigData/hadoop/data2-12”11个磁盘为例，生成11个csv格式文件。

python put_data_byStage.py 1 1073741824 /srv/BigData/hadoop/data2/Bulkload_data2.csv /srv/BigData/hadoop/data3/Bulkload_data3.csv /srv/BigData/hadoop/data4/Bulkload_data4.csv /srv/BigData/hadoop/data5/Bulkload_data5.csv /srv/BigData/hadoop/data6/Bulkload_data6.csv /srv/BigData/hadoop/data7/Bulkload_data7.csv /srv/BigData/hadoop/data8/Bulkload_data8.csv /srv/BigData/hadoop/data9/Bulkload_data9.csv /srv/BigData/hadoop/data10/Bulkload_data10.csv /srv/BigData/hadoop/data11/Bulkload_data11.csv /srv/BigData/hadoop/data12/Bulkload_data12.csv

父主题： HBase组件工具BulkLoad 使用指导