鲲鹏社区首页
中文
注册
我要评分
文档获取效率
文档正确性
内容完整性
文档易理解
在线提单
论坛求助

在集群上运行脚本生成社区数据集

  1. 使用HDFS新建“/hdfs”目录用于保存图数据集和社区数据集。
    1
    2
    3
    hdfs dfs –mkdir /tmp/modularity
    hdfs dfs –mkdir /tmp/modularity/graph
    hdfs dfs –mkdir /tmp/modularity/lpa_community
    
  2. 上传图数据集到集群“/hdfs”目录下。
    1
    hdfs dfs –put graph500-25.e /tmp/modularity/graph
    

  3. 新建“LPA_Example”目录,进入目录,将10中生成的lpa_examples_2.11-0.1.jar包上传到目录下。
    1
    2
    mkdir LPA_Example
    cd LPA_Example
    
  4. 新建“generate_data.sh”脚本。
    1. 创建脚本。
      1
      vi generate_data.sh
      
    2. “i”进入编辑模式,复制以下内容到脚本中。
       1
       2
       3
       4
       5
       6
       7
       8
       9
      10
      11
      12
      13
      #/bin/bash
      class="LPA"
      test_jar_path="lpa_example_2.11-0.1.jar"
      executor_cores=8
      num_executors=35
      executor_memory=25
      partition=500
      java_xms="-Xms25g"
      echo $num_executors $executor_cores $executor_memory $partition $java_xms
      eval $preprocess
      cmd="spark-submit --class ${class} --master yarn --num-executors ${num_executors} --executor-memory ${executor_memory}g --executor-cores ${executor_cores} --driver-memory 80g --conf spark.executor.extraJavaOptions='${java_xms}'    ${test_jar_path} /tmp/modularity/graph/graph500-25.e  ' '  /tmp/modularity/lpa_community/graph500-25.txt  '${partition}'  "
      #echo ${cmd}
      eval ${cmd}
      
    3. “Esc”键,输入:wq!,按“Enter”保存并退出编辑。
  5. 查看目录下文件。
    1
    ll
    

  6. 运行脚本。
    1
    sh generate_data.sh
    
  7. 查看生成的社区数据集。
    1
    hdfs dfs -ls /tmp/modularity/lpa_community/