鲲鹏社区首页
中文
注册
我要评分
文档获取效率
文档正确性
内容完整性
文档易理解
在线提单
论坛求助

数据预处理

DLRM模型训练使用Criteo数据集, 官方完整数据集1T,过于庞大,本文以Criteo数据集中的一部分点击预估率比赛数据集为例进行数据预处理。

  1. 下载数据集到本地,下载前需要登录kaggle。
  2. 使用PuTTY工具将数据集archive.zip上传到dataset规划路径“/path/to/dataset”。
  3. 使用PuTTY工具,以root用户登录服务器,进入dataset规划路径“/path/to/dataset”。
    1
    cd /path/to/dataset
    
  4. 解压archive.zip文件,并进入“dac”目录。
    1
    2
    unzip archive.zip -d ./
    cd dac
    
  5. 在“dac”目录创建“data_process.py”文件,用以对数据集进行预处理,生成目标npz文件。
    1. 创建“data_process.py”文件。
      1
      vi data_process.py
      
    2. 按“i”进入编辑模式,编辑“data_process.py”文件。内容请参见data_process.py文件
    3. 按“Esc”键,输入:wq!,按“Enter”保存并退出编辑。
  6. 执行data_process.py文件,进行数据预处理。
    1
    python data_process.py
    

    回显信息与上图一致,则表示数据处理成功,数据预处理整个过程约5分钟左右,处理时间有一些波动属于正常现象,其他应相同。

  7. 拷贝数据预处理后生成的“kaggle_processed.npz”文件到处理后数据规划路径“/path/to/dataset/criteo”,并验证。
    1
    2
    3
    mkdir ../criteo
    cp ./kaggle_data/kaggle_processed.npz  ../criteo/
    ll ../criteo/
    

    执行后若信息如上图所示,则已经成功将kaggle_processed.npz拷贝到目标规划路径“/path/to/dataset/criteo”。