数据预处理
DLRM模型训练使用Criteo数据集, 官方完整数据集1T,过于庞大,本文以Criteo数据集中的一部分点击预估率比赛数据集为例进行数据预处理。
- 下载数据集到本地,下载前需要登录kaggle。
- 使用PuTTY工具将数据集archive.zip上传到dataset规划路径“/path/to/dataset”。
- 使用PuTTY工具,以root用户登录服务器,进入dataset规划路径“/path/to/dataset”。
1
cd /path/to/dataset
- 解压archive.zip文件,并进入“dac”目录。
1 2
unzip archive.zip -d ./ cd dac
- 在“dac”目录创建“data_process.py”文件,用以对数据集进行预处理,生成目标npz文件。
- 创建“data_process.py”文件。
1
vi data_process.py
- 按“i”进入编辑模式,编辑“data_process.py”文件。内容请参见data_process.py文件。
- 按“Esc”键,输入:wq!,按“Enter”保存并退出编辑。
- 创建“data_process.py”文件。
- 执行data_process.py文件,进行数据预处理。
1
python data_process.py
回显信息与上图一致,则表示数据处理成功,数据预处理整个过程约5分钟左右,处理时间有一些波动属于正常现象,其他应相同。
- 拷贝数据预处理后生成的“kaggle_processed.npz”文件到处理后数据规划路径“/path/to/dataset/criteo”,并验证。
1 2 3
mkdir ../criteo cp ./kaggle_data/kaggle_processed.npz ../criteo/ ll ../criteo/
执行后若信息如上图所示,则已经成功将kaggle_processed.npz拷贝到目标规划路径“/path/to/dataset/criteo”。
父主题: DLRM模型训练