训练DLRM模型
本文未对模型进行调优,只是示范使用TensorFlow框架训练DLRM模型的整个过程。网络参数沿用源码,模型参数较小,训练速度相对较快,而AUC数据一般,用户可自行修改网络参数进行调优。
- 执行“dlrm_criteo_gpu.py”脚本训练DLRM模型。dlrm_criteo_gpu.py代码自动检测当前环境是否已配置GPU卡,若没有配置GPU卡则会自动调整为CPU进行训练。
1python dlrm_criteo_gpu.py
若回显训练日志如上图所示,表示正常训练。AUC值不必与图片保持一致,训练模型效果可能不尽相同。
AUC(Area Under Curve)表示ROC曲线下的面积,主要用于衡量模型的泛化性能,即分类效果的好坏,值越高效果越好,最高值为1。
- 查看生成的模型文件。
1ls -la
若新生成“checkpoint”,“mymodel.data-00000-of-00001”,“mymodel.index”三个文件,表示模型训练成功。
父主题: DLRM模型训练