定期开展对集群和Spark组件的防病毒扫描,防病毒例行检查会帮助集群免受病毒、恶意代码、间谍软件以及程序侵害,降低系统瘫痪、信息泄露等风险。可以使用业界主流防病毒软件进行防病毒检查。
算法执行过程中,使用Spark提供的标准RDD缓存操作(persist),在内存空间不足的情况下时,RDD缓存数据将作为临时文件写入到磁盘。默认情况下,下盘的RDD缓存数据未进行加密处理,用户如果希望有更高的安全等级要求,建议将Spark参数“spark.io.encryption.enabled”设置为“true”,可以实现对下盘的RDD缓存数据实现加密的功能,需要指出的是,使能加密功能后会增加算法的计算时间。
具体配置方法:
修改提交任务的shell脚本,在spark-submit添加如下配置。
--conf "spark.io.encryption.enabled=true" \
为保证生产环境的安全,降低被攻击的风险,请开启防火墙,并定期修复以下漏洞。