OmniShield机密大数据特性是一个大数据引擎Spark的机密计算组件,运行在客户数据中心的TEE环境内,通过在基于硬件的TEE环境中执行计算过程对数据进行加解密,保证数据在REE侧也是安全隐私的。
OmniShield机密大数据作为Spark的机密计算组件,通过Spark提供的插件机制,实现Dataframe和Spark-SQL场景下对CSV、JSON和TXT行式数据源的加解密功能。通过对ORC代码的修改,实现在Spark-SQL场景下对ORC列式数据源加密的功能。通过对Spark加解密相关代码修改,实现磁盘和网络IO加解密SM4国密算法功能。通过对Spark Executor相关代码修改,实现Spark在Yarn资源管理模式下的远程证明功能。
OmniShield机密大数据架构如图1所示。
图1 OmniShield机密大数据特性软件架构
OmniShield机密大数据特性:
- 提供在DataFrame场景下CSV/JSON/TXT行式数据源加解密的功能,加密算法为AES/GCM/NOPadding,并提供接口支持Hadoop等主流KMS获取密钥。
- 提供在Spark-SQL场景下CSV/JSON/TXT行式数据源加解密的功能,加密算法支持AES/GCM/NOPadding和SM4/GCM/NOPadding,并提供接口支持Hadoop等主流KMS获取密钥。
- 提供在Spark-SQL场景下ORC列式数据源加解密的功能,加密算法为SM4/GCM/NOPadding。
- 提供Spark Shuffle磁盘和网络IO国密加解密能力,加密算法为SM4/GCM/NOPadding。
- 提供基于openEuler操作系统IMA(Integrity Measurement Architecture)度量的Spark on Yarn应用级远程证明,支持在Spark Executor启动时生成IMA度量报告,并进行远程证明。