OmniData算子下推配置文件说明
“/home/omm/omnidata-install/omnidata/etc/jvm.config”配置项说明如表1所示。
分类 |
配置项名称 |
缺省值 |
配置描述 |
---|---|---|---|
内存资源限制配置 |
-Xmx |
物理内存的1/4 |
设置Java虚拟机最大堆大小 |
内存资源限制配置 |
-Xms |
物理内存的1/64 |
设置Java虚拟机初始堆大小 |
“/home/omm/omnidata-install/omnidata/etc/config.properties”配置项说明如表2所示。
分类 |
配置项名称 |
缺省值 |
配置描述 |
---|---|---|---|
CPU资源限制配置 |
number.of.cpu.core |
- |
设置OmniData算子下推能够使用CPU的核数,启动脚本会根据这个值,使用CGROUP对OmniData算子下推进程资源进行设置。步骤如下。
|
最大任务数配置 |
max.task.queue.size |
3000 |
设置OmniData算子下推接收Task的数量,应该与上面的核数成正比,根据实际CPU的性能设置倍数。推荐值为当前可用CPU核数*4。 |
任务最大超时时间 |
task.timeout.period |
120000 |
设置OmniData算子下推 Task处理超时时间,缺省值是120000,单位:ms。 |
缓存表达式 |
compile.expression-cache-size |
8192 |
缓存表达式的大小。 |
压缩 |
compression.enabled |
false |
数据是否压缩。 |
存储时区 |
storage.timezone |
- |
默认服务器时区。 |
插件 |
external-functions-plugin.dir |
/home/omm/omnidata-install/omnidata/plugin |
插件以文件夹的形式存在该目录。 |
Hive UDF插件 |
function-namespace.dir |
/home/omm/omnidata-install/omnidata/etc/function-namespace |
Hive UDF加载插件的配置文件所在目录,该配置必须在安装路径下的etc/function-namespace。 |
访问Ceph/HDFS |
hdfs.config.resources |
/home/omm/omnidata-install/omnidata/etc/hdfs-site.xml, /home/omm/omnidata-install/omnidata/etc/core-site.xml |
core-site.xml和hdfs-site.xml所在路径,用英文逗号隔开。 配置特性的场景一中,会将这两个文件放入指定目录。 |
HDFS是否为安全模式 |
hdfs.authentication.type |
NONE |
HDFS的认证方式,NONE或者KERBEROS。 |
配置安全HDFS |
hdfs.krb5.conf.path |
- |
krb5.cnf文件所在路径,当连接的是安全的HDFS集群,需要配置krb5.cnf,keytab和principal。 |
hdfs.krb5.keytab.path |
- |
keytab文件所在路径。 |
|
hdfs.krb5.principal |
- |
用户principal。 |
|
fs.hdfs.impl.disable.cache |
false |
关闭HDFS访问Cache。 |
|
Spark注册服务 |
omnidata.zookeeper.heartbeat.enabled |
true |
OmniData算子下推是否向ZooKeeper注册以及发送状态信息。 |
ZooKeeper配置 |
zookeeper.quorum.server |
用户输入的参数 |
ZooKeeper服务器地址。 |
zookeeper.namespace |
sdi |
OmniData算子下推在ZooKeeper注册的节点名称。 |
|
zookeeper.status.node |
status |
OmniData算子下推在ZooKeeper注册的下推信息目录。 |
|
zookeeper.connection.timeoutMs |
15000 |
ZooKeeper的连接超时时间,单位:ms。 |
|
zookeeper.session.timeoutMs |
60000 |
ZooKeeper的会话超时时间,单位:ms。 |
|
zookeeper.retry.intervalMs |
1000 |
ZooKeeper的失败重连间隔时间,单位:ms。 |
|
omnidata.pushdown.threshold |
0.8f |
OmniData算子下推的下推节点资源阈值。 |
|
omnidata.status.update.interval |
3 |
OmniData算子下推的下推节点资源更新频率,单位:s。 |
|
安全ZooKeeper配置 |
zookeeper.krb5.enabled |
false |
ZooKeeper krb5安全配置是否开启。 |
zookeeper.java.security.auth.login.config |
- |
ZooKeeper安全登录配置路径。 |
|
zookeeper.krb5.conf |
- |
ZooKeeper krb5.conf文件所在路径,当连接的是安全的ZooKeeper,需要配置krb5.conf,keytab和principal。 |
配置Spark注册服务和安全ZooKeeper
当前,Spark使用ZooKeeper来收集和管理OmniData算子下推节点的信息,让引擎侧可以感知当前有哪些OmniData算子下推节点以及他们的任务数量。当OmniData算子下推上层对接Spark引擎时,需配置上述表格中的Spark注册服务和安全ZooKeeper配置。
如下是OmniData算子下推上层对接Spark引擎时的一个典型配置。
- 编辑config.properties配置文件。
1
vi /home/omm/omnidata-install/omnidata/etc/config.properties
- 按“i”进入编辑模式,配置以下内容。
1 2 3 4 5 6 7 8 9 10 11
zookeeper.quorum.server=xxx.xxx.xxx.xxx:2181 hdfs.config.resources=/home/omm/omnidata-install/omnidata/etc/hdfs-site.xml,/home/omm/omnidata-install/omnidata/etc/core-site.xml hdfs.authentication.type=KERBEROS external-functions-plugin.dir=/home/omm/omnidata-install/omnidata/plugin hdfs.krb5.conf.path=/home/omm/omnidata-install/omnidata/etc/krb5.conf hdfs.krb5.keytab.path=/home/omm/omnidata-install/omnidata/etc/hdfs.keytab hdfs.krb5.principal=hdfs/server1@EXAMPLE.COM omnidata.zookeeper.heartbeat.enabled=true zookeeper.krb5.enabled=true zookeeper.java.security.auth.login.config=/home/omm/omnidata-install/omnidata/etc/client_jaas.conf zookeeper.krb5.conf=/home/omm/omnidata-install/omnidata/etc/krb5.conf
- 按“Esc”键,输入:wq!,按“Enter”保存并退出编辑。