鲲鹏BoostKit大数据支持多个大数据平台,包括离线分析、实时检索、实时流处理等多个场景。
离线分析,通常是指对T-1产生的海量数据进分析和处理,形成结果数据,供下一步数据应用使用。离线处理对处理时间要求不高,但是所处理数据量较大,占用计算存储资源较多,通常通过MR或者Spark作业或者SQL作业实现。典型特点如下:
离线分析系统数据底座以HDFS分布式存储系统为主,计算引擎以基于MapReduce的Hive和基于Spark的SparkSQL为主,详细的系统架构如图1所示。
名称 |
说明 |
---|---|
数据源 |
数据源的种类包括流式数据(Socket流、OGG日志流、日志文件),批量文件数据、数据库等。 |
实时数据采集系统 |
|
批量采集系统 |
|
离线批处理引擎 |
|
业务应用 |
查询并使用批处理结果的业务应用,由ISV开发。 |