这次主要是将基于Doris的数据中台建设内容及系统架构设计
围绕着上次将的我们要解决的五个问题:找数,理解数据,问题评估,取数及数据可视化,给出一个概要的设计及框架
数据中台建设内容
- 数据规范统一:采用维度事实建模理论进行严格的,规范化、标准化的定义,保障数据质量,避免数据指标的二义性。
- 一站式研发体验:从数据接入、建模、研发、运维、数据查找及探查等过程提供高效一站式统一的研发立案率。
- 系统化构建数据体系:以标准的技术框架,系统地构建规范可读的业务化数据体系,形成数据资产,方便业务查找及应用。
- 可视化数据资产:系统化构建业务数据资产大图,还原业务系统,提取业务知识,快速提取业务关键环节及业务。
- 数据使用简单可依赖:定义及服务,研发构建的业务主题式数据逻辑表可被直接,快速查询及访问,简化查询代码。
数据中台架构
数据中台系统架构
数据中台技术架构
对用户来说,Doris 的优点是功能强大,易用性好。 功能强大指可以满足我们用户的需求,易用性好主要指 兼容 Mysql 协议和语法,以及 Online Schema Change。 兼容 Mysql 协议和语法让用户的学习成本和开发成本很低, Online Schema Change 也是一个很吸引人的 feature,因为在业务快速发展和频繁迭代的情况下,Schema 变更会是一个高频的操作。
对平台侧来说,Doris 的优点是易运维,易扩展和高可用:
- 易运维指 Doris 无外部系统依赖,部署和配置都很简单。
- 易扩展指 Doris 可以一键加减节点,并自动均衡数据。
- 高可用值 Dors 的 FE 和 BE 都可以容忍少数节点挂掉。
所以这里数仓是使用Doris作为核心组件来构建
架构说明:
- 数仓整体以Doris为核心构建公司企业级数据仓库,(后期会根据实际需要还可能会引进Hive、ClickHouse等其他组件)
- 通过统一的数据采集系统,多种数据采集手段,包括Mysql binlog解析(Cannal),日志采集Flume(Doris审计日志)、埋点接口等实现多种异构数据的采集,针对Mysql,Kafka数据源我们封装了零代码入仓,可视化完成
- 将采集的数据统一通过消息队列(Kafka)完成高并发的数据吞吐,同时实现数仓及计算引擎的解耦
- Flink计算引擎完成数据的ETL处理及实时数据的统计,并将数据推送到Kafka及Doris(Stream Load)
- 对外通过doris和消息队列对外提供数据服务
- 数据质量管理是实现对从数据采集到数据ETL处理,数据存储及数据服务全生命周期的数据管理,包括元数据,数据质量,数据规范、数据安全
- 血缘关系的构建是基于Doris的审计日志,这块我会在后面数据资产的元数据管理里讲解
系统架构数据管理及数据流向
数据中台功能整体规划
数据中台功能整体规划
这是我们数据中台的整体功能规划,我会在后续展开每个功能
下一讲会基于这个整体功能规划进行逐一展开讲解