-
基于Apache doris怎么构建数据中台(六)-数据服务管理
上次讲数据质量的控制,那么针对据仓的数据及各种数据指标怎么快捷的对外提供数据服务,怎么快速的完成数据服务接口的开发,这次我们重点围绕这个进行展开。怎么实现接口开发零代码实现数据服务从字面上理解就是数据相关的服务,和业务服务的最大不同之处它并不包含具体业务逻辑处理,与之产出的数据服务大多为统计、决策类的数据结果。很多时候大数据平台服务都是提供了数据分析的能力,分析的结果可以导出Excel,或直接查表来查看。如果要是对外提供服务的话,可能会由不同的业务团队对基础表产出相似的指标分析结果,这样的...…
-
基于Apache doris怎么构建数据中台(五)-数据质量管理
上一次我们讲了,数据怎么进行快速的接入,这次我们讲在接入及后续的数据处理中质量怎么控制如何更加合理、高效的监控每类作业的运行状态,并将原本分散、孤岛式的监控日志信息通过规则引擎集中共享、关联、处理;洞察关键信息,形成事前预判、事中监控、事后跟踪的质量管理闭环流程;沉淀故障问题,搭建解决方案的知识库体系。在数据质量监管平台的规划建设中,面临如下挑战: 缺乏统一监控视图,离线和实时作业监控分散,影响性、关联性不足。 数据质量的衡量标准缺失,数据校验滞后,数据口径不统一。 问题故障处理流程...…
-
参与开源两年来的感悟
从事大数据开发也十年多了,之前也改过Hadoop,HBase,Hive,presto的源码,但是也只是自己在实际工作中遇到问题,修改Bug,没有去社区提PR,也没有去提Issues等,包括最开始使用Hadoop 0.20的时候,那个时候NameNode是没有HA的,自己通过NFS(共享文件系统)和Zookeeper实现NameNode HA,代码也都是自己使用,对外保密,遇到问题也就是通过google搜索找解决方案,找不到的自己去研究源码想办法修改。从去年开始接触Apache doris(...…
-
[Doris 社区的访谈]一个人可能走得更快,但一群人会走得更远
「社区人物志」是 Apache Doris 社区推出的系列专栏,我们关注每一个对 Doris 做出过贡献的 Contributor ,会定期从对 Doris 做出突出贡献的小伙伴中选出一位「社区之星」,并会对「社区之星」进行专访,希望 TA 与 Doris 的故事可以被大家听见,也希望有更多的小伙伴参与到社区建设中来。本期我们采访了蜀海供应链大数据团队负责人张家锋,来听听一个纯粹的技术人的开源经历与技术思考。01 关于自己Q:请先简单介绍一下自己过往的技术经历?大家好我是张家锋,目前在海底...…
-
Apache Doris 架构及组件介绍
1.概述Apache Doris是一个现代化的MPP分析型数据库产品。仅需亚秒级响应时间即可获得查询结果,有效地支持实时数据分析。Apache Doris的分布式架构非常简洁,易于运维,并且可以支持10PB以上的超大数据集。Apache Doris可以满足多种数据分析需求,例如固定历史报表,实时数据分析,交互式数据分析和探索式数据分析等。令您的数据分析工作更加简单高效!什么是 MPP?MPP ( Massively Parallel Processing ),即大规模并行处理,在数据库非共...…
-
Apache doris 使用过程中常见问题汇总
这是从社区很多人在使用过程中遇到的问题进行的总结,汇总发布出来方便大家查阅*1.tablet writer write failed, tablet_id=27306172, txn_id=28573520, err=-235 or -215*这个错误通常发生在数据导入操作中。新版错误码为 -235,老版本错误码可能是 -215。这个错误的含义是,对应tablet的数据版本超过了最大限制(默认500),后续写入将被拒绝。比如问题中这个错误,即表示 27306172 这个tablet的数据版...…
-
Apache Doris FE使用ProxySQL实现负载均衡
ProxySQL是灵活强大的MySQL代理层, 是一个能实实在在用在生产环境的MySQL中间件,可以实现读写分离,支持 Query 路由功能,支持动态指定某个 SQL 进行 cache,支持动态加载配置、故障切换和一些 SQL的过滤功能。ProxySQL的优缺点,这里我就不说了,我只介绍怎么安装使用ProxySQL安装(yum方式)[root@mysql-proxy ~]# vim /etc/yum.repos.d/proxysql.repo[proxysql_repo]name= Pro...…
-
Apache Doris Stream load使用方法及示例
Stream Load介绍Stream load 是一个同步的导入方式,用户通过发送 HTTP 协议发送请求将本地文件或数据流导入到 Doris 中。Stream load 同步执行导入并返回导入结果。用户可直接通过请求的返回体判断本次导入是否成功。Stream load 主要适用于导入本地文件,或通过程序导入数据流中的数据具体的原理可以参照官网,这里只介绍怎么通过Java程序通过Stream load导入文件及数据流中的数据。Stream Load参数说明Stream load 由于使用...…
-
Apache doris ODBC外表使用方式
Apache doris ODBC外表使用方式1.概述ODBC External Table Of Doris 提供了Doris通过数据库访问的标准接口(ODBC)来访问外部表,外部表省去了繁琐的数据导入工作,让Doris可以具有了访问各式数据库的能力,并借助Doris本身的OLAP的能力来解决外部表的数据分析问题: 支持各种数据源接入Doris 支持Doris与各种数据源中的表联合查询,进行更加复杂的分析操作 通过insert into将Doris执行的查询结果写入外部的数据源本文...…
-
Apache doris 数据模型
Apache doris 数据模型本文档主要从逻辑层面描述 Doris 的数据模型以帮助用户更好的使用 Doris 应对不同的业务场景。基本概念在 Doris 中,数据以表(Table)的形式进行逻辑上的描述。 一张表包括行(Row)和列(Column)。Row 即用户的一行数据。Column 用于描述一行数据中不同的字段。Column 可以分为两大类:Key 和 Value。从业务角度看,Key 和 Value 可以分别对应维度列和指标列。Doris 的数据模型主要分为3类: Dupl...…
-
Apache Doris 物化视图介绍
Apache Doris 物化视图介绍改文章是基于Doris核心开发工程师缪翎在2020年7月线上meetup的PPT整理1.Doris概述首先 Doris 一个MPP架构的,分析型的数据库产品。对于PB数量级的,结构化数据,可以做到亚秒级查询响应。使用上兼容 MySQL 协议,语法是标准的 SQL。本身不依赖任何其他系统,相比hadoop生态产品更易于运维。应用场景包括:固定历史报表xxx用户的原始数据,比如日志,或者在事务数据库中的数据,经过流式系统或离线处理后,导入到Doris中,供...…
-
基于Apache doris怎么构建数据中台(四)-数据接入系统
基于Apache doris怎么构建数据中台(四)-数据接入系统上一次我们讲解了数据资产,元数据管理,血缘关系等,这次我们开始将数据接入,怎么实现快速的数据接入在开发数据模型时,我们必须有一个统一的平台,能够像流水线一样,把数据一步步加工成数据模型。这其中涉及到数据萃取、数据聚合、作业调度等。主要是为了实现业务数据的快速接入,零代码实现,数据分析人员只需要通过UI进行简单的配置、提交任务即可完成数据的接入,并能实现对数据接入任务的管理及监控。Mysql数据源数据接入主要是为了完成针对Mys...…
-
基于Apache doris怎么构建数据中台(三)-数据资产管理
基于Apache doris怎么构建数据中台(三)-数据资产管理前面我们讲了什么是数据中台,及数据中台的架构及功能规划,这次我们开始从数据资产开始拆解每个功能模块做的内容1.概述数据资产管理平台可以定量评估数据资产的成本,价值,质量。帮助企业优化存储成本,节约计算资源。精细化的数据生命周期管理,帮助企业更好的管理数据的生产到销毁的整个生命周期。在管理方面:管理者在规划数据文化建设时,对企业数据资产的全局构成、使用形式、 使用效果都需要详细的指标输入,往往这些指标都没有被统筹起来;在组织保障...…
-
元数据管理系统
元数据管理系统这里我们要先搞懂什么是元数据?元数据和数据的区别是什么?元数据有什么作用1.什么是元数据举几个例子: 如果一本书是一个“数据”,那么它的书名、封面、出版社、作者、总页码就是它的“元数据”。 如果数据库中某个表是一个”数据”,那么它的列名、列类型、列长度、表注释就是它的”元数据”。元数据用来描述数据的数据,通过描述数据的产生、存储、使用情况、业务含义等信息,以及数据管理人员相关信息。让人们能够清楚拥有什么数据、代表什么、源自何处、如何在系统中移动,以及哪些人可以使用源数据,...…
-
基于Apache doris怎么构建数据中台(二)-数据中台建设内容
这次主要是将基于Doris的数据中台建设内容及系统架构设计围绕着上次将的我们要解决的五个问题:找数,理解数据,问题评估,取数及数据可视化,给出一个概要的设计及框架数据中台建设内容 数据规范统一:采用维度事实建模理论进行严格的,规范化、标准化的定义,保障数据质量,避免数据指标的二义性。 一站式研发体验:从数据接入、建模、研发、运维、数据查找及探查等过程提供高效一站式统一的研发立案率。 系统化构建数据体系:以标准的技术框架,系统地构建规范可读的业务化数据体系,形成数据资产,方便业务查找及...…
-
Apache Doris 关系模型与数据划分
关系模型与数据划分本文档主要介绍 Doris 的建表和数据划分,以及建表操作中可能遇到的问题和解决方法。基本概念在 Doris 中,数据都以关系表(Table)的形式进行逻辑上的描述。Row & Column一张表包括行(Row)和列(Column)。Row 即用户的一行数据。Column 用于描述一行数据中不同的字段。在默认的数据模型中,Column 只分为排序列和非排序列。存储引擎会按照排序列对数据进行排序存储,并建立稀疏索引,以便在排序数据上进行快速查找。而在聚合模型中,Co...…
-
基于Apache doris怎么构建数据中台(一)-什么是数据中台
这是数据中台系列的第一篇文章,主要阐述数据中台概念,从技术和业务视觉看数据中台及数据中台要解决的问题1.什么是数据中台数据是从业务系统产生的,而业务系统也需要数据分析的结果,那么是否可以把业务系统的数据存储和计算能力抽离,由单独的数据处理平台提供存储和计算能力?这样不仅可以简化业务系统的复杂性,还可以让各个系统采用更合适的技术,专注做本身擅长的事。这个专用的数据处理平台即数据中台。数据中台是一个用技术连接大数据计算存储能力,用业务连接数据应用场景能力的平台。“连接能力”是数据中台的精髓。作...…
-
如何构建公司的数据指标体系
如何构建公司的数据指标体系概述在数据化管理中,数据指标是业务中的核心内容,然而指标管理中总会出现许多问题。指标管理系统在一定程度上可以帮助实现规范化管理,但是针对不同的业务场景与需求,数据管理还应当灵活应变,在实际的业务中我们需要的并不是数据,而是数据背后映射的业务洞察.在业务发展过程中,会产生大量的数据,单看数据是没有价值的,只有和业务相结合转化为信息,再经过处理才能体现起价值.对于业务数据而言,通常分为两项:其一是维度,其二是度量,或者说是指标,这两项构成了我们数据分析的基础.对于结构...…
-
怎么进行数据仓库分层设计及设计规范
1.数据仓库分层模型设计数据平台将数据分为操作数据层(ODS)、公共维度模型层(CDM)(其中公共维度模型层包括明细数据层(DWD)和汇总数据层(DWS))、应用数据层(ADS)分层设计的好处:对数据进行分层的一个主要原因就是希望在管理数据的时候,能对数据有一个更加清晰的掌控,详细来讲,主要有下面几个原因: 清晰数据结构:每一个数据分层都有它的作用域,这样我们在使用表的时候能更方便地定位和理解。 数据血缘追踪:简单来讲可以这样理解,我们最终给业务呈现的是一张能直接使用的张业务表,但是它...…
-
Apache Doris fe配置参数说明
Doris FE配置参数该文档主要介绍 FE 的相关配置项。FE 的配置文件 fe.conf 通常存放在 FE 部署路径的 conf/ 目录下。 而在 0.14 版本中会引入另一个配置文件 fe_custom.conf。该配置文件用于记录用户在运行是动态配置并持久化的配置项。FE 进程启动后,会先读取 fe.conf 中的配置项,之后再读取 fe_custom.conf 中的配置项。fe_custom.conf 中的配置项会覆盖 fe.conf 中相同的配置项。fe_custom.conf...…