-
Apache doris 排序键及ShortKey Index
1.排序列的原理Apache Doris中为加速查询,在内部组织并存储数据时,会把表中数据按照指定的列进行排序,这部分用于排序的列(可以是一个或多个列),可以称之为Sort Key。明细模型中Sort Key就是指定的用于排序的列(即 DUPLICATE KEY 指定的列),聚合模型中Sort Key列就是用于聚合的列(即 AGGREGATE KEY 指定的列),唯一主键模型中Sort Key就是指定的满足唯一性约束的列(即 UNIQUE KEY 指定的列)。下图中的建表语句中Sort K...…
-
Apache Doris社区之星
一个人可能走得更快,但是一群人会走得更远。在开源过程中,你会结识志同道合的朋友,获得朋友的认可与支持,甚至能够与自己崇拜的业界大佬共同交流。是不是想想就让人感到兴奋?所谓“一荣俱荣,一损俱损”,开源社区的发展离不开开源者的贡献,开源者的诉求、成长、交流以及思想也需要依赖开源社区,开源领域的发展与每一位开发者都息息相关。如果有自己的想法,就动手去实现,通过开源可以为人们带来各种超乎想象力的事情。感谢社区的认可,后续我也会更积极的参与到社区建设中,一起将Doris做的更好…
-
自己开源的一个大数据BI可视化系统(支持Apache Doris)
介绍这是一个可自由拖拽的BI可视化系统后端框架使用了若依去年疫情期间没事随手写的一个,如果你觉得好,别忘了加个星,谢谢这个完全支持Apache doris功能 按项目管理数据看板 看板具备分享功能 可以自由拖拽实现数据看板 自由拖拽实现图表开发 提供数据报表开发工具 提供sql开发控制台 数据下钻(按维度下钻) 数据源管理 元数据管理 用户管理目录结构:mobile :手机端,手机端只是查看,不具备设计功能ui:pc端doc:这里是数据库脚本编译进入到前端页面目录(ui...…
-
Flink Mysql CDC结合Doris flink connector实现数据实时入库
Flink Mysql CDC结合Doris flink connector实现数据实时入库Apache doris通过扩展支持通过 Flink 读写 doris 数仓中的数据表,目前 doris 支持 Flink 1.11.x ,1.12.x,1.13.x,Scala版本:2.12.x目前Flink doris connector目前控制入库通过两个参数: sink.batch.size :每多少条写入一次,默认100条 sink.batch.interval :每个多少秒写入一下,...…
-
基于Apache doris怎么构建数据中台(六)-数据服务管理
上次讲数据质量的控制,那么针对据仓的数据及各种数据指标怎么快捷的对外提供数据服务,怎么快速的完成数据服务接口的开发,这次我们重点围绕这个进行展开。怎么实现接口开发零代码实现数据服务从字面上理解就是数据相关的服务,和业务服务的最大不同之处它并不包含具体业务逻辑处理,与之产出的数据服务大多为统计、决策类的数据结果。很多时候大数据平台服务都是提供了数据分析的能力,分析的结果可以导出Excel,或直接查表来查看。如果要是对外提供服务的话,可能会由不同的业务团队对基础表产出相似的指标分析结果,这样的...…
-
基于Apache doris怎么构建数据中台(五)-数据质量管理
上一次我们讲了,数据怎么进行快速的接入,这次我们讲在接入及后续的数据处理中质量怎么控制如何更加合理、高效的监控每类作业的运行状态,并将原本分散、孤岛式的监控日志信息通过规则引擎集中共享、关联、处理;洞察关键信息,形成事前预判、事中监控、事后跟踪的质量管理闭环流程;沉淀故障问题,搭建解决方案的知识库体系。在数据质量监管平台的规划建设中,面临如下挑战: 缺乏统一监控视图,离线和实时作业监控分散,影响性、关联性不足。 数据质量的衡量标准缺失,数据校验滞后,数据口径不统一。 问题故障处理流程...…
-
参与开源两年来的感悟
从事大数据开发也十年多了,之前也改过Hadoop,HBase,Hive,presto的源码,但是也只是自己在实际工作中遇到问题,修改Bug,没有去社区提PR,也没有去提Issues等,包括最开始使用Hadoop 0.20的时候,那个时候NameNode是没有HA的,自己通过NFS(共享文件系统)和Zookeeper实现NameNode HA,代码也都是自己使用,对外保密,遇到问题也就是通过google搜索找解决方案,找不到的自己去研究源码想办法修改。从去年开始接触Apache doris(...…
-
[Doris 社区的访谈]一个人可能走得更快,但一群人会走得更远
「社区人物志」是 Apache Doris 社区推出的系列专栏,我们关注每一个对 Doris 做出过贡献的 Contributor ,会定期从对 Doris 做出突出贡献的小伙伴中选出一位「社区之星」,并会对「社区之星」进行专访,希望 TA 与 Doris 的故事可以被大家听见,也希望有更多的小伙伴参与到社区建设中来。本期我们采访了蜀海供应链大数据团队负责人张家锋,来听听一个纯粹的技术人的开源经历与技术思考。01 关于自己Q:请先简单介绍一下自己过往的技术经历?大家好我是张家锋,目前在海底...…
-
Apache Doris 架构及组件介绍
1.概述Apache Doris是一个现代化的MPP分析型数据库产品。仅需亚秒级响应时间即可获得查询结果,有效地支持实时数据分析。Apache Doris的分布式架构非常简洁,易于运维,并且可以支持10PB以上的超大数据集。Apache Doris可以满足多种数据分析需求,例如固定历史报表,实时数据分析,交互式数据分析和探索式数据分析等。令您的数据分析工作更加简单高效!什么是 MPP?MPP ( Massively Parallel Processing ),即大规模并行处理,在数据库非共...…
-
Apache doris 使用过程中常见问题汇总
这是从社区很多人在使用过程中遇到的问题进行的总结,汇总发布出来方便大家查阅*1.tablet writer write failed, tablet_id=27306172, txn_id=28573520, err=-235 or -215*这个错误通常发生在数据导入操作中。新版错误码为 -235,老版本错误码可能是 -215。这个错误的含义是,对应tablet的数据版本超过了最大限制(默认500),后续写入将被拒绝。比如问题中这个错误,即表示 27306172 这个tablet的数据版...…
-
Apache Doris FE使用ProxySQL实现负载均衡
ProxySQL是灵活强大的MySQL代理层, 是一个能实实在在用在生产环境的MySQL中间件,可以实现读写分离,支持 Query 路由功能,支持动态指定某个 SQL 进行 cache,支持动态加载配置、故障切换和一些 SQL的过滤功能。ProxySQL的优缺点,这里我就不说了,我只介绍怎么安装使用ProxySQL安装(yum方式)[root@mysql-proxy ~]# vim /etc/yum.repos.d/proxysql.repo[proxysql_repo]name= Pro...…
-
Apache Doris Stream load使用方法及示例
Stream Load介绍Stream load 是一个同步的导入方式,用户通过发送 HTTP 协议发送请求将本地文件或数据流导入到 Doris 中。Stream load 同步执行导入并返回导入结果。用户可直接通过请求的返回体判断本次导入是否成功。Stream load 主要适用于导入本地文件,或通过程序导入数据流中的数据具体的原理可以参照官网,这里只介绍怎么通过Java程序通过Stream load导入文件及数据流中的数据。Stream Load参数说明Stream load 由于使用...…
-
Apache doris ODBC外表使用方式
Apache doris ODBC外表使用方式1.概述ODBC External Table Of Doris 提供了Doris通过数据库访问的标准接口(ODBC)来访问外部表,外部表省去了繁琐的数据导入工作,让Doris可以具有了访问各式数据库的能力,并借助Doris本身的OLAP的能力来解决外部表的数据分析问题: 支持各种数据源接入Doris 支持Doris与各种数据源中的表联合查询,进行更加复杂的分析操作 通过insert into将Doris执行的查询结果写入外部的数据源本文...…
-
Apache doris 数据模型
Apache doris 数据模型本文档主要从逻辑层面描述 Doris 的数据模型以帮助用户更好的使用 Doris 应对不同的业务场景。基本概念在 Doris 中,数据以表(Table)的形式进行逻辑上的描述。 一张表包括行(Row)和列(Column)。Row 即用户的一行数据。Column 用于描述一行数据中不同的字段。Column 可以分为两大类:Key 和 Value。从业务角度看,Key 和 Value 可以分别对应维度列和指标列。Doris 的数据模型主要分为3类: Dupl...…
-
Apache Doris 物化视图介绍
Apache Doris 物化视图介绍改文章是基于Doris核心开发工程师缪翎在2020年7月线上meetup的PPT整理1.Doris概述首先 Doris 一个MPP架构的,分析型的数据库产品。对于PB数量级的,结构化数据,可以做到亚秒级查询响应。使用上兼容 MySQL 协议,语法是标准的 SQL。本身不依赖任何其他系统,相比hadoop生态产品更易于运维。应用场景包括:固定历史报表xxx用户的原始数据,比如日志,或者在事务数据库中的数据,经过流式系统或离线处理后,导入到Doris中,供...…
-
基于Apache doris怎么构建数据中台(四)-数据接入系统
基于Apache doris怎么构建数据中台(四)-数据接入系统上一次我们讲解了数据资产,元数据管理,血缘关系等,这次我们开始将数据接入,怎么实现快速的数据接入在开发数据模型时,我们必须有一个统一的平台,能够像流水线一样,把数据一步步加工成数据模型。这其中涉及到数据萃取、数据聚合、作业调度等。主要是为了实现业务数据的快速接入,零代码实现,数据分析人员只需要通过UI进行简单的配置、提交任务即可完成数据的接入,并能实现对数据接入任务的管理及监控。Mysql数据源数据接入主要是为了完成针对Mys...…
-
基于Apache doris怎么构建数据中台(三)-数据资产管理
基于Apache doris怎么构建数据中台(三)-数据资产管理前面我们讲了什么是数据中台,及数据中台的架构及功能规划,这次我们开始从数据资产开始拆解每个功能模块做的内容1.概述数据资产管理平台可以定量评估数据资产的成本,价值,质量。帮助企业优化存储成本,节约计算资源。精细化的数据生命周期管理,帮助企业更好的管理数据的生产到销毁的整个生命周期。在管理方面:管理者在规划数据文化建设时,对企业数据资产的全局构成、使用形式、 使用效果都需要详细的指标输入,往往这些指标都没有被统筹起来;在组织保障...…
-
元数据管理系统
元数据管理系统这里我们要先搞懂什么是元数据?元数据和数据的区别是什么?元数据有什么作用1.什么是元数据举几个例子: 如果一本书是一个“数据”,那么它的书名、封面、出版社、作者、总页码就是它的“元数据”。 如果数据库中某个表是一个”数据”,那么它的列名、列类型、列长度、表注释就是它的”元数据”。元数据用来描述数据的数据,通过描述数据的产生、存储、使用情况、业务含义等信息,以及数据管理人员相关信息。让人们能够清楚拥有什么数据、代表什么、源自何处、如何在系统中移动,以及哪些人可以使用源数据,...…
-
基于Apache doris怎么构建数据中台(二)-数据中台建设内容
这次主要是将基于Doris的数据中台建设内容及系统架构设计围绕着上次将的我们要解决的五个问题:找数,理解数据,问题评估,取数及数据可视化,给出一个概要的设计及框架数据中台建设内容 数据规范统一:采用维度事实建模理论进行严格的,规范化、标准化的定义,保障数据质量,避免数据指标的二义性。 一站式研发体验:从数据接入、建模、研发、运维、数据查找及探查等过程提供高效一站式统一的研发立案率。 系统化构建数据体系:以标准的技术框架,系统地构建规范可读的业务化数据体系,形成数据资产,方便业务查找及...…
-
Apache Doris 关系模型与数据划分
关系模型与数据划分本文档主要介绍 Doris 的建表和数据划分,以及建表操作中可能遇到的问题和解决方法。基本概念在 Doris 中,数据都以关系表(Table)的形式进行逻辑上的描述。Row & Column一张表包括行(Row)和列(Column)。Row 即用户的一行数据。Column 用于描述一行数据中不同的字段。在默认的数据模型中,Column 只分为排序列和非排序列。存储引擎会按照排序列对数据进行排序存储,并建立稀疏索引,以便在排序数据上进行快速查找。而在聚合模型中,Co...…