-
Apache doris 数据更新操作
layout: posttitle: “Apache Doris 数据更新操作”date: 2021-09-30description: “Apache Doris 数据更新操作”tag: Apache DorisApache Doris 数据更新操作1. 介绍Doris 数据更新目前只在Unique Key 模型上,其他模型不支持数据更新操作,更新操作有两种方式: REPLACE方式:这种方式和聚合模型中的Replace原理一致,只要表中存在相同key的值,会采用Replace方式替换...…
-
Apache Doris RuntimeFilter 原理及使用
Apache Doris RuntimeFilter 原理及使用1. 介绍Runtime Filter 是在 Doris 0.15 版本中正式加入的新功能。旨在为某些 Join 查询在运行时动态生成过滤条件,来减少扫描的数据量,避免不必要的I/O和网络传输,从而加速查询。Runtime Filter 目前不支持所有外表,只支持 Doris 内部的表Runtime Filter主要用于优化针对大表的join,如果左表的数据量太小,或者右表的数据量太大,则Runtime Filter可能不会取...…
-
Apache Doris 动态分区介绍及使用方法
Apache Doris 动态分区介绍及使用方法1. 介绍在某些使用场景下,用户会将表按照天进行分区划分,每天定时执行例行任务,这时需要使用方手动管理分区,否则可能由于使用方没有创建分区导致数据导入失败,这给使用方带来了额外的维护成本。通过动态分区功能,用户可以在建表时设定动态分区的规则。FE 会启动一个后台线程,根据用户指定的规则创建或删除分区。用户也可以在运行时对现有规则进行变更动态分区是在 Doris 0.12 版本中引入的新功能。旨在对表级别的分区实现生命周期管理(TTL),减少用...…
-
Apache Doris Sequence介绍及使用方法
Apache Doris Sequence介绍及使用方法Sequence列目前只支持Uniq模型,Uniq模型主要针对需要唯一主键的场景,可以保证主键唯一性约束,但是由于使用REPLACE聚合方式,在同一批次中导入的数据,替换顺序不做保证。替换顺序无法保证则无法确定最终导入到表中的具体数据,存在了不确定性。为了解决这个问题,Doris支持了sequence列,通过用户在导入时指定sequence列,相同key列下,REPLACE聚合类型的列将按照sequence列的值进行替换,较大值可以替...…
-
Flink 使用 sql 读取 kafka 利用doris flink connector写入到doris表中
Flink 使用 SQL 读取 Kafka 利用Doris Flink Connector写入到Doris表中这次我们演示的是整合Flink Doris Connector 到 Flink 里使用,通过Flink Kafka Connector,通过SQL的方式流式实时消费Kafka数据,利用Doris Flink Connector将数据插入到Doris表中。这里的演示我们是用过Flink SQL Client来进行的,1. 准备条件这里我们使用的环境是 Doris-0.14.7 d...…
-
Apache Doris Routine Load数据导入使用方法
Apache Doris Routine Load数据导入使用方法1.概要Routine load 功能为用户提供了一种自动从指定数据源进行数据导入的功能。Routine Load 是支持用户提交一个常驻的导入任务,通过不断的从指定的数据源读取数据,将数据导入到 Doris 中。目前仅支持通过无认证或者 SSL 认证方式,从 Kakfa 导入的数据。Routine load是一种同步的数据导入方式。Routine load 支持导入的数据类型: 文本 和 JSON两种格式2. 原理FE 通...…
-
Apache Doris Datax DorisWriter扩展使用方法
Apache Doris Datax DorisWriter扩展使用方法DataX 是阿里云 DataWorks数据集成 的开源版本,在阿里巴巴集团内被广泛使用的离线数据同步工具/平台。DataX 实现了包括 MySQL、Oracle、SqlServer、Postgre、HDFS、Hive、ADS、HBase、TableStore(OTS)、MaxCompute(ODPS)、Hologres、DRDS 等各种异构数据源之间高效的数据同步功能为了更好的扩展Apache doris生态,为do...…
-
Apache Doris Stream Load数据导入
Apache Doris Stream load 数据导入1.概要Stream load 是一个同步的导入方式,用户通过发送 HTTP 协议发送请求将本地文件或数据流导入到 Doris 中。Stream load 同步执行导入并返回导入结果。用户可直接通过请求的返回体判断本次导入是否成功。Stream load 主要适用于导入本地文件,或通过程序导入数据流中的数据。Broker load 支持文件类型:文本和JSON两个格式的数据2. 原理Stream Load请求FE和BE两种方式,连...…
-
Apache Doris Broker 数据导入
Apache Doris Broker数据导入1.概要Broker load 是一个异步的导入方式,支持的数据源取决于 Broker 进程支持的数据源。用户需要通过 MySQL 协议 创建 Broker load 导入,并通过查看导入命令检查导入结果主要适用于以下场景: 外部数据源(如 HDFS等)读取数据,导入到Doris中。 数据量在 几十到百GB 级别。 主要用于数据迁移,或者定时批量导入Broker load 支持文件类型:PARQUET、ORC、CSV格式2. 原理用户在...…
-
Apache Doris 数据导入总览
Apache Doris 数据导入总览1.导入总览介绍Apache Doris 的数据导入功能是提供用户将数据导入到 Doris 中,导入成功之后,用户可以通过 Mysql 客户端使用SQL对数据进行查询分析。Doris 为满足不同场景的数据数据导入需求,提供了一下几种数据导入方式,每种数据导入方式都支持不同的数据源,存在不同的使用方式:同步,异步,每种导入方式也支持不同的数据格式:CSV,JSON,Parquet、ORC等1.1 Broker Load方式这种方式需要安装一个 Doris...…
-
Apache Doris 升级手册
Apache Doris 升级手册Doris 可以通过滚动升级的方式,平滑进行升级。升级顺序是先升级BE,再升级FE,不能颠倒升级顺序。Doris保证BE向后兼容FE。升级的过程可以分为: 测试 Doris BE 升级的正确性, 测试 Doris FE 元数据兼容, 滚动升级 观察升级后的集群服务 注: 1.为了保证在集群升级过程中,Doris服务是可用的,建议Doris集群 在高可用部署的情况下进行。即数据 3 副本,FE 高可用情况下。 2.Doris 不支持跨两位版本升...…
-
Apache Doris 环境安装部署
Apache Doris 环境安装部署这里以百度的Doris发行版 Palo-0.14.13版本为例进行演示编译安装部署1. Doris编译1.1 docker 镜像下载这里我们使用的最新镜像Apache doris 0.14.0及百度发布的Palo-0.14.7及之前的版本都是要在Docker 1.2版本下编译,之后的在Docker 1.3.1下编译1.3.1 版本 Docker 镜像下载$ docker pull apache/incubator-doris:build-env-1.3...…
-
Apache Doris常见问题答疑(二)
Q:show backends/frontends 查看到的信息不完整A:在执行如 show backends/frontends 等某些语句后,结果中可能会发现有部分列内容不全。比如show backends结果中看不到磁盘容量信息等。通常这个问题会出现在集群有多个FE的情况下,如果用户连接到非Master FE节点执行这些语句,就会看到不完整的信息。这是因为,部分信息仅存在于Master FE节点。比如BE的磁盘使用量信息等。所以只有在直连Master FE后,才能获得完整信息。当然,...…
-
Apache Doris常见问题答疑(一)
Q:invalid cluster id: xxxxA:这个错误可能会在show backends 或 show frontends 命令的结果中出现。通常出现在某个FE或BE节点的错误信息列中。这个错误的含义是,Master FE向这个节点发送心跳信息后,该节点发现心跳信息中携带的 cluster id和本地存储的 cluster id不同,所以拒绝回应心跳。Doris的 Master FE 节点会主动发送心跳给各个FE或BE节点,并且在心跳信息中会携带一个cluster_id。clus...…
-
基于Apache-doris怎么构建数据中台(八)-数仓管理
这次主要是讲述doris的数仓怎么管理 整个数仓管理系统是依赖于之前讲的数据中台第二部分数据资产管理中的元数据管理,主要是围绕Apache doris进行,不牵涉其他的数仓平台。这里只介绍了我们数仓管理建设的功能,数仓管理的规范可以参照另外一篇文章怎么进行数据仓库分层设计及设计规范数仓分层模型数仓分层模型的好处:1、数据结构化更清晰:每一个数据分层都有它的作用域和职责,在使用表的时候能更方便地定位和理解。2、数据血缘追踪:提供给外界使用的是一张业务表,但是这张业务表可能来源很多张表。如果有...…
-
神仙打架海底捞火了
这两天Apache Doris 和StarRocks(原Dorisdb)之间进行了一张激烈的辩论StarRocks发表的星辰大海 StarRocks开源——携手未来,星辰大海!拉了一帮大佬来站台,不过视频很快就删掉了。社区也针对StarRocks发表了自己的回应,具体回应信息如下:你们想知道的一切,都在这里了社区的回应可以说有理有据,不吭不卑,讲清楚了整个事情的来龙去脉,也解惑了社区很多小伙伴关于Apache doris和Dorisdb的疑惑,同时SegmentFault 思否也对整个事...…
-
Apache Doris ODBC mysql外表注意事项
前面一篇文章介绍了Apache doris ODBC外表使用方式,这里要说的是在使用Mysql的ODBC外表的时候要注意事项: mysql数据库及表的字符集一定要是用UTF8,不要使用UTF8mb4,目前doris ODBC外表只支持UTF8编码 在doris BE节点配置conf/odbcinst.ini,这里配置[MySQL Driver]Description = ODBC for MySQLDriver = /usr/lib/libmyodbc8w.s...…
-
基于Apache Doris怎么构建数据中台(七)-数据指标管理
指标体系定义指标体系是将零散单点的具有相互联系的指标,系统化的组织起来,通过单点看全局,通过全局解决单点的问题。它主要由指标和体系两部分组成。指标是指将业务单元细分后量化的度量值,它使得业务目标可描述、可度量、可拆解,它是业务和数据的结合,是统计的基础,也是量化效果的重要依据。指标主要分为结果型和过程型: 结果型指标 用于衡量用户发生某个动作后所产生的结果,通常是延后知道的,很难进行干预。结果型指标更多的是监控数据异常,或者是监控某个场景下用户需求是否被满足 过程型指标 用户在做某个动...…
-
Apache Doris Windows 下 fe 开发环境搭建
Apache Doris Windows 下 fe 开发环境搭建1.环境准备JDK1.8+ , Intellj IDEA1.linux上编译好fe前端代码,主要目的是获取自动生成的代码,加入到前段工程里面去用于在idea中编译fe工程在linux下,进入到源码目录,执行下面的命令:$ sh build.sh --clean --fe然后将 gensrc目录打包,拿出来,如下图2.在windows下解压gensrc.tar.gz,解压后的目录如下图:3.进入build/java,将红色框出...…
-
Apache Doris BE 开发环境搭建
Apache Doris BE 开发环境搭建前期准备工作本教程是在Ubuntu 20.04下进行的 下载doris源代码 下载地址为:apache/incubator-doris: Apache Doris (Incubating) (github.com) 安装GCC 8.3.1+,Oracle JDK 1.8+,Python 2.7+,确认 gcc, java, python 命令指向正确版本, 设置 JAVA_HOME 环境变量 安装其他依...…