-
[云器Lakehouse系列] 从 Data 到 Data+AI,数据基础设施第三次演进的观察与思考
从 Data 到 Data+AI,数据基础设施第三次演进的观察与思考随着数据基础设施的不断演进,数据分析和人工智能技术也在不断发展。本文将分享关于数据基础设施第三次演进的观察与思考,结合云器科技的实践经验,探讨新一代数据平台架构的演进思路以及面临的挑战,并展望未来数据平台发展趋势,希望为数据基础设施发展提供一些思路和启示。主要内容包括以下四大部分: 当前数据平台发展现状综述 新一代数据平台架构演进思路与验证 面向未来的几个发展趋势和未解难题 总结当前数据平台发展现状综述1. 202...…
-
[云器Lakehouse系列] 什么是湖仓一体数据平台?怎么构建湖仓一体数据平台
什么是湖仓一体数据平台?怎么构建湖仓一体数据平台什么是湖仓一体数据平台?世界各地的组织都在寻找存储解决方案来管理大数据的数据量、延迟时间、弹性和数据访问要求。最初,很多公司利用现有的技术栈,尝试让数据湖提供与仓库相同的功能,调整数据仓库以处理大量的半结构化数据,或选择将数据保留在这两种系统中。最终,这些方法导致了成本居高不下、用户不愉快以及整个企业的数据重复。数据湖仓一体已成为一种新的混合数据架构,旨在提供数据仓库和数据湖的所有出色优势,同时消除两个系统的弱点。一般湖仓一体数据平台基于的低...…
-
[云器Lakehouse系列] 关涛:数智平台重回“战国时代“ - 新一代DA平台架构的设计原则与演进思路(上)
关涛:数智平台重回“战国时代“ - 新一代DA平台架构的设计原则与演进思路(上)数据平台的三次革命,以及背后的驱动力数据平台的发展历程可以分为三个阶段:20世纪70年代,关系型模型和SQL语言的出现推动了数据库技术的发展,主要处理小规模的结构化数据;2000年,Google为了满足搜索业务需求,奠基了大数据和分布式系统技术,推动了大数据平台的发展;2022-2023年,GPU规模扩大和数据量增加,使得大模型具备了涌现能力和智能。展望未来,随着智能汽车等设备的普及,机器数据将成为主流,其数据...…
-
[云器Lakehouse系列] 如何高效解锁业务数据价值:多云时代应该怎么构建新一代数据平台架构
本文是“2021 InfoQ 年度技术盘点与展望”系列文章之一,由 InfoQ 编辑部制作呈现,重点聚焦大数据领域在 2021 年的重要进展、动态,希望能帮助你准确把握 2021 年大数据领域的核心发展脉络,在行业内始终保持足够的技术敏锐度。“InfoQ 年度技术盘点与展望”是 InfoQ 全年最重要的内容选题之一,将涵盖架构、AI、大数据、大前端、云计算、数据库、中间件、操作系统、开源、编程语言十大领域,后续将聚合延展成专题、迷你书、直播周、合集页面,在 InfoQ 媒体矩阵陆续放出,...…
-
Apache doris binlog load使用方法
Apache Doris Binlog Load使用方法及示例1. 安装配置 Mysql 安装Mysql 快速使用Docker安装配置Mysql,具体参照下面的连接 https://segmentfault.com/a/1190000021523570 如果是在物理机上安装可以参考下面的连接: 在 CentOS 7 中安装 MySQL 8 的教程详解 开启Mysql binlog 进入 Docker 容器或者物理机上修改/etc/my....…
-
Apache Doris Grafana监控指标介绍
Apache Doris Grafana监控指标介绍整个集群重点关注的几个指标: 集群 FE JVM 堆统计 集群BE内存使用情况概览 Max Replayed journal id BDBJE Write Tablet调度情况 BE IO统计 BE Compaction Score Query Statistic这部分查询请求数及响应时间 BE BC(Base Compaction)和CC(Compaction Cumulate)1.总览视图1.1 Doris FE状态...…
-
Apache Doris 数据备份及恢复
Apache Doris 数据备份及恢复Apache Doris 支持将当前数据以文件的形式,通过 broker 备份到远端存储系统中,之后可以通过恢复命令,从远端存储系统中将数据恢复到任意 Doris 集群。通过这个功能,Doris 可以支持将数据定期的进行快照备份。也可以通过这个功能,在不同集群间进行数据迁移。使用该功能,需要部署对应远端存储的 broker,如 HDFS 等。可以通过 SHOW BROKER; 查看当前部署的 brokerBroker 是 Doris 集群中一种可选进...…
-
Apache Doris 删除数据恢复
Apache Doris 删除数据恢复Apache Doris为了避免误操作造成的灾难,支持对误删除的数据库/表/分区进行数据恢复,在drop table或者 drop database之后,Doris不会立刻对数据进行物理删除,而是在 Trash 中保留一段时间(默认1天),管理员可以通过RECOVER命令对误删除的数据进行恢复1.数据恢复命令## 恢复 databaseRECOVER DATABASE db_name;## 恢复 tableRECOVER TABLE [db_name....…
-
Apache Doris 元数据运维
Apache Doris 元数据运维1. 元数据恢复Apache Doris在实际使用中可能是因为某些原因 FE(Frontend)出现无法启动 bdbje、FE 之间元数据无法同步等问题。故障表现包括:无法进行元数据写操作、没有 MASTER 等等,这时就需要手动恢复 FE。 重要提示 当前元数据的设计是无法向后兼容的。即如果新版本有新增的元数据结构变动(可以查看 FE 代码中的 FeMetaVersion.java 文件中是否有新增的 VERSION),那么在升级到新版本后,通常是...…
-
Apache Doris 实战指南
第一部分 Apache Doris 使用入门1.1 Apache Doris 介绍Apache Doris 架构及组件介绍 1.2 Apache Doris 安装1.2.1 Doris 编译安装部署手册Apache Doris 环境编译安装部署 Apache Doris 升级手册 使用supervisor实现Apache Doris进程自动拉起1.2.2 Doris FE 高可用及负载均衡Apache Doris FE使用ProxySQL实现负载均衡 1.3. Apache Doris 模...…
-
Apache Doris 数据导出
Apache Doris 数据导出1.概述Apache Doris为了方便用将Doris的数据导出到其他系统, 提供了两种将数据导出的方式: Export 方式: Export 是 Doris 提供的一种将数据导出的功能。该功能可以将用户指定的表或分区的数据,以文本的格式,通过 Broker 进程导出到远端存储上,如 HDFS/BOS 等。 查询结果集导出方式: 查询结果集的导出是使用 SELECT INTO OUTFILE 命令进行查询结果的导出操作。...…
-
Apache Doris On ElasticSearch 使用
Apache Doris On ElasticSearch 使用1.概述Doris-On-ES将Doris的分布式查询规划能力和ES(Elasticsearch)的全文检索能力相结合,提供更完善的OLAP分析场景解决方案: ES中的多index分布式Join查询 Doris和ES中的表联合查询,更复杂的全文检索过滤 注意: Doris On ES对ES的版本要求ES主版本大于5,ES在2.x之前和5.x之后数据的扫描方式不同,目前支持仅5.x之后的 目前Doris O...…
-
基于Apache doris怎么构建数据中台(九)-数据安全
基于Apache doris怎么构建数据中台(九)-数据安全数据安全有对立的两方面的含义:一是数据本身的安全,主要是指采用现代密码算法对数据进行主动保护,如数据保密、数据完整性、双向强身份认证等,二是数据防护的安全,主要是采用现代信息存储手段对数据进行主动防护,如通过磁盘阵列、数据备份、异地容灾等手段保证数据的安全,数据安全是一种主动的包含措施,数据本身的安全必须基于可靠的加密算法与安全体系,主要是有对称算法与公开密钥密码体系两种,数据处理的安全是指如何有效的防止数据在录入、处理、统计或打...…
-
Spark Doris Connector设计方案
Spark Doris Connector设计方案Spark Doris Connector 是Doris在0.12版本中推出的新功能。用户可以使用该功能,直接通过Spark对Doris中存储的数据进行读写,支持SQL、Dataframe、RDD等方式。从Doris角度看,将其数据引入Spark,可以使用Spark一系列丰富的生态产品,拓宽了产品的想象力,也使得Doris和其他数据源的联合查询成为可能1.技术选型在早期的方案中,我们直接将Doris的JDBC接口提供给Spark。对于JDB...…
-
Flink Doris Connector设计方案
Flink Doris Connector设计方案从Doris角度看,将其数据引入Flink,可以使用Flink一系列丰富的生态产品,拓宽了产品的想象力,也使得Doris和其他数据源的联合查询成为可能从我们业务架构出发和业务需求,我们选择了Flink作为我们架构的一部分,用于数据的ETL及实时计算框架,社区目前支持Spark doris connector,因此我们参照Spark doris connector 设计开发了Flink doris Connector。1.技术选型一开始我们选...…
-
Apache Doris 数据导入之INSERT
Apache Doris 数据导入之INSERT1. 概述Insert Into 语句的使用方式和 MySQL 等数据库中 Insert Into 语句的使用方式类似。但在 Doris 中,所有的数据写入都是一个独立的导入作业。所以这里将 Insert Into 也作为一种导入方式介绍。主要的 Insert Into 命令包含以下两种; INSERT INTO tbl SELECT … INSERT INTO tbl (col1, col2, …) VALUES (1, 2, …), ...…
-
Apache Doris Colocate Join 原理及使用
Apache Doris Colocate Join 原理及使用1. 概述Colocation Join 是在 Doris 0.9 版本中引入的新功能。旨在为某些 Join 查询提供本地性优化,来减少数据在节点间的传输耗时,加速查询。我们都知道 Join 的常见连接类型分为以下几种: INNER JOIN OUTER JOIN CROSS JOIN SEMI JOIN ANTI JOINJoin 的常见算法实现包含以下几种: Nested Loop Join Sort Mer...…
-
Apache Doris Bucket Shuffle Join 原理及使用
Apache Doris Bucket Shuffle Join 原理及使用1. 概述Bucket Shuffle Join 是在 Doris 0.14 版本中正式加入的新功能。旨在为某些 Join 查询提供本地性优化,来减少数据在节点间的传输耗时,来加速查询。Bucket Shuffle Join 和 Colocate Join的区别在于:Colocate Join是本地计算,不会产生网络传输,而Bucket Shuffle Join是本地性优化,减少网络传输,还是回产生网络传输。2.名...…
-
数据治理方案
数据治理方案1. 为什么要做数据治理 随着移动互联网的兴起,线下商业活动逐渐开始向线上化发展,数据的产生速度有了极大的提升。越来越多的公司开始认识到数据的重要性,并将其打造成为公司的核心资产,从而驱动业务的发展。在数据相关的领域中,“数据治理”这个话题近两年尤为火热,很多公司特别是大型互联网公司都在做一些数据治理的规划和动作。 为什么要做数据治理?因为在数据产生、采集、加工、存储、应用到销毁的全过程中,每个环节都可能会引入各种质量、效率或安全相关的问题。在公...…
-
Apache Doris SQL 日志审计
Apache Doris SQL 日志审计1. 介绍Doris 的审计日志插件是在 FE 的插件框架基础上开发的。是一个可选插件。用户可以在运行时安装或卸载这个插件。该插件可以将 FE 的审计日志定期的导入到指定 Doris 集群中,以方便用户通过 SQL 对审计日志进行查看和分析。这里的数据其实是Doris FE log目录下的 fe.audit.log 文件中的数据2. 安装部署2.1 编译在 Doris 代码目录下执行sh build_plugin.sh编译完成后会在 fe_plu...…