前沿开源技术领域的开源大数据一一解读-电子发烧友网

近日，OSCHINA 和 Gitee 联合发布了《2022 中国开源开发者报告》。

其中“前沿开源技术领域解读” 部分，多位在其领域有所建树的一线开发者和开源商业化公司创始人，对目前国内外流行的前沿开源技术领域过去的发展和未来的趋势进行了深入的洞察，覆盖开源云原生、开源 AI、开源大前端、开源大数据、开源 DevOps、RISC-V、开源操作系统、开源数据库、编程语言九大领域。

本篇为开源大数据领域的解读。

近几年，数据技术快速发展，技术栈逐渐成熟，从新一代数据源体系到数据处理体系，再到数据分析、AI 算法体系，数据技术逐步相互融合、相互支持形成有机整体。OLAP、数据湖、数据集成、DataOps、MLOps 等领域变得更加火热。未来，大数据技术会沿着异构计算、批流融合、云化、兼容AI、内存计算等方向持续更迭。

新一代数据栈将逐步替代国内单一“数据中台”

2021 年，美国硅谷最火爆的词汇就是现代数据栈（Modern Data Stack，简称 MDS），它们是以云原生、开源为背景的一系列全新数据技术引擎。相对于传统的闭源、私有化的数据技术来讲，现代数据栈凭借其开放性及公有云的 SaaS 服务快速得到了大量企业用户的认可。

现代数据栈分为若干层次，每个层次相互支持，相互协助，形成一个有机的整体。企业使用的时候，很容易就能利用 SaaS 模式将其整合到一起解决企业数据问题。而开源模式，又给 MDS 生态加入了新的活力，快速发展社区的同时让上下游快速出现新的合作。

近几年，国内出现了大量的开源数据技术。2022 年，这些技术形成了具有上下游的有机集合体，从新一代数据源体系到数据处理体系，再到数据分析、AI 算法体系，逐步相互融合、相互支持形成有机整体。可以看到，国内新一代的数据栈在支持云原生技术基础上，还支持私有云/公有云部署，用新一代的计算引擎、算法、调度、同步机制来支持新一代的数据基础建设。

这些新一代技术栈的流行和商业工具生态的整合，将逐步替代国内单一“数据中台”服务四五个领域的局面。这变得跟美国类似——若干家各自领域的专业企业相互集成，最终给用户提供高效且灵活的专业解决方案。

同时，我也高兴看到，这些开源现代数据栈中很多的商业公司，正在美国、欧洲快速建立社区、SaaS 和相关的商业服务，也有一些公司已经和全球的开源现代技术栈公司进行竞争。整体上，来自国内的新一代的开源现代数据栈（Open-source MDS）现在刚刚兴起。我相信，国内具有大量优秀的开发者、丰富的场景和大量的数据基础，一定会有若干家卓越的开源商业公司出现，最终在全球开源现代数据栈中有一席之地！

郭炜

Apache 基金会成员，Apache 孵化器导师，ClickHouse 华人社区创始人， Apache Dolphin Scheduler PMC，Apache SeaTunnel(incubating) 导师。郭炜先生毕业于北京大学，曾任易观 CTO，联想研究院大数据总监，万达电商数据部总经理，先后在中金、IBM、Teradata 任大数据方重要职位，对大数据前沿研究做出卓越贡献。同时郭先生参与多个技术社区工作，Presto、 Alluxio、Hbase 等，是国内开源社区领军人物。

数据湖与 LakeHouse 依然炙手可热

2022 年，数据湖与 LakeHouse 依然是炙手可热的话题。一方面，在 Apache Iceberg、Apache Hudi、Delta 等知名开源项目的带动下，国内的一些基础软件公司也开始在数据湖开源领域积极布局，代表有网易数帆开源的湖仓管理系统 Arctic，阿里云开源的流式数仓 Flink Tablestore；另一方面，一些传统架构的开源数仓软件，以及闭源的数据分析引擎，也开始积极拥抱开放的数据湖格式，标志性事件如 Snowfake 可以对接 Delta 和 Iceberg，Doris 系的开源数仓可以查询 Iceberg 数据。

在众多开源项目与头部企业的带动下，行业和市场相比去年对 LakeHouse 的价值认知有了长足进步。

目前，用户切入 LakeHouse 主要有两点：一是数据湖上云，公有云的对象存储与私有化的 Hadoop 在一些功能上有较大不同，比如 list 和 rename 接口的性能缺陷，导致用户在把围绕 Hadoop 构建的数仓体系迁往云端时需要应对各种问题，而以 Iceberg 为代表的新型表格式在使用上天然不依赖这些接口，并且提供了 ACID、模式演进等高阶特性，为用户提供了更好的上云方案；二是数据处理的流批一体，新型数据湖格式的快照机制对流更加友好，可以将数据湖拓展到更多流计算场景，甚至演进到流式湖仓的场景，实现实时数仓和离线数仓在湖仓上的统一。

但需要承认的是，LakeHouse 这项技术还没有瓜熟蒂落，尤其在流批一体方面，依然有很多想象空间。在 Gartner 技术成熟度曲线中，LakeHouse 处于期望膨胀期的临界点，距离主流市场采纳还需要 2-5 年的时间。得益于数据湖天然的体量和成本优势，可以预见当 LakeHouse 成为标准技术方案时，它将给企业的数字化转型带来极具意义的变革。

马进

网易数帆大数据实时计算技术专家、湖仓一体项目负责人，负责网易集团分布式数据库、数据传输平台、实时计算平台、实时数据湖等项目，长期从事中间件、大数据基础设施方面的研究和实践，目前带领团队聚焦于流批一体、湖仓一体的平台方案和技术演进，及流式湖仓服务 Arctic 项目开源。

数据技术快速更迭， DataOps 应运而生

今年的大数据发展如火如荼，OLAP、数据湖、数据集成、DataOps、MLOps 等领域非常火热，企业数字化、数智化发展十分蓬勃，开源原生公司发展迅速，数据湖三剑客 Apache Iceberg、Apache Hudi 加上 DataBricks 主导的 Delta Lake 都已经有商业化公司的助力。数据领域的估值愈发突起，比如 DBT Labs 估值已经达到 40 多亿美金，Airbyte 估值已经 15 亿美金。国内以天谋科技、思斐、SelectDB、白鲸开源为代表的大数据开源原生公司开始展露头角。

数据技术正在快速迭代，且迭代速度比以往任何时候都更快，每年新诞生的技术多达几十种，在此的背景下，DataOps 应运而生。DataOps 围绕云原生、敏捷智能化、多云能力等方向重构现代数据技术栈，涵盖了现代数据处理的整个生命周期，包括数据采集、数据加工(ELT/ETL)、数据集成、数据安全、数据治理等多个方面，利用 DataOps 可以高效打造现代数据智能高速公路。

根据 Gartner 的总结，我们来看一下 DataOps 在数据运营体系关键要素中的作用:

（1）流程控制：在 DataOps 中，自动化测试和统计流程控制在数据管道的每一步运行，过滤和消除数据错误，这些数据错误会破坏分析，并产生大量计划外工作影响生产效率。

（2）变更管理：DataOps 关注的是跟踪、更新、同步、集成和维护驱动数据分析管道的代码、文件和功能组件。

（3）并行开发：DataOps 组织并划分数据开发各个阶段，以便团队成员可以高效地协同工作，而不会发生资源冲突。

（4）虚拟化技术环境：DataOps 会虚拟化技术环境，以便将开发与生产隔离。虚拟化可以让业务创新更轻松地通过开发流程，并快速流向生产环境。当需要时，数据分析师可以快速启动一个开发环境，其中包括所需的工具、安全访问、数据、代码。

（5）复用：DataOps 支持复用模型，标准化被广泛使用的功能和分析组件，并简化虚拟环境之间的迁移。

（6）响应能力和灵活性：DataOps 设计数据分析管道以适应不同的运行时情况。这种灵活性使分析能够更好地响应组织的需求和不断变化的优先级。

（7）快速变化：DataOps 将构建技术环境，以实现尽可能短的开发周期时间，同时满足数据使用者的要求。DataOps 的设计理念就是基于变革，DataOps 体系结构将动态数据处理能力视为 “核心思想”，而不是 “亡羊补牢”，做事后的更改。

（8）团队协同：DataOps 协调任务、角色和工作流，以打破不同数据团队和业务团队之间的障碍，以便更好地协同工作。

可以说，DataOps 是快速实践数字化转型的理论指导，贯穿于现代数据技术栈的始末，DataOps 也是降本提效的最佳路径，实践 DataOps 路径的收益立竿见影。

代立冬

白鲸开源联合创始人，Apache DolphinScheduler PMC 主席，Apache SeaTunnel PPMC，Apache 基金会正式成员，Apache 孵化器导师，ApacheCon Asia 大数据william hill官网主席。

更多内容请查看《2022 中国开源开发者报告》

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

开源

开源

+关注

关注
3

文章
3342

浏览量
42490
内存计算

内存计算

+关注

关注
1

文章
15

浏览量
12155
大数据

大数据

+关注

关注
64

文章
8886

浏览量
137433
云原生

云原生

+关注

关注
0

文章
249

浏览量
7950

原文标题：前沿开源技术领域解读——开源大数据

文章出处：【微信号：OSC开源社区，微信公众号：OSC开源社区】欢迎添加关注！文章转载请注明出处。

介绍几大引人注目的开源大数据工具

大数据技术领域正被越来越多的公司关注，而开源一直是大数据技术的灵魂。随着一些细分领域对

发表于 01-29 08:46 •8902次阅读

介绍几大引人注目的<b class='flag-5'>开源</b><b class='flag-5'>大数据</b>工具

常用大数据处理技术归类

性能方面更加出色。想要学习大数据，建议从应用切入、以点带面，先从一个实际的应用领域需求，搞定一个一个技术点，有一定功底之后，再举一反三横向扩展，这样学习效果就会好很多。

发表于 02-28 17:02

大数据运用的技术

处理、集群、实时性计算等，汇集了当前IT领域热门流行的IT技术。想要学好大数据需掌握以下技术：1. Java编程技术Java编程

发表于 04-08 16:50

阿里巴巴高级技术专家章剑锋：大数据发展的 8 个要点

8、开源闭源并驾齐驱11 月 28-30 日，Apache Flink 及大数据领域年度盛会 Flink ForwardAsia 2019 将在北京国家会议中心举办，更多大数据

发表于 10-14 10:56

蚂蚁集团基础设施委员会主席何征宇：开源是核心技术战略

，另一方面也开源了SOFAStack，其中，MOSN为双十一提供了Mesh化解决方案。在安全容器技术领域，Kata Containers是Open Infra顶级项目，于2022年拿到SuperUser

发表于 08-17 11:37

征集令 | 首届开放原子全球开源大赛等你来战！

基于开源技术和智慧交通领域相融合的创新解决方案，不断融合大数据、边缘计算、物联网等技术能力，以全栈开源

发表于 12-08 11:38

中国开源未来发展峰会“问道 AI 分william hill官网 ”即将开幕！

过去几个月，AI 几乎已经成为全民热议的话题。各式开源大模型、训练框架层出不穷；AI 技术也加速应用在各个领域和行业，例如服务运营优化、解决供应链问题等等；数据库、云计算、大前端等多类

发表于 05-09 09:49

大数据开源技术大变迁

在这个基础上，我们看到很多开源云计算、大数据技术框架得到了飞速发展，其中更有一些已经成文业内事实上的标准。这些开源框架的出现大幅度降低了云计算和大数

发表于 10-10 17:02 •0次下载

深度解读大数据的应用现状和开源未来

本文对当前最前沿的开源大数据基准测试集进行全面总结，阐述其历史、现状并展望下一步研究方向。

发表于 12-21 15:57 •4656次阅读

解读ArduBee开源技术背后的创新

这两年,随着开源技术在国内的普及,越来越多用户开始接触到开源产品。技术的精进,使产品也发生了翻天覆地的变化。一些产品正在颠覆你的想象,比如ArduBee: ArduBee是什么?是一款

发表于 04-12 16:41 •1209次阅读

《2022开源大数据热力报告》重磅发布

开放原子开源基金会副秘书长刘京娟对报告进行了深度解读。报告基于公开数据研究最活跃的102个开源大数据项目，探寻出

发表于 11-06 22:15 •803次阅读

开源“摩尔定律”即将打破《2022开源大数据热力报告》云栖大会上发布

京娟女士对报告进行了深度解读。报告基于公开数据研究最活跃的102个开源大数据项目，探寻出开源大数据

发表于 11-09 15:07 •640次阅读

前沿开源技术领域解读——开源大前端

WebGPU 是由 W3C GPU for the Web 社区组所发布的规范，目标是允许网页代码以高性能且安全可靠的方式访问 GPU 功能。WebGPU 是一套为浏览器设计的次时代图形 API 标准，为了弥合各个平台图形 API 的差异性

发表于 02-13 10:45 •1050次阅读

诚邀报名｜黄向东邀您共话开源工业物联网大数据

提供了坚实的技术基础。在推进新型工业化建设的征程中，应对各种复杂的工业场景，亟需在底层操作系统、物联网数据采集、数据管理以及数据分析应用等全生命周期取得软

发表于 12-05 19:35 •549次阅读

诚邀报名｜黄向东邀您共话开源工业物联网大数据

坚实的技术基础。在推进新型工业化建设的征程中，应对各种复杂的工业场景，亟需在底层操作系统、物联网数据采集、数据管理以及数据分析应用等全生命周期取得软件

发表于 12-20 16:54 •373次阅读

搜索历史

前沿开源技术领域的开源大数据一一解读

评论

介绍几大引人注目的开源大数据工具

常用大数据处理技术归类

大数据运用的技术

阿里巴巴高级技术专家章剑锋：大数据发展的 8 个要点

蚂蚁集团基础设施委员会主席何征宇：开源是核心技术战略

征集令 | 首届开放原子全球开源大赛等你来战！

中国开源未来发展峰会“问道 AI 分william hill官网 ”即将开幕！

大数据开源技术大变迁

深度解读大数据的应用现状和开源未来

解读ArduBee开源技术背后的创新

《2022开源大数据热力报告》重磅发布

开源“摩尔定律”即将打破《2022开源大数据热力报告》云栖大会上发布

前沿开源技术领域解读——开源大前端

诚邀报名｜黄向东邀您共话开源工业物联网大数据

诚邀报名｜黄向东邀您共话开源工业物联网大数据