大数据已死?

分布式系统分布式系统

Created At : 2023-06-28 17:23

Views 👀 :

大数据已死的几个原因
现在的一些方向
1. Native Engine
参考

大数据时代已经结束了，大数据的存储和分析，作为一个技术问题已经解决了。
—— Jordan Tigani

大数据起源于谷歌于2003年起发布一系列论文（大数据三驾马车）

GFS 的论文《The Google File System 》发表于 2003 年，它主要是解决了数据的存储问题。作为一个上千节点的分布式文件系统，Google 可以把所有需要的数据都能很容易地存储下来。
MapReduce的论文《MapReduce: Simplified Data Processing on Large Clusters》，利用简单的 Map 和 Reduce 两个函数，对于海量数据计算做了一次抽象，这就让“处理”数据的人，不再需要深入掌握分布式系统的开发了。
《Bigtable: A Distributed Storage System for Structured Data》提出了 Google 设计的分布式数据存储系统 BigTable，来解决解决数据的高性能随机读写问题，是用来处理海量数据的一种非关系型数据库。BigTable 是一个稀疏的、分布式的、持久化存储的多维度排序的映射表。（HBase是Google Bigtable的开源实现，适合于非结构化数据存储的数据库，其基于列的而不是基于行的存储模式）

大数据也或多或少影响到了后续云计算的发展方向，Hadoop后来他做云，云上放 MapReduce，并以Hadoop接口的方式对外提供服务，阿里云一开始做云计算，参考的就是Hadoop集群做批处理的方式，10年代之后伴随着AWS给出基于虚拟化做出可调度的计算/存储单元的云计算解决方案并获得巨大成功，才把云计算拉回当今世界线的轨道上。

大数据已死的几个原因

绝大多数企业到不了大数据级别，企业的数据量往往不到 1TB，很多甚至不到 100GB。
存储和计算正在分离，大数据作为单一问题就不存在了，变成了海量存储和大型计算两个问题
没有新业务的情况下，数据是线性增长的，即每天的新增数据与以前的数据结构相同。
看重的往往只是最近的数据，90%的查询涉及的数据少于 100 MB。
真正拥有大数据的公司，几乎从不查询全部数据。
硬件的飞速发展，使得单台计算机的计算能力大增，意味着大数据的最大难点—-分布式计算—-即使被用到，困难程度也大大降低。

综上所述，结论就是：数据量已经不需要特别关注了，再也不必担心处理不了海量数据了。大数据作为一个技术问题，已经解决了。

现在的一些方向

Native Engine

近年来，随着 IO 技术的提升，尤其是 SSD 和万兆网卡的普及，大家基于 Apache Spark 的数据负载场景遇到越来越多的 CPU 计算瓶颈，而不是传统认知中的 IO 瓶颈。而众所周知，基于 JVM 进行 CPU 指令的优化比较困难，因为 JVM 提供的 CPU 指令级的优化（例如 SIMD）要远远少于其他 Native 语言（例如 C++）。

同时，大家也发现目前开源社区已经有比较成熟的 Native Engine（例如 ClickHouse、Velox），具备了优秀的向量化执行（Vectorized Execution）能力，并被证明能够带来显著的性能优势，然而它们往往游离于 Spark 生态之外，这对已经严重依赖 Spark 计算框架、无法接受大量运维和迁移成本的用户而言不够友好。Gluten 社区希望能够让 Spark 用户无需迁移，就能享受这些成熟的 Native Engine 带来的性能优势。

参考

转载无需注明来源，放弃所有权利