大数据已死?

  1. 大数据已死的几个原因
  2. 现在的一些方向
    1. Native Engine
  3. 参考

大数据时代已经结束了,大数据的存储和分析,作为一个技术问题已经解决了。
—— Jordan Tigani

大数据起源于谷歌于2003年起发布一系列论文(大数据三驾马车)

  1. GFS 的论文《The Google File System 》发表于 2003 年,它主要是解决了数据的存储问题。作为一个上千节点的分布式文件系统,Google 可以把所有需要的数据都能很容易地存储下来。
  2. MapReduce的论文《MapReduce: Simplified Data Processing on Large Clusters》,利用简单的 Map 和 Reduce 两个函数,对于海量数据计算做了一次抽象,这就让“处理”数据的人,不再需要深入掌握分布式系统的开发了。
  3. 《Bigtable: A Distributed Storage System for Structured Data》提出了 Google 设计的分布式数据存储系统 BigTable,来解决解决数据的高性能随机读写问题,是用来处理海量数据的一种非关系型数据库。BigTable 是一个稀疏的、分布式的、持久化存储的多维度排序的映射表。(HBase是Google Bigtable的开源实现,适合于非结构化数据存储的数据库,其基于列的而不是基于行的存储模式)

大数据也或多或少影响到了后续云计算的发展方向,Hadoop后来他做云,云上放 MapReduce,并以Hadoop接口的方式对外提供服务,阿里云一开始做云计算,参考的就是Hadoop集群做批处理的方式,10年代之后伴随着AWS给出基于虚拟化做出可调度的计算/存储单元的云计算解决方案并获得巨大成功,才把云计算拉回当今世界线的轨道上。

大数据已死的几个原因

  1. 绝大多数企业到不了大数据级别,企业的数据量往往不到 1TB,很多甚至不到 100GB。
  2. 存储和计算正在分离,大数据作为单一问题就不存在了,变成了海量存储和大型计算两个问题
  3. 没有新业务的情况下,数据是线性增长的,即每天的新增数据与以前的数据结构相同。
  4. 看重的往往只是最近的数据,90%的查询涉及的数据少于 100 MB。
  5. 真正拥有大数据的公司,几乎从不查询全部数据。
  6. 硬件的飞速发展,使得单台计算机的计算能力大增,意味着大数据的最大难点—-分布式计算—-即使被用到,困难程度也大大降低。

综上所述,结论就是:数据量已经不需要特别关注了,再也不必担心处理不了海量数据了。 大数据作为一个技术问题,已经解决了。

现在的一些方向

Native Engine

近年来,随着 IO 技术的提升,尤其是 SSD 和万兆网卡的普及,大家基于 Apache Spark 的数据负载场景遇到越来越多的 CPU 计算瓶颈,而不是传统认知中的 IO 瓶颈。而众所周知,基于 JVM 进行 CPU 指令的优化比较困难,因为 JVM 提供的 CPU 指令级的优化(例如 SIMD)要远远少于其他 Native 语言(例如 C++)。

同时,大家也发现目前开源社区已经有比较成熟的 Native Engine(例如 ClickHouse、Velox),具备了优秀的向量化执行(Vectorized Execution)能力,并被证明能够带来显著的性能优势,然而它们往往游离于 Spark 生态之外,这对已经严重依赖 Spark 计算框架、无法接受大量运维和迁移成本的用户而言不够友好。Gluten 社区希望能够让 Spark 用户无需迁移,就能享受这些成熟的 Native Engine 带来的性能优势。

参考

  1. 《大数据经典论文解读》 三驾马车学习
  2. Google 引爆大数据时代的三篇论文-《GFS》、《BigTable》、《MapReduce》

转载无需注明来源,放弃所有权利