深入浅出大数据:Hadoop的前世今生

深入浅出大数据: Hadoop的前世今生

1998年9月4日,Google公司在美国硅谷成立。被公认为全球最大的搜索引擎公司。

2003-2004年(以时间线排序)

  • 一位名叫Doug Cutting的工程师,迷上了搜索引擎。于是他做了一个用于文本搜索的函数库,命名为Lucene
  • Doug Cutting再接再励,在Lucene的基础上,和Apache开源伙伴Mike Cafarella合作,开发了一款可以代替当时的主流搜索的开源搜索引擎,命名为Nutch。2003年,Google发表了一篇技术学术论文,公开介绍了自己的谷歌文件系统GFS(Google File System)。这是Google公司为了存储海量搜索数据而设计的专用文件系统。
  • Doug Cutting基于Google的GFS论文,实现了分布式文件存储系统,并将它命名为NDFS(Nutch Distributed File System)
  • Google又发表了一篇技术学术论文,介绍自己的MapReduce编程模型。这个编程模型,用于大规模数据集(大于1TB)的并行分析运算。

Lucene是一个开放源代码的全文检索引擎工具包,其目的是为软件开发人员提供一个简单易用的工具包,因此非常受程序员的欢迎。

2005年, Hadoop作为Lucene子项目Nutch的一部分正式被引人Apache基金会, 随后又从Nutch中剥离, 成为一套完整独立的软件, 起名为Hadoop。据说, Hadoop这个名字来源于创始人Doug Cutting儿子的毛绒玩具大象, 因此,Hadoop的Logo形象如图,而Doug Cutting,则被人们称为Hadoop之父

目前, Hadoop已经正式成为Apache顶级开源项目, 俨然已经处于大数据处理技术的核心地位。下面回顾一下近10年来Hadoop的主要发展历程。

  • 2008年1月,Hadoop成为Apache顶级项目。
  • 2008年6月,Hadoop的第一个SQL框架Hive成为Had oop的子项目
  • 2009年7月,MapReduce和Hadoop Distributed FileSystem(HDFS) 成为Hadoop项目的独立子项目。
  • 2009年7月,Avro和Chukwa成为Hadop新的子项目。
  • 2010年5月,Avro脱离Hadoop项目,成为Apache顶级项目。
  • 2010年5月,HBase脱离Hadoop项目,成为Apache顶级项目
  • 2010年9月,Hive脱离Hadoop,成为Apache顶级项目。
  • 2010年9月,Pig脱离Hadoop,成为Apache顶级项目。
  • 2010–2011年,扩大的Hadoop社区忙于建立大量的新组件(Crunch,Sqoop,Flume,Oozie等) 来扩展Hadoop的使用场景和可用性。
  • 2011年1月,ZooKeeper脱离Hadoop,成为Apache顶级项目。
  • 2011年12月,Hadoop 1.0.0版本发布,标志着Hadoop已经初具生产规模。2012年5月, Hadoop 2.0.0-alpha版本发布,这是Hadoop 2.x系列中第一个(alpha) 版本。与之前的Hadoop 1.x系列相比,Hadoop 2.x版本中加人了YARN,YARN成为了Hadoop的子项目。
  • 2012年10月,Impala加入Hadoop生态圈。
  • 2013年10月,Hadoop 2.0.0版本发布, 标志着Hladoop正式进入MapReduce v 2. 0时代。
  • 2014年2月,Spark开始代替MapReduce成为Hadoop的默认执行引擎, 并成为Apache顶级项目
  • 2017年12月,继Hadoop 3.0.0的4个Alpha版本和1个Beta版本后, 第一个可用的Had oop 3.0.0版本发布。

时至今日,Hadoop虽然在技术上已经得到验证、认可,甚至已经到了成熟期。但与之对应的以Hadoop为代表的大数据基础平台产业界仍然还在迷茫和探索。虽然大数据的市场很大,但单纯Hadoop产品和服务市场,和传统关系型事务数据库市场相比还不到1%。

转眼Hadoop发展历程就经历了十几年之久,那么Hadoop的未来是什么样的?10年以后大数据是不是已经进博物馆了?会不会有一个新公司成为数据管理界的新的巨头,犹如今日的Oracle?会不会有高富帅的企业已经有百万、千万甚至更多机器组成的数据中心?有许多的可能,但我们相信Hadoop所“发明”的分布式计算框架仍然会是大数据的核心标志。

如何把原始数据转化为可执行的洞察力将是最清晰最有力的推动力量。

正如Cloudera的首席科学家、Hadoop的创始人Doug Cutting所说:“我们在本世纪取得的大部分进展将来自于对所产生的数据的理解的增加。”

如果有什么问题可以联系我,或者在文章评论区留下你的问题或联系方式,一起交流解决! 谢谢观看此文章^_^

欢迎登录https://www.jile1422.top极乐的博客查看更多内容!

人已赞赏
Hadoop开发

深入浅出大数据: 初识Hadoop,到底什么是Hadoop?

2020-7-5 16:26:33

Hadoop开发

MapReduce经典案例——倒排索引(1)

2020-7-16 0:49:07

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索