Apache Hadoop

原作者	Doug Cutting, Mike Cafarella
開發者	Apache软件基金会
首次发布	2006年4月1日，18年前（2006-04-01）^[1]
当前版本	3.4.0 (2024年3月17日)^[2]
源代码库	git-wip-us.apache.org/repos/asf/hadoop.git
编程语言	Java
操作系统	跨平台
类型	大數據、分佈式系統
许可协议	Apache許可證 2.0
网站	hadoop.apache.org

Apache Hadoop是一款支持數據密集型分佈式應用程序并以Apache 2.0許可協議發佈的開源軟體框架，有助于使用许多计算机组成的网络来解决数据、计算密集型的问题。基于MapReduce计算模型，它为大数据的分布式存储与处理提供了一个软件框架。所有的Hadoop模块都有一个基本假设，即硬件故障是常见情况，应该由框架自动处理^[3]。

Apache Hadoop的核心模块分为存储和计算模块，前者被称为Hadoop分布式文件系统（HDFS），后者即MapReduce计算模型。Hadoop框架先将文件分成数据块并分布式地存储在集群的计算节点中，接着将负责计算任务的代码传送给各节点，让其能够并行地处理数据。这种方法有效利用了数据局部性，令各节点分别处理其能够访问的数据。与传统的超级计算机架构相比，这使得数据集的处理速度更快、效率更高^[4]^[5]。

Apache Hadoop框架由以下基本模块构成：

Hadoop Common – 包含了其他Hadoop 模块所需的库和实用程序；
Hadoop Distributed File System (HDFS) – 一种将数据存储在集群中多个节点中的分布式文件系统，能够提供很高的带宽；
Hadoop YARN – （于2012年引入）一个负责管理集群中计算资源，并实现用户程序调度的平台^[6]^[7]；
Hadoop MapReduce – 用于大规模数据处理的MapReduce计算模型实现；
Hadoop Ozone – （于2020年引入） Hadoop的对象存储。

Hadoop 一词通常代指其基本模块和子模块以及生态系统^[8]，或可以安装在 Hadoop 之上的软件包的集合，例如Apache Pig、Apache Hive、Apache HBase、Apache Phoenix、Apache Spark、Apache ZooKeeper、Cloudera Impala、Apache Flume、Apache Sqoop、Apache Oozie和Apache Storm^[9]。

Apache Hadoop的MapReduce和HDFS模块的灵感来源于Google的MapReduce和Google File System论文^[10]。

Hadoop 框架本身主要是用Java编程语言编写的，也包括了一些C语言编写的本机代码和Shell脚本编写的命令行实用程序。尽管MapReduce Java代码很常见，但任何编程语言都可以与Hadoop Streaming一起使用来实现用户程序的map和reduce部分^[11]。Hadoop 生态系统中的其他项目实现了更为丰富的用户界面。

主要子项目

[编辑]

Hadoop Common：在0.20及以前的版本中，包含HDFS、MapReduce和其他项目公共内容，从0.21开始HDFS和MapReduce被分离为独立的子项目，其余内容为Hadoop Common
HDFS：Hadoop分佈式文件系統（Distributed File System）－HDFS（Hadoop Distributed File System）
MapReduce：并行计算框架，0.20前使用org.apache.hadoop.mapred旧接口，0.20版本开始引入org.apache.hadoop.mapreduce的新API

知名用戶

[编辑]

Hadoop在Yahoo!的應用

[编辑]

2008年2月19日，雅虎使用10,000個微處理器核心的Linux 计算机集群運行一個Hadoop應用程式。^[12]

其他用戶

[编辑]

其他知名用戶包括^[13]：

A9.com
Facebook
Fox Interactive Media
华为
IBM
ImageShack
資訊科學研究院
Joost
Last.fm
Powerset
紐約時報
Rackspace
Veoh
中華電信
中国移动

Hadoop與Sun Grid Engine

[编辑]

昇陽電腦的Sun Grid Engine可以用来调度Hadoop Job。^[14]^[15]

Hadoop與Condor

[编辑]

威斯康辛大學麥迪遜分校的Condor計算機集群軟件也可以用作Hadoop Job的排程。^[16]

參見

[编辑]

参考文献

[编辑]

^ Hadoop Releases. apache.org. Apache Software Foundation. [2019-04-28]. （原始内容存档于2019-04-28）.
^ Release 3.4.0 available. [2024年4月10日].
^ Welcome to Apache Hadoop!. hadoop.apache.org. [2016-08-25]. （原始内容存档于2017-09-23）.
^ Malak, Michael. Data Locality: HPC vs. Hadoop vs. Spark. datascienceassn.org. Data Science Association. 2014-09-19 [2014-10-30]. （原始内容存档于2017-09-10）.
^ Wang, Yandong; Goldstone, Robin; Yu, Weikuan; Wang, Teng. Characterization and Optimization of Memory-Resident MapReduce on HPC Systems. 2014 IEEE 28th International Parallel and Distributed Processing Symposium. IEEE. October 2014: 799–808. ISBN 978-1-4799-3800-1. S2CID 11157612. doi:10.1109/IPDPS.2014.87.
^ Resource (Apache Hadoop Main 2.5.1 API). apache.org. Apache Software Foundation. 2014-09-12 [2014-09-30]. （原始内容存档于2014-10-06）.
^ Murthy, Arun. Apache Hadoop YARN – Concepts and Applications. hortonworks.com. Hortonworks. 2012-08-15 [2014-09-30]. （原始内容存档于2017-09-11）.
^ Continuuity Raises $10 Million Series A Round to Ignite Big Data Application Development Within the Hadoop Ecosystem. finance.yahoo.com. Marketwired. 2012-11-14 [2014-10-30]. （原始内容存档于2017-09-10）.
^ Hadoop-related projects at. Hadoop.apache.org. [2013-10-17]. （原始内容存档于2017-09-23）.
^ Data Science and Big Data Analytics: Discovering, Analyzing, Visualizing and Presenting Data. John Wiley & Sons. 2014-12-19: 300 [2015-01-29]. ISBN 9781118876220.
^ nlpatumd; Adventures with Hadoop and Perl. Mail-archive.com. 2010-05-02 [2013-04-05]. （原始内容存档于2017-08-14）.
^ Yahoo! Launches World's Largest Hadoop Production Application (Hadoop and Distributed Computing at Yahoo!). [2008-09-04]. （原始内容存档于2008-05-14）.
^ PoweredBy. [2008-09-07]. （原始内容存档于2012-11-29）.
^ Creating Hadoop pe under SGE. Sun Microsystems. 2008-01-16 [2008-09-04]. （原始内容存档于2008-09-12）.
^ HDFS-Aware Scheduling With Grid Engine (PDF). Sun Microsystems. 2009-09-10. ^{[永久失效連結]}
^ Condor integrated with Hadoop's Map Reduce (PDF). 威斯康辛大學麥迪遜分校. 2010-04-15 [2011-03-15]. （原始内容存档 (PDF)于2011-04-01）.

外部連結

[编辑]

Hadoop官方網站（页面存档备份，存于互联网档案馆）

查论编 Apache软件基金会
顶级项目	Abdera（英语：Apache Abdera） Accumulo（英语：Apache Accumulo） ActiveMQ Ambari（英语：Apache Ambari） Ant Aries（英语：Apache Aries） Apache Arrow Apache HTTP Server APR Avro Axis Axis2 Beam Bloodhound（英语：Apache Bloodhound） Apache Brooklyn（英语：Apache Brooklyn） Buildr（英语：Apache Buildr） Calcite（英语：Apache Calcite） Camel Cassandra Cayenne（英语：Apache Cayenne） Chemistry（英语：Apache Chemistry） CloudStack（英语：Apache CloudStack） Cocoon（英语：Apache Cocoon） Continuum（英语：Apache Continuum） Cordova CouchDB cTAKES（英语：cTAKES） CXF Deltacloud（英语：Deltacloud） Derby Directory（英语：Apache Directory Server） Drill（英语：Apache Drill） Empire-db（英语：Apache Empire-db） ECharts Felix（英语：Apache Felix） Flex Flink Flume（英语：Apache Flume） Forrest（英语：Apache Forrest） Geronimo（英语：Apache Geronimo） Gora（英语：Apache Gora） Gump（英语：Apache Gump） Hadoop Hama（英语：Apache Hama） HBase Hive Jackrabbit（英语：Apache Jackrabbit） James（英语：Apache James） JMeter（英语：Apache JMeter） Kafka Karaf（英语：Apache Karaf） Kylin（英语：Apache Kylin） Lucene Lenya（英语：Apache Lenya） Mahout（英语：Apache Mahout） Marmotta（英语：Apache Marmotta） Maven MINA（英语：Apache MINA） mod_perl（英语：mod_perl） MyFaces（英语：Apache MyFaces） Nutch（英语：Apache Nutch） ODE（英语：Apache ODE） OFBiz（英语：Apache OFBiz） Oozie（英语：Oozie） OpenEJB（英语：Apache OpenEJB） OpenJPA（英语：Apache OpenJPA） OpenNLP OpenOffice PDFBox（英语：Apache PDFBox） Phoenix（英语：Apache Phoenix） POI Pig（英语：Pig (programming tool)） Pivot（英语：Apache Pivot） Qpid（英语：Apache Qpid） River（英语：Apache River） Roller（英语：Apache Roller） RocketMQ Samza（英语：Apache Samza） ServiceMix（英语：Apache ServiceMix） Shindig（英语：Apache Shindig） Shiro Sling（英语：Apache Sling） Spark Stanbol（英语：Apache Stanbol） Storm SpamAssassin Sqoop Apache C++标准库（英语：stdcxx） Struts Struts 2 Subversion Tapestry Thrift Tiles（英语：Apache Tiles） Tika（英语：Apache Tika） Tomcat Trafficserver Turbine Tuscany UIMA Velocity Wave Wicket Wink（英语：Apache Wink） Xalan（英语：Xalan） Xerces（英语：Xerces） XMLBeans（英语：XMLBeans） ZooKeeper
Commons项目	Apache Commons Logging（英语：Apache Commons Logging） BCEL（英语：Byte Code Engineering Library） BSF（英语：Bean Scripting Framework） Commons Daemon（英语：Commons Daemon） Jelly（英语：Apache Jelly）
Lucene项目	Lucene Java Lucene.Net（英语：Lucene.Net） Nutch（英语：Nutch） Solr
Hadoop项目	HBase HDFS
其他项目	Batik Chainsaw（英语：Chainsaw (log file viewer)） FOP Log4j XAP（英语：Apache XAP） Log4Net Ivy（英语：Apache Ivy）
孵化器项目	XAP（英语：Apache XAP） Samza（英语：Apache Samza） Storm
Apache Attic	AxKit（英语：AxKit） Beehive（英语：Apache Beehive） Click（英语：Apache Click） Apache BlueSky（英语：BlueSky Open Platform） Cactus（英语：Jakarta Cactus） Jakarta Excalibur（英语：Apache Excalibur） Harmony HiveMind（英语：Apache HiveMind） Lenya（英语：Apache Lenya） Slide（英语：Jakarta Slide） Shale（英语：Apache Shale） Shindig（英语：Apache Shindig） stdcxx（英语：Apache C++ Standard Library） iBATIS XMLBeans（英语：XMLBeans）
许可证标准	Apache许可证
分类维基共享

文件系统

文件系统列表
文件系统的对比
Unix的文件系统（英语：Unix filesystem）

磁盘

ADFS（英语：Advanced Disc Filing System） AdvFS Amiga FFS（英语：Amiga Fast File System） Amiga OFS（英语：Amiga Old File System） APFS AthFS（英语：AtheOS File System） Bcachefs BFS Be文件系统（英语：Be File System）启动文件系统（英语：Boot File System） Btrfs DFS（英语：Disc Filing System） EFS 加密文件系统区段文件系统（英语：Extent File System） Episode（英语：Episode filesystem） ext ext2 ext3 ext3cow（英语：ext3cow） ext4 FAT exFAT Files-11（英语：Files-11） Fossil HAMMER（英语：HAMMER） HFS HFS+ HPFS HTFS（英语：High Throughput File System） IBM通用并行文件系统（英语：IBM General Parallel File System） JFS LFS（英语：Log-structured File System (BSD)） MFS Macintosh文件系统（英语：Macintosh File System） Tivo媒体文件系统（英语：Tivo Media File System） MINIX NetWare文件系统（英语：NetWare File System） Next3（英语：Next3） NILFS（英语：NILFS） NILFS2（英语：NILFS2） NSS（英语：Novell Storage Services） NTFS OneFS（英语：OneFS distributed file system） PFS（英语：Professional File System） QFS（英语：QFS） QNX4FS（英语：QNX4FS） ReFS ReiserFS Reiser4（英语：Reiser4） Reliance（英语：Reliance (file system)） Reliance Nitro（英语：Reliance Nitro） RFS SFS（英语：Smart File System） Soup（英语：Soup (Apple)） Tux3（英语：Tux3） UBIFS UFS VxFS（英语：Veritas File System） WAFL（英语：Write Anywhere File Layout） Xiafs（英语：Xiafs） XFS Xsan（英语：Xsan） zFS（英语：zFS (z/OS file system)） ZFS
光碟	HSF（英语：High Sierra Format） ISO 9660 ISO 13490（英语：ISO 13490） UDF
闪存和SSD	APFS FAT exFAT CHFS（英语：CHFS） TFAT EROFS FFS2 F2FS HPFS JFFS（英语：JFFS） JFFS2 JFS LogFS NILFS（英语：NILFS） NILFS2（英语：NILFS2） NVFS（英语：Non-Volatile File System） YAFFS UBIFS
分布式	CXFS（英语：CXFS） GFS2（英语：GFS2） Google檔案系統 OCFS2（英语：OCFS2） OrangeFS（英语：OrangeFS） PVFS（英语：Parallel Virtual File System） QFS（英语：Quantcast File System） Xsan（英语：Xsan）更多...

NAS

AFS（OpenAFS）
AFP
Coda
DFS
GPFS（英语：IBM General Parallel File System）
Google檔案系統
Lustre
NCP
NFS
POHMELFS（英语：POHMELFS）
Hadoop
SMB (CIFS)
SSHFS
更多...

特殊

Aufs AXFS（英语：AXFS）启动文件系统（英语：Boot File System） CDfs（英语：CDfs）光盘文件系统（英语：Compact Disc File System） Cramfs Davfs2（英语：Davfs2） EROFS FTPFS FUSE GmailFS Lnfs LTFS（英语：Linear Tape File System） MVFS（英语：Rational MultiVersion File System） SquashFS UMSDOS（英语：FAT filesystem and Linux） OverlayFS UnionFS（英语：UnionFS） WBFS（英语：WBFS）
伪	configfs（英语：configfs） devfs（英语：Device file） debugfs（英语：debugfs） kernfs（英语：kernfs (BSD)） procfs specfs sysfs tmpfs WinFS
加密（英语：Filesystem-level encryption）	eCryptfs EncFS EFS Rubberhose（英语：Rubberhose (file system)） SSHFS ZFS

类型

集群
- 全局（英语：Global file system）
- 网格（英语：Grid File System）
- 自我认证（英语：Self-certifying File System）
闪存
日志
日志结构（英语：Log-structured file system）
对象
面向记录（英语：Record-oriented filesystem）
语义（英语：Semantic file system）
隐写（英语：Steganographic file system）
合成（英语：Synthetic file system）
版本（英语：Versioning file system）

特性

保留大小写寫入時複製重复数据删除数据擦洗（英语：Data scrubbing）原地执行（英语：Execute in place） Extent 文件属性扩展文件属性文件更改日志 Fork 链接硬链接符号链接
访问控制（英语：Computer access control）	存取控制串列文件系统级加密（英语：Filesystem-level encryption）权限 Modes（英语：Modes (Unix)）粘滞位

接口

规范控制数据库：各地	德国拉脱维亚捷克

主要子项目

相關项目

知名用戶

Hadoop在Yahoo!的應用

其他用戶

Hadoop與Sun Grid Engine

Hadoop與Condor

參見

参考文献

外部連結