Apache Hadoop生态系统

news/2024/11/9 14:46:43

Hadoop从诞生至今已经发展成为一个大数据相关的庞大的软件生态系统。这里收集整理了跟Hadoop相关的Apache下的开源项目,以供后续分析研究。

Apache Hadoop

Hadoop是一个大数据处理框架,它可用于从单台到数以千计的服务器集群的存储和计算服务。HadoopDistributed File System (HDFS) 提供了能够跨越多台计算机的大数据存储服务,而MapReduce则提供了一个并行处理的框架。它们的思想源自Google的MapReduce和Google File System(GFS)论文。详细参见:http://hadoop.apache.org/

Apache Ambari

Ambari是一个对Hadoop集群进行监控和管理的基于Web的系统。目前已经支持HDFS,MapReduce,Hive,HCatalog,HBase,ZooKeeper,Oozie,Pig和Sqoop等组件。详细参见:http://ambari.apache.org/

Apache Cassandra

Cassandra是一个分布式的NoSQL数据库。它基于multi-master模式,无单点失败,具有可扩展性。最早由Facebook开发用于存储收件箱等简单格式数据,后开源,被用于Twitter等知名网站。详细参见:http://cassandra.apache.org/

Apache Hive

Hive是 一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供类似SQL一样的查询语言HiveQL来管理这些数据。详细参见:http://hive.apache.org/

Apache Pig

Pig是一个基于Hadoop的大数据分析平台,它提供了一个叫PigLatin的高级语言来表达大数据分析程序。详细参见:http://pig.apache.org/

Apache Avro

Avro是一个数据序列化系统。它提供了丰富的数据结构类型,快读可压缩的二进制数据格式,存储持久数据的文件容器,远程过程调用等。详细参见:http://avro.apache.org/

Apache Chukwa

Chukwa是一个用于监控大型分布式系统的的数据采集系统。它构建于Hadoop的HDFS和Map/Reduce框架之上,包含了一系列用于数据监控,分析和展示的灵活的强大工具集。它为日志系统提供了一整套解决方案。详细参见:http://chukwa.apache.org/

Apache Drill

Drill是一个对大规模数据集进行交互式分析的分布式系统。它是Google的Gremel的开源实现。详细参见:http://incubator.apache.org/drill/

Apache Flume

Flume是一个高可靠的分布式海量日志采集,聚合和传输系统。它来源于Cloudera开发的日志收集系统。详细参见:http://flume.apache.org/

Apache HBase

HBase是一个分布式的,面向列的数据库。它基于Hadoop之上提供了类似BigTable的功能。详细参见:http://hbase.apache.org/

Apache HCatalog

HCatalog是基于Hadoop的数据表和存储管理服务,提供了更好的数据存储抽象和元数据服务。详细参见:https://hive.apache.org/hcatalog/

Apache Mahout

Mahout是一个机器学习领域的经典算法库,提供包括聚类,分类,推荐过滤,频繁子项挖掘等。详细参见:http://mahout.apache.org/

Apache Oozie

Oozie是一个工作流调度系统,用于管理Hadoop里的job。它可以把多个Map/Reduce作业组合到一个逻辑工作单元来完成指定目标。详细参见:http://oozie.apache.org/

Apache Sqoop

Sqoop是一个Hadoop和关系型数据库之间的数据转移工具。可将关系型数据库中的数据导入到Hadoop的HDFS中,也可将HDFS中的数据导进到关系型数据库中。详细参见:http://sqoop.apache.org/

Apache ZooKeeper

ZooKeeper是一个针对大型分布式系统的可靠协调系统,提供包括配置维护,名字服务,分布式同步和组服务等功能。Hadoop的管理就是用的ZooKeeper。详细参见:http://zookeeper.apache.org/

Apache Giraph

Giraph是一个高可伸缩的迭代式图处理系统。它现在用于分析Facebook中的用户的社交关系。Giraph相当于Google图处理架构Pregel的开源版本。详细参见:http://giraph.apache.org/

Apache Accumulo

Accumulo是一个可靠的,可伸缩的,高性能排序分布式的Key-Value存储解决方案。它基于Google的BigTable设计思路。详细参见:http://accumulo.apache.org/

Apache S4

S4是一个可扩展的,分布式的流数据实时处理框架,最早由Yahoo开发并开源。与Twitter的Storm类似。详细参见:http://incubator.apache.org/s4/

Apache Thrift

Thrift是一个跨语言的服务开发框架。用它可让你的服务支持多种语言的开发,并可用代码生成器对它所定义的IDL定义文件自动生成服务代码框架。它最早由Facebook开发并开源出来。 详细参见:http://thrift.apache.org/

最后,得提一下Apache Nutch开源网络爬虫系统。Hadoop最早是为Nutch服务而诞生的,即为大规模的网络爬虫系统提供分布式存储和计算服务。


http://www.niftyadmin.cn/n/4518238.html

相关文章

AlexNet卷积神经网络【前向反馈】

1.代码实现 1 # -*- coding: utf-8 -*-2 """3 Created on Wed Nov 14 17:13:05 20184 5 author: zhen6 """7 8 from datetime import datetime9 import math10 import time11 import tensorflow as tf12 13 batch_size 3214 num_batchs 10015 …

【Atcoder】 [ARC158D] Equation

题目链接 Atcoder方向 Luogu方向 题目解法 考虑等式两边都为多次齐次项 令等式左边的值为 F ( x , y , z ) F(x,y,z) F(x,y,z),等式右边的值为 G ( x , y , z ) G(x,y,z) G(x,y,z) 当 F ( x , y , z ) ≡ t ∗ G ( x , y , z ) ( m o d p ) F(x,y,z)\equiv t*…

领导说“你不喝就是看不起我”,用这3套话术硬怼,让小人掉价

朋友逼你喝酒,“你不喝就是不给我面子”,你怎么怼都可以,大不了这样的朋友不要了。但是领导也这样强迫你喝酒,“你不喝就是看不起我”,你怎么才能怼出高情商呢?看到最后,千古一招,足…

人到中年请客求人,三请三不请,看透这3种人,别遭人打脸

人到中年,多事之秋。上有老,下有小,中间有房贷。人过五十,家家有本难念的经,遇到难事,只能弯下腰、低下头,请客求人自所难免。人到中年,就要知己知彼,既有自知之明&#…

领导发微信,该回“收到”还是“好的”?回复不当,被领导敲打

前几天,王总给华子发微信:“明天李董要来,航班12345,你准备一下。”华子迅速回复“收到”(好的)。职场上多么平常的一种回复啊。王总扭头对总监说,华子这小子,以后还要多敲打敲打。领…

你真的会给领导发微信吗?三发三不发,不懂这6招,必被敲打

微信,已经成为最为普及的即时通讯工具。我们在生活和工作中,大量应用微信沟通。但是,你真的会给领导发微信吗?前不久,出了几件芝麻绿豆大的“糗事”:比如,某员工回复领导“嗯”被辞退&#xff0…

JavaSE 8—新的时间和日期API

本文由 ImportNew - 胡 劲寒 翻译自 oracle。如需转载本文,请先参见文章末尾处的转载要求。ImportNew注:如果你也对Java技术翻译分享感兴趣,欢迎加入我们的 Java开发 小组。参与方式请查看小组简介。 为什么我们需要一个新的时间日期API Java…

怎么从饭局看自己在领导心中地位?别傻傻喝酒,高人看这6个举动

有位职场新人很苦恼,悄悄问火锅哥:昨天参加饭局,给领导敬酒时,感觉他看不起我。怎么从参加饭局看出我在领导心目中的地位?这位新人有上进心是好的,心事重也是年轻人常犯的毛病。但这个问题确实问得好。从领…