大数据｜Hadoop简介及两大功能三大核心组件（二）

发布时间：2025-11-24 17:49:20 来源：君肯网

一、为什么需要hadoop？

在数据量很大的情况下，单机的处理能力无法胜任，必须采用分布式集群的方式进行处理，而用分布式集群的方式处理数据，实现的复杂度呈级数增加。所以，在海量数据处理的需求下，一个通用的分布式数据处理技术框架能大大降低应用开发难点和减少工作量。

我们先来看这么一个例子：我们要从一个用户使用app的日志数据中统计每个用户搜索了哪些关键词，这个日志文件有21G大，而我们的一个服务器只有8G内存，很显然一台服务器无法干这活。那么我们的处理方案应该是这样，见图一：

从图一我们知道，要顺利完成这么一个集群工作，它存在几个问题：

要我们自己编写一个程序来处理以上的问题是极其复杂的，我曾经写过一个脚本完成“如何分发业务应用到集群的各台服务器上”这个问题，复杂度也是不小的。

而hadoop却可以帮助我们处理上面的所有问题，我们只需要编写我们的业务程序即可。

二、hadoop是什么？

hadoop是用于处理（运算分析）海量数据的技术平台，并且是采用分布式集群的方式。

hadoop有两大功能：

hadoop三大核心组件：

hadoop两大使用角度：

hadoop是干什么用的?

要了解什么是Hadoop，我们必须首先了解与大数据和传统处理系统有关的问题。前进，我们将讨论什么是Hadoop，以及Hadoop如何解决与大数据相关的问题。我们还将研究CERN案例研究，以突出使用Hadoop的好处。

在之前的博客“ 大数据教程”中，我们已经详细讨论了大数据以及大数据的挑战。在此博客中，我们将讨论：

1、传统方法的问题

2、Hadoop的演变

3、Hadoop的

4、Hadoop即用解决方案

5、何时使用Hadoop?

6、什么时候不使用Hadoop?

一、CERN案例研究

大数据正在成为组织的机会。现在，组织已经意识到他们可以通过大数据分析获得很多好处，如下图所示。他们正在检查大型数据集，以发现所有隐藏的模式，未知的相关性，市场趋势，客户偏好和其他有用的业务信息。

这些分析结果正在帮助组织进行更有效的营销，新的收入机会，更好的客户服务。他们正在提高运营效率，与竞争对手组织相比的竞争优势以及其他业务利益。

什么是Hadoop –大数据分析的好处

因此，让我们继续前进，了解在兑现大数据机会方面与传统方法相关的问题。

二、传统方法的问题

在传统方法中，主要问题是处理数据的异构性，即结构化，半结构化和非结构化。RDBMS主要关注于银行交易，运营数据等结构化数据，而Hadoop则专注于文本，视频，音频，Facebook帖子，日志等半结构化，非结构化数据。RDBMS技术是一种经过验证的，高度一致，成熟的系统许多公司的支持。另一方面，由于大数据(主要由不同格式的非结构化数据组成)对Hadoop提出了需求。

现在让我们了解与大数据相关的主要问题是什么。因此，继续前进，我们可以了解Hadoop是如何成为解决方案的。

什么是Hadoop –大数据问题

第一个问题是存储大量数据。

无法在传统系统中存储大量数据。原因很明显，存储将仅限于一个系统，并且数据正在以惊人的速度增长。

第二个问题是存储异构数据。

现在，我们知道存储是一个问题，但是让我告诉您，这只是问题的一部分。由于我们讨论了数据不仅庞大，而且还以各种格式存在，例如：非结构化，半结构化和结构化。因此，您需要确保您拥有一个系统来存储从各种来源生成的所有这些种类的数据。

第三个问题是访问和处理速度。

硬盘容量正在增加，但磁盘传输速度或访问速度并未以相似的速度增加。让我以一个示例为您进行解释：如果您只有一个100 Mbps I / O通道，并且正在处理1TB数据，则大约需要2.91个小时。现在，如果您有四台具有一个I / O通道的计算机，则对于相同数量的数据，大约需要43分钟。因此，与存储大数据相比，访问和处理速度是更大的问题。

在了解什么是Hadoop之前，让我们首先了解一下Hadoop在一段时间内的发展。

Hadoop的演变

2003年，道格·切特(Doug Cutting)启动了Nutch项目，以处理数十亿次搜索并为数百万个网页建立索引。2003年10月下旬– Google发布带有GFS(Google文件系统)的论文。2004年12月，Google发布了MapReduce论文。在2005年，Nutch使用GFS和MapReduce进行操作。2006年，雅虎与Doug Cutting及其团队合作，基于GFS和MapReduce创建了Hadoop。如果我告诉您，您会感到惊讶，雅虎于2007年开始在1000个节点的群集上使用Hadoop。

2008年1月下旬，雅虎向Apache Software Foundation发布了Hadoop作为一个开源项目。2008年7月，Apache通过Hadoop成功测试了4000个节点的集群。2009年，Hadoop在不到17小时的时间内成功整理了PB级数据，以处理数十亿次搜索并为数百万个网页建立索引。在2011年12月，Apache Hadoop发布了1.0版。2013年8月下旬，发布了2.0.6版。

当我们讨论这些问题时，我们发现分布式系统可以作为解决方案，而Hadoop提供了相同的解决方案。现在，让我们了解什么是Hadoop。

三、什么是Hadoop?

Hadoop是一个框架，它允许您首先在分布式环境中存储大数据，以便可以并行处理它。 Hadoop中基本上有两个组件：

1、大数据Hadoop认证培训

2、讲师指导的课程现实生活中的案例研究评估终身访问探索课程

什么是Hadoop – Hadoop框架

第一个是用于存储的HDFS(Hadoop分布式文件系统)，它使您可以在集群中存储各种格式的数据。第二个是YARN，用于Hadoop中的资源管理。它允许对数据进行并行处理，即跨HDFS存储。

让我们首先了解HDFS。

HDFS

HDFS创建一个抽象，让我为您简化一下。与虚拟化类似，您可以在逻辑上将HDFS视为用于存储大数据的单个单元，但是实际上您是在分布式方式下跨多个节点存储数据。HDFS遵循主从架构。

什么是Hadoop – HDFS

在HDFS中，名称节点是主节点，数据节点是从节点。 Namenode包含有关存储在Data节点中的数据的元数据，例如哪个数据块存储在哪个数据节点中，数据块的复制位置在哪里等。实际数据存储在Data Nodes中。

我还想补充一下，实际上我们复制了数据节点中存在的数据块，默认复制因子是3。由于我们使用的是商用硬件，并且我们知道这些硬件的故障率很高，所以如果其中一个DataNodes失败，HDFS将仍然具有那些丢失的数据块的副本。您还可以根据需要配置复制因子。您可以阅读HDFS教程，详细了解HDFS。

四、Hadoop即解决方案

让我们了解Hadoop如何为刚刚讨论的大数据问题提供解决方案。

什么是Hadoop – Hadoop即解决方案

第一个问题是存储大数据。

HDFS提供了一种分布式大数据存储方式。您的数据存储在整个DataNode的块中，您可以指定块的大小。基本上，如果您拥有512MB的数据，并且已经配置了HDFS，那么它将创建128MB的数据块。因此，HDFS将数据分为512/128 = 4的4个块，并将其存储在不同的DataNode上，还将在不同的DataNode上复制数据块。现在，由于我们正在使用商品硬件，因此存储已不是难题。

它还解决了缩放问题。它着重于水平缩放而不是垂直缩放。您始终可以根据需要随时在HDFS群集中添加一些额外的数据节点，而不是扩展DataNodes的资源。让我为您总结一下，基本上是用于存储1 TB的数据，您不需要1 TB的系统。您可以在多个128GB或更少的系统上执行此操作。

下一个问题是存储各种数据。

借助HDFS，您可以存储各种数据，无论是结构化，半结构化还是非结构化。由于在HDFS中，没有预转储模式验证。并且它也遵循一次写入和多次读取模型。因此，您只需写入一次数据，就可以多次读取数据以寻找见解。

Hird的挑战是访问和处理数据更快。

是的，这是大数据的主要挑战之一。为了解决该问题，我们将处理移至数据，而不是将数据移至处理。这是什么意思?而不是将数据移动到主节点然后进行处理。在MapReduce中，处理逻辑被发送到各个从属节点，然后在不同的从属节点之间并行处理数据。然后，将处理后的结果发送到主节点，在该主节点上合并结果，并将响应发送回客户端。

在YARN架构中，我们有ResourceManager和NodeManager。ResourceManager可能会或可能不会与NameNode配置在同一台机器上。但是，应该将NodeManager配置在存在DataNode的同一台计算机上。

YARN通过分配资源和安排任务来执行您的所有处理活动。

什么是Hadoop – YARN

它具有两个主要组件，即ResourceManager和NodeManager。

ResourceManager再次是主节点。它接收处理请求，然后将请求的各个部分相应地传递到相应的NodeManager，什么是大数据分析Hadoop在此进行实际处理。NodeManager安装在每个DataNode上。它负责在每个单个DataNode上执行任务。

我希望现在您对什么是Hadoop及其主要组件有所了解。让我们继续前进，了解何时使用和何时不使用Hadoop。

何时使用Hadoop?

Hadoop用于：

1、搜索 – Yahoo，亚马逊，Zvents

2、日志处理 – Facebook，雅虎

3、数据仓库 – Facebook，AOL

4、视频和图像分析 –纽约时报，Eyealike

到目前为止，我们已经看到了Hadoop如何使大数据处理成为可能。但是在某些情况下，不建议使用Hadoop。

搭建hadoop集群，常用配置文件是什么，以及配置哪些属性

提供海量数据存储和计算的。需要java语言基础。

Hadoop实现了一个分布式文件系统（Hadoop Distributed File System），简称HDFS。有高容错性的特点，并且设计用来部署在低廉的（low-cost）硬件上；而且它提供高吞吐量来访问应用程序的数据，适合那些有着超大数据集（large data set）的应用程序。

Hadoop的框架最核心的设计就是：HDFS和MapReduce。HDFS为海量的数据提供了存储，而MapReduce则为海量的数据提供了计算。

扩展资料

Hadoop是一个能够让用户轻松架构和使用的分布式计算平台。用户可以轻松地在Hadoop上开发和运行处理海量数据的应用程序。能够对大量数据进行分布式处理的软件框架Hadoop 以一种可靠、高效、可伸缩的方式进行数据处理。

Hadoop 是可靠的，因为它假设计算元素和存储会失败，因此它维护多个工作数据副本，确保能够针对失败的节点重新分布处理。Hadoop 是高效的，因为它以并行的方式工作，通过并行处理加快处理速度。

参考资料：

百度百科-Hadoop

大数据在哪儿学比较好？

一. 简介

参考了网上许多教程，最终把hadoop在ubuntu14.04中安装配置成功。下面就把详细的安装步骤叙述一下。我所使用的环境：两台ubuntu 14.04 64位的台式机，hadoop选择2.7.1版本。（前边主要介绍单机版的配置，集群版是在单机版的基础上，主要是配置文件有所不同，后边会有详细说明）

二. 准备工作

2.1 创建用户

创建用户，并为其添加root权限，经过亲自验证下面这种方法比较好。

1 sudo adduser hadoop2 sudo vim /etc/sudoers3 # 修改内容如下：4 root ALL = (ALL)ALL5 hadoop ALL = (ALL)ALL

给hadoop用户创建目录，并添加到sudo用户组中，命令如下：

1 sudo chown hadoop /home/hadoop2 # 添加到sudo用户组3 sudo adduser hadoop sudo

最后注销当前用户，使用新创建的hadoop用户登陆。

2.2 安装ssh服务

ubuntu中默认是没有装ssh server的（只有ssh client），所以先运行以下命令安装openssh-server。安装过程轻松加愉快～

sudo apt-get install ssh openssh-server

2.3 配置ssh无密码登陆

直接上代码：执行完下边的代码就可以直接登陆了（可以运行ssh localhost进行验证）

1 cd ~/.ssh# 如果找不到这个文件夹，先执行一下 ”ssh localhost”2 ssh-keygen -t rsa3 cp id_rsa.pub authorized_keys

注意：

这里实现的是无密登陆自己，只适用与hadoop单机环境。如果配置Hadoop集群设置Master与Slave的SSH无密登陆可

三. 安装过程

3.1 下载hadoop安装包

有两种下载方式：

1. 直接去官网下载：

2. 使用wget命令下载：

3.2 配置hadoop

1. 解压下载的hadoop安装包，并修改配置文件。我的解压目录是（/home/hadoop/hadoop-2.7.1），即进入/home/hadoop/文件夹下执行下面的解压缩命令。

tar -zxvf hadoop-2.7.1.tar.gz

2. 修改配置文件：（hadoop2.7.1/etc/hadoop/）目录下，hadoop-env.sh，core-site.xml，mapred-site.xml.template，hdfs-site.xml。

(1). core-site.xml 配置：其中的hadoop.tmp.dir的路径可以根据自己的习惯进行设置。

&ltconfiguration&gt&ltproperty&gt&ltname&gthadoop.tmp.dir&lt/name&gt&ltvalue&gtfile:/home/hadoop/hadoop/tmp&lt/value&gt&ltdescription&gtAbase for other temporary directories.&lt/description&gt&lt/property&gt&ltproperty&gt&ltname&gtfs.defaultFS&lt/name&gt&ltvalue&gthdfs://localhost:9000&lt/value&gt&lt/property&gt&lt/configuration&gt

(2). mapred-site.xml.template配置:

&ltconfiguration&gt&ltproperty&gt&ltname&gtmapred.job.tracker&lt/name&gt&ltvalue&gtlocalhost:9001&lt/value&gt&lt/property&gt&lt/configuration&gt

(3). hdfs-site.xml配置: 其中dfs.namenode.name.dir和dfs.datanode.data.dir的路径可以自由设置，最好在hadoop.tmp.dir的目录下面。

注意：如果运行Hadoop的时候发现找不到jdk，可以直接将jdk的路径放置在hadoop-env.sh里面，具体如下：

export JAVA_HOME=”/opt/java_file/jdk1.7.0_79”，即安装java时的路径。

&ltconfiguration&gt&ltproperty&gt&ltname&gtdfs.replication&lt/name&gt&ltvalue&gt1&lt/value&gt&lt/property&gt&ltproperty&gt&ltname&gtdfs.namenode.name.dir&lt/name&gt&ltvalue&gtfile:/home/hadoop/hadoop/tmp/dfs/name&lt/value&gt&lt/property&gt&ltproperty&gt&ltname&gtdfs.datanode.data.dir&lt/name&gt&ltvalue&gtfile:/home/hadoop/hadoop/tmp/dfs/data&lt/value&gt&lt/property&gt&lt/configuration&gt

配置完成后运行hadoop。

四. 运行hadoop

4.1 初始化HDFS系统

在hadop2.7.1目录下执行命令：

bin/hdfs namenode -format

出现如下结果说明初始化成功。

4.2 开启 NameNode 和 DataNode 守护进程

在hadop2.7.1目录下执行命令：

sbin/start-dfs.sh

成功的截图如下：

4.3 使用jps命令查看进程信息：

若出现如图所示结果，则说明DataNode和NameNode都已经开启。

4.4 查看web界面

在浏览器中输入 http://localhost:50070 ，即可查看相关信息，截图如下

至此，hadoop的环境就已经搭建好了。

五. 运行wordcount demo

1. 在本地新建一个文件，里面内容随便填：例如我在home/hadoop目录下新建了一个haha.txt文件，里面的内容为” hello world! ”。

2. 然后在分布式文件系统（hdfs）中新建一个test文件夹，用于上传我们的测试文件haha.txt。在hadoop-2.7.1目录下运行命令：

# 在hdfs的根目录下建立了一个test目录

bin/hdfs dfs -mkdir /test

bin/hdfs dfs -ls /

结果如下：

3. 将本地haha.txt文件上传到test目录中；

# 上传

bin/hdfs dfs -put /home/hadoop/haha.txt /test/# 查看

bin/hdfs dfs -ls /test/

结果如下：

4. 运行wordcount demo；

# 将运行结果保存在/test/out目录下

bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.1.jar wordcount /test/haha.txt /test/out

# 查看/test/out目录下的文件

bin/hdfs dfs -ls /test/out

结果如下：

运行结果表示：运行成功，结果保存在part-r-00000中。

5. 查看运行结果；

# 查看part-r-00000中的运行结果

bin/hadoop fs -cat /test/out/part-r-00000

结果如下：

至此，wordcount demo 运行结束。

六. 总结

配置过程遇到了很多问题，最后都一一解决，收获很多，特此把这次配置的经验分享出来，方便想要配置hadoop环境的各位朋友～

（Hadoop集群安装配置过程基本和单机版是一样的，主要是在配置文件方面有所区别，以及ssh无密登陆要求master和slave能够互相无密登陆。

想要都进入大数据行业的第一步，是先搞清楚大数据究竟有哪些就业方向。

大数据就业岗位

随着大数据技术在企业界如火如荼的实践，企业对组建大数据团队的迫切程度也也来越高，对与大数据相关高端人才的需求也越来越紧迫，但企业对大数据团队的组建和角色分配方面缺一直有不小的困惑，到底大数据团队里应该拥有哪些几类角色，如何设置岗位？同一类别的角色的专业方向又有哪些分化，不同专业的岗位对技能应该有哪些要求？如何管理大数据团队成员的职业发展路径？为此，ChinaHadoop花费了一年时间调研了先进企业内部设立的大数据部门或团队的组织结构和职能划分，在此基础上，首次提出了企业大数据团队的岗位划分，专业分类及定义，以及每个岗位所需的技能及培训，技能考核对应的能力级别，我们将之统称为”企业大数据人才岗位技能认证体系“。

通过对企业大数据人才岗位进行专业细分,岗位技能认证等级与企业现有技术专业通道形成对应关系，打通员工的职业发展通道，帮助企业逐步完善大数据团队的组织结构，不断提高团队技能，为各岗位及时储备人才。

大数据团队的角色分类企业大数据团队的角色分类主要有三个大类别：大数据开发工程师、大数据运维工程师、大数据架构师。总体而言，我们大数据人才划分为三个大类：

一、大数据开发工程师：围绕大数据系平台系统级的研发人员，熟练Hadoop、Spark、Storm等主流大数据平台的核心框架。深入掌握如何编写MapReduce的作业及作业流的管理完成对数据的计算，并能够使用Hadoop提供的通用算法，

熟练掌握Hadoop整个生态系统的组件如： Yarn，HBase、Hive、Pig等重要组件，能够实现对平台监控、辅助运维系统的开发。通过学习一系列面向开发者的Hadoop、Spark等大数据平台开发技术，掌握设计开发大数据系统或平台的工具和技能，能够从事分布式计算框架如Hadoop、Spark群集环境的部署、开发和管理工作，如性能改进、功能扩展、故障分析等。

二、大数据运维工程师：了解Hadoop、Spark、Storm等主流大数据平台的核心框架，熟悉Hadoop的核心组件：HDFS、MapReduce、Yarn；具备大数据集群环境的资源配置，如网络要求、硬件配置、系统搭建。熟悉各种大数据平台的部署方式，集群搭建，故障诊断、日常维护、性能优化，同时负责平台上的数据采集、数据清洗、数据存储，数据维护及优化。熟练使用Flume、Sqoop等工具将外部数据加载进入大数据平台，通过管理工具分配集群资源实现多用户协同使用集群资源。

三、大数据架构师：这一角色的要求是综合型的，对各种开源和商用的大数据系统平台和产品的特点非常熟悉，能基于Hadoop、Spark、 NoSQL、 Storm流式计算、分布式存储等主流大数据技术进行平台架构设计，负责企业选用软件产品的技术选型，具体项目中的数据库设计及实现工作，协助开发人员完成数据库部分的程序，能解决公司软件产品或者项目开发和运维中与数据库相关的问题；及时解决项目开发或产品研发中的技术难题，对设计系统的最终性能和稳定性负责。

岗位能力级别定义：1. 初级：具备基本的大数据技术的基础知识，可以将其视为大数据认证的初学或者入门等级。2. 高级：大数据认证的高级或者熟练等级，表明该人才具备大数据某一专业方向的基本知识和熟练技能。3. 专家：具有业界公认的专业大数据技术知识和丰富工作经验。

这里简单介绍几种我认为用的比较多的技术

一、Hadoop

可以说，hadoop几乎已经是大数据代名词。无论是是否赞成，hadoop已经是大部分企业的大数据标准。得益于Hadoop生态圈，从现在来看，还没有什么技术能够动摇hadoop的地位。

这一块可以按照一下内容来学习：

1、Hadoop产生背景 2、Hadoop在大数据、云计算中的位置和关系 3、国内外Hadoop应用案例介绍 4、国内Hadoop的就业情况分析及课程大纲介绍 5、分布式系统概述 6、Hadoop生态圈以及各组成部分的简介

二、分布式文件系统HDFS

HDFS全称 Hadoop Distributed File System ，它是一个高度容错性的系统，适合部署在廉价的机器上，同时能提供高吞吐量的数据访问，非常适合大规模数据集上的应用。为了实现流式读取文件系统数据的目的，HDFS放宽了一部分POSIX约束。

1、分布式文件系统HDFS简介 2、HDFS的系统组成介绍 3、HDFS的组成部分详解 4、副本存放策略及路由规则 5、NameNode Federation 6、命令行接口 7、Java接口 8、客户端与HDFS的数据流讲解 9、HDFS的可用性（HA）

三、初级MapReduce

这是你成为Hadoop开发人员的基础课程。

MapReduce提供了以下的主要功能:

1)数据划分和计算任务调度:

2)数据/代码互定位:

3)系统优化:

4)出错检测和恢复:

这种编程模型主要用于大规模数据集(大于1TB)的并行运算。

1、如何理解map、reduce计算模型 2、剖析伪分布式下MapReduce作业的执行过程 3、Yarn模型 4、序列化 5、MapReduce的类型与格式 6、MapReduce开发环境搭建 7、MapReduce应用开发 8、熟悉MapReduce算法原理

四、高级MapReduce

这一块主要是高级Hadoop开发的技能，都是MapReduce为什么我要分开写呢？因为我真的不觉得谁能直接上手就把MapReduce搞得清清楚楚。

1、使用压缩分隔减少输入规模 2、利用Combiner减少中间数据 3、编写Partitioner优化负载均衡 4、如何自定义排序规则 5、如何自定义分组规则 6、MapReduce优化

五、Hadoop集群与管理

这里会涉及到一些比较高级的数据库管理知识，乍看之下都是操作性的内容，但是做成容易，做好非常难。

1、Hadoop集群的搭建 2、Hadoop集群的监控 3、Hadoop集群的管理 4、集群下运行MapReduce程序

六、ZooKeeper基础知识

ZooKeeper的目标就是封装好复杂易出错的关键服务，将简单易用的接口和性能高效、功能稳定的系统提供给用户。

1、ZooKeeper体现结构 2、ZooKeeper集群的安装 3、操作ZooKeeper

七、HBase基础知识

HBase – Hadoop Database，是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统，利用HBase技术可在廉价PC Server上搭建起大规模结构化存储集群。

与FUJITSU Cliq等商用大数据产品不同，HBase是Google Bigtable的开源实现，类似Google Bigtable利用GFS作为其文件存储系统，HBase利用Hadoop HDFS作为其文件存储系统；Google运行MapReduce来处理Bigtable中的海量数据，HBase同样利用Hadoop MapReduce来处理HBase中的海量数据；Google Bigtable利用 Chubby作为协同服务，HBase利用Zookeeper作为对应。

1、HBase定义 2、HBase与RDBMS的对比 3、数据模型 4、系统架构 5、HBase上的MapReduce 6、表的设计

八、HBase集群及其管理

1、集群的搭建过程 2、集群的监控 3、集群的管理

十、Pig基础知识

Pig是进行Hadoop计算的另一种框架，是一个高级过程语言，适合于使用 Hadoop 和 MapReduce 平台来查询大型半结构化数据集。通过允许对分布式数据集进行类似 SQL 的查询，Pig 可以简化 Hadoop 的使用。

1、Pig概述 2、安装Pig 3、使用Pig完成手机流量统计业务

十一、Hive

hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供简单的sql查询功能，可以将sql语句转换为MapReduce任务进行运行。其优点是学习成本低，可以通过类SQL语句快速实现简单的MapReduce统计，不必开发专门的MapReduce应用。

1、数据仓库基础知识 2、Hive定义 3、Hive体系结构简介 4、Hive集群 5、客户端简介 6、HiveQL定义 7、HiveQL与SQL的比较 8、数据类型 9、表与表分区概念 10、表的操作与CLI客户端 11、数据导入与CLI客户端 12、查询数据与CLI客户端 13、数据的连接与CLI客户端 14、用户自定义函数（UDF）

十二、Sqoop

Sqoop(发音：skup)是一款开源的工具，主要用于在Hadoop(Hive)与传统的数据库(mysql、postgresql…)间进行数据的传递，可以将一个关系型数据库（例如： MySQL ,Oracle ,Postgres等）中的数据导进到Hadoop的HDFS中，也可以将HDFS的数据导进到关系型数据库中。

1、配置Sqoop 2、使用Sqoop把数据从MySQL导入到HDFS中 3、使用Sqoop把数据从HDFS导出到MySQL中

十三、Storm

Storm为分布式实时计算提供了一组通用原语，可被用于“流处理”之中，实时处理消息并更新数据库。这是管理队列及工作者集群的另一种方式。 Storm也可被用于“连续计算”（continuous computation），对数据流做连续查询，在计算时就将结果以流的形式输出给用户。它还可被用于“分布式RPC”，以并行的方式运行昂贵的运算。

1、Storm基础知识：包括Storm的基本概念和Storm应用场景，体系结构与基本原理，Storm和Hadoop的对比 2、Storm集群搭建：详细讲述Storm集群的安装和安装时常见问题 3、Storm组件介绍: spout、bolt、stream groupings等 4、Storm消息可靠性：消息失败的重发 5、Hadoop 2.0和Storm的整合：Storm on YARN 6、Storm编程实战

以上就是关于大数据｜Hadoop简介及两大功能三大核心组件（二）全部的内容，如果了解更多相关内容，可以关注我们，你们的支持是我们更新的动力！

hadoop是干什么用的?

搭建hadoop集群，常用配置文件是什么，以及配置哪些属性

大数据在哪儿学比较好？

更多相关资讯