如何架构大数据系统 hadoop_框架

大数据数量庞大，格式多样化。大量数据由家庭、制造工厂和办公场所的各种设备、互联网事务交易、社交网络的活动、自动化传感器、移动设备以及科研仪器等生成。它的爆炸式增长已超出了传统IT基础架构的处理能力，给企业和社会带来严峻的数据管理问题。因此必须开发新的数据架构，围绕“数据收集、数据管理、数据分析、知识形成、智慧行动”的全过程，开发使用这些数据，释放出更多数据的隐藏价值。

一、大数据建设思路

1）数据的获得

大数据产生的根本原因在于感知式系统的广泛使用。随着技术的发展，人们已经有能力制造极其微小的带有处理功能的传感器，并开始将这些设备广泛的布置于社会的各个角落，通过这些设备来对整个社会的运转进行监控。这些设备会源源不断的产生新数据，这种数据的产生方式是自动的。因此在数据收集方面，要对来自网络包括物联网、社交网络和机构信息系统的数据附上时空标志，去伪存真，尽可能收集异源甚至是异构的数据，必要时还可与历史数据对照，多角度验证数据的全面性和可信性。

2）数据的汇集和存储

互联网是个神奇的大网，大数据开发和软件定制也是一种模式，这里提供最详细的报价，如果你真的想做，可以来这里，这个手机的开始数字是一八七中间的是三儿零最后的是一四二五零，按照顺序组合起来就可以找到，我想说的是，除非你想做或者了解这方面的内容，如果只是凑热闹的话，就不要来了

数据只有不断流动和充分共享，才有生命力。应在各专用数据库建设的基础上，通过数据集成，实现各级各类信息系统的数据交换和数据共享。数据存储要达到低成本、低能耗、高可靠性目标，通常要用到冗余配置、分布化和云计算技术，在存储时要按照一定规则对数据进行分类，通过过滤和去重，减少存储量，同时加入便于日后检索的标签。

3）数据的管理

大数据管理的技术也层出不穷。在众多技术中，有6种数据管理技术普遍被关注，即分布式存储与计算、内存数据库技术、列式数据库技术、云数据库、非关系型的数据库、移动数据库技术。其中分布式存储与计算受关注度最高。上图是一个图书数据管理系统。

4）数据的分析

数据分析处理：有些行业的数据涉及上百个参数，其复杂性不仅体现在数据样本本身，更体现在多源异构、多实体和多空间之间的交互动态性，难以用传统的方法描述与度量，处理的复杂度很大，需要将高维图像等多媒体数据降维后度量与处理，利用上下文关联进行语义分析，从大量动态而且可能是模棱两可的数据中综合信息，并导出可理解的内容。大数据的处理类型很多，主要的处理模式可以分为流处理和批处理两种。批处理是先存储后处理，而流处理则是直接处理数据。挖掘的任务主要是关联分析、聚类分析、分类、预测、时序模式和偏差分析等。

5）大数据的价值：决策支持系统

大数据的神奇之处就是通过对过去和现在的数据进行分析，它能够精确预测未来；通过对组织内部的和外部的数据整合，它能够洞察事物之间的相关关系；通过对海量数据的挖掘，它能够代替人脑，承担起企业和社会管理的职责。

6）数据的使用

大数据有三层内涵：一是数据量巨大、来源多样和类型多样的数据集；二是新型的数据处理和分析技术；三是运用数据分析形成价值。大数据对科学研究、经济建设、社会发展和文化生活等各个领域正在产生革命性的影响。大数据应用的关键，也是其必要条件，就在于"IT"与"经营"的融合，当然，这里的经营的内涵可以非常广泛，小至一个零售门店的经营，大至一个城市的经营。

二、大数据基本架构

基于上述大数据的特征，通过传统IT技术存储和处理大数据成本高昂。一个企业要大力发展大数据应用首先需要解决两个问题：一是低成本、快速地对海量、多类别的数据进行抽取和存储；二是使用新的技术对数据进行分析和挖掘，为企业创造价值。因此，大数据的存储和处理与云计算技术密不可分，在当前的技术条件下，基于廉价硬件的分布式系统（如Hadoop等）被认为是最适合处理大数据的技术平台。

Hadoop是一个分布式的基础架构，能够让用户方便高效地利用运算资源和处理海量数据，目前已在很多大型互联网企业得到了广泛应用，如亚马逊、Facebook和Yahoo等。其是一个开放式的架构，架构成员也在不断扩充完善中，通常架构如图2所示：

Hadoop体系架构

（1）Hadoop最底层是一个HDFS（Hadoop Distributed File System，分布式文件系统），存储在HDFS中的文件先被分成块，然后再将这些块复制到多个主机中（DataNode，数据节点）。

（2）Hadoop的核心是MapReduce（映射和化简编程模型）引擎，Map意为将单个任务分解为多个，而Reduce则意为将分解后的多任务结果汇总，该引擎由JobTrackers（工作追踪，对应命名节点）和TaskTrackers（任务追踪，对应数据节点）组成。当处理大数据查询时，MapReduce会将任务分解在多个节点处理，从而提高了数据处理的效率，避免了单机性能瓶颈限制。

（3）Hive是Hadoop架构中的数据仓库，主要用于静态的结构以及需要经常分析的工作。Hbase主要作为面向列的数据库运行在HDFS上，可存储PB级的数据。Hbase利用MapReduce来处理内部的海量数据，并能在海量数据中定位所需的数据且访问它。

（4）Sqoop是为数据的互 *** 作性而设计，可以从关系数据库导入数据到Hadoop，并能直接导入到HDFS或Hive。

（5）Zookeeper在Hadoop架构中负责应用程序的协调工作，以保持Hadoop集群内的同步工作。

（6）Thrift是一个软件框架，用来进行可扩展且跨语言的服务的开发，最初由Facebook开发，是构建在各种编程语言间无缝结合的、高效的服务。

Hadoop核心设计

Hbase——分布式数据存储系统

Client：使用HBase RPC机制与HMaster和HRegionServer进行通信

Zookeeper：协同服务管理，HMaster通过Zookeepe可以随时感知各个HRegionServer的健康状况

HMaster: 管理用户对表的增删改查 *** 作

HRegionServer：HBase中最核心的模块，主要负责响应用户I/O请求，向HDFS文件系统中读写数据

HRegion:Hbase中分布式存储的最小单元，可以理解成一个Table

HStore：HBase存储的核心。由MemStore和StoreFile组成。

HLog：每次用户 *** 作写入Memstore的同时，也会写一份数据到HLog文件

结合上述Hadoop架构功能，大数据平台系统功能建议如图所示：

应用系统：对于大多数企业而言，运营领域的应用是大数据最核心的应用，之前企业主要使用来自生产经营中的各种报表数据，但随着大数据时代的到来，来自于互联网、物联网、各种传感器的海量数据扑面而至。于是，一些企业开始挖掘和利用这些数据，来推动运营效率的提升。

数据平台：借助大数据平台，未来的互联网络将可以让商家更了解消费者的使用惯，从而改进使用体验。基于大数据基础上的相应分析，能够更有针对性的改进用户体验，同时挖掘新的商业机会。

数据源：数据源是指数据库应用程序所使用的数据库或者数据库服务器。丰富的数据源是大数据产业发展的前提。数据源在不断拓展，越来越多样化。如：智能汽车可以把动态行驶过程变成数据，嵌入到生产设备里的物联网可以把生产过程和设备动态状况变成数据。对数据源的不断拓展不仅能带来采集设备的发展，而且可以通过控制新的数据源更好地控制数据的价值。然而我国数字化的数据资源总量远远低于美欧，就已有有限的数据资源来说，还存在标准化、准确性、完整性低，利用价值不高的情况，这降低了数据的价值。

三、大数据的目标效果

通过大数据的引入和部署，可以达到如下效果：

1）数据整合

·统一数据模型：承载企业数据模型，促进企业各域数据逻辑模型的统一；

·统一数据标准：统一建立标准的数据编码目录，实现企业数据的标准化与统一存储；

·统一数据视图：实现统一数据视图，使企业在客户、产品和资源等视角获取到一致的信息。

2）数据质量管控

·数据质量校验：根据规则对所存储的数据进行一致性、完整性和准确性的校验，保证数据的一致性、完整性和准确性；

·数据质量管控：通过建立企业数据的质量标准、数据管控的组织、数据管控的流程，对数据质量进行统一管控，以达到数据质量逐步完善。

3）数据共享

·消除网状接口，建立大数据共享中心，为各业务系统提供共享数据，降低接口复杂度，提高系统间接口效率与质量；

·以实时或准实时的方式将整合或计算好的数据向外系统提供。

4）数据应用

·查询应用：平台实现条件不固定、不可预见、格式灵活的按需查询功能；

·固定报表应用：视统计维度和指标固定的分析结果的展示，可根据业务系统的需求，分析产生各种业务报表数据等；

·动态分析应用：按关心的维度和指标对数据进行主题性的分析，动态分析应用中维度和指标不固定。

四、总结

基于分布式技术构建的大数据平台能够有效降低数据存储成本，提升数据分析处理效率，并具备海量数据、高并发场景的支撑能力，可大幅缩短数据查询响应时间，满足企业各上层应用的数据需求。

客户端通过调用FileSystem对象（对应于HDFS文件系统，调用DistributedFileSystem对象）的open()方法来打开文件（也即图中的第一步），DistributedFileSystem通过RPC（Remote Procedure Call）调用询问NameNode来得到此文件最开始几个block的文件位置（第二步）。对每一个block来说，namenode返回拥有此block备份的所有namenode的地址信息（按集群的拓扑网络中与客户端距离的远近排序，关于在Hadoop集群中如何进行网络拓扑请看下面介绍）。如果客户端本身就是一个datanode（如客户端是一个mapreduce任务）并且此datanode本身就有所需文件block的话，客户端便从本地读取文件。

以上步骤完成后，DistributedFileSystem会返回一个FSDataInputStream（支持文件seek），客户端可以从FSDataInputStream中读取数据。FSDataInputStream包装了一个DFSInputSteam类，用来处理namenode和datanode的I/O *** 作。

客户端然后执行read()方法（第三步），DFSInputStream（已经存储了欲读取文件的开始几个block的位置信息）连接到第一个datanode（也即最近的datanode）来获取数据。通过重复调用read()方法（第四、第五步），文件内的数据就被流式的送到了客户端。当读到该block的末尾时，DFSInputStream就会关闭指向该block的流，转而找到下一个block的位置信息然后重复调用read()方法继续对该block的流式读取。这些过程对于用户来说都是透明的，在用户看来这就是不间断的流式读取整个文件。

当真个文件读取完毕时，客户端调用FSDataInputSteam中的close（）方法关闭文件输入流（第六步）。

如果在读某个block是DFSInputStream检测到错误，DFSInputSteam就会连接下一个datanode以获取此block的其他备份，同时他会记录下以前检测到的坏掉的datanode以免以后再无用的重复读取该datanode。DFSInputSteam也会检查从datanode读取来的数据的校验和，如果发现有数据损坏，它会把坏掉的block报告给namenode同时重新读取其他datanode上的其他block备份。

这种设计模式的一个好处是，文件读取是遍布这个集群的datanode的，namenode只是提供文件block的位置信息，这些信息所需的带宽是很少的，这样便有效的避免了单点瓶颈问题从而可以更大的扩充集群的规模。

Hadoop中的网络拓扑

在Hadoop集群中如何衡量两个节点的远近呢？要知道，在高速处理数据时，数据处理速率的唯一限制因素就是数据在不同节点间的传输速度：这是由带宽的可怕匮乏引起的。所以我们把带宽作为衡量两个节点距离大小的标准。

但是计算两个节点之间的带宽是比较复杂的，而且它需要在一个静态的集群下才能衡量，但Hadoop集群一般是随着数据处理的规模动态变化的（且两两节点直接相连的连接数是节点数的平方）。于是Hadoop使用了一个简单的方法来衡量距离，它把集群内的网络表示成一个树结构，两个节点之间的距离就是他们离共同祖先节点的距离之和。树一般按数据中心(datacenter)，机架(rack)，计算节点(datanode)的结构组织。计算节点上的本地运算速度最快，跨数据中心的计算速度最慢（现在跨数据中心的Hadoop集群用的还很少，一般都是在一个数据中心内做运算的）。

假如有个计算节点n1处在数据中心c1的机架r1上，它可以表示为/c1/r1/n1，下面是不同情况下两个节点的距离：

• distance(/d1/r1/n1, /d1/r1/n1) = 0 (processes on the same node)

• distance(/d1/r1/n1, /d1/r1/n2) = 2 (different nodes on the same rack)

• distance(/d1/r1/n1, /d1/r2/n3) = 4 (nodes on different racks in the same data center)

• distance(/d1/r1/n1, /d2/r3/n4) = 6 (nodes in different data centers)

如下图所示：

Hadoop

写文件

现在我们来看一下Hadoop中的写文件机制解析，通过写文件机制我们可以更好的了解一下Hadoop中的一致性模型。

Hadoop

上图为我们展示了一个创建一个新文件并向其中写数据的例子。

首先客户端通过DistributedFileSystem上的create()方法指明一个欲创建的文件的文件名（第一步），DistributedFileSystem再通过RPC调用向NameNode申请创建一个新文件（第二步，这时该文件还没有分配相应的block）。namenode检查是否有同名文件存在以及用户是否有相应的创建权限，如果检查通过，namenode会为该文件创建一个新的记录，否则的话文件创建失败，客户端得到一个IOException异常。DistributedFileSystem返回一个FSDataOutputStream以供客户端写入数据，与FSDataInputStream类似，FSDataOutputStream封装了一个DFSOutputStream用于处理namenode与datanode之间的通信。

当客户端开始写数据时（第三步），DFSOutputStream把写入的数据分成包（packet）, 放入一个中间队列——数据队列（data queue）中去。DataStreamer从数据队列中取数据，同时向namenode申请一个新的block来存放它已经取得的数据。namenode选择一系列合适的datanode（个数由文件的replica数决定）构成一个管道线（pipeline），这里我们假设replica为3，所以管道线中就有三个datanode。DataSteamer把数据流式的写入到管道线中的第一个datanode中（第四步），第一个datanode再把接收到的数据转到第二个datanode中（第四步），以此类推。

DFSOutputStream同时也维护着另一个中间队列——确认队列（ack queue），确认队列中的包只有在得到管道线中所有的datanode的确认以后才会被移出确认队列（第五步）。

如果某个datanode在写数据的时候当掉了，下面这些对用户透明的步骤会被执行：

1）管道线关闭，所有确认队列上的数据会被挪到数据队列的首部重新发送，这样可以确保管道线中当掉的datanode下流的datanode不会因为当掉的datanode而丢失数据包。

2）在还在正常运行的datanode上的当前block上做一个标志，这样当当掉的datanode重新启动以后namenode就会知道该datanode上哪个block是刚才当机时残留下的局部损坏block，从而可以把它删掉。

3）已经当掉的datanode从管道线中被移除，未写完的block的其他数据继续被写入到其他两个还在正常运行的datanode中去，namenode知道这个block还处在under-replicated状态（也即备份数不足的状态）下，然后他会安排一个新的replica从而达到要求的备份数，后续的block写入方法同前面正常时候一样。

有可能管道线中的多个datanode当掉（虽然不太经常发生），但只要dfsreplicationmin（默认为1）个replica被创建，我们就认为该创建成功了。剩余的replica会在以后异步创建以达到指定的replica数。

当客户端完成写数据后，它会调用close()方法（第六步）。这个 *** 作会冲洗（flush）所有剩下的package到pipeline中，等待这些package确认成功，然后通知namenode写入文件成功（第七步）。这时候namenode就知道该文件由哪些block组成（因为DataStreamer向namenode请求分配新block，namenode当然会知道它分配过哪些blcok给给定文件），它会等待最少的replica数被创建，然后成功返回。

replica是如何分布的

Hadoop在创建新文件时是如何选择block的位置的呢，综合来说，要考虑以下因素：带宽（包括写带宽和读带宽）和数据安全性。如果我们把三个备份全部放在一个datanode上，虽然可以避免了写带宽的消耗，但几乎没有提供数据冗余带来的安全性，因为如果这个datanode当机，那么这个文件的所有数据就全部丢失了。另一个极端情况是，如果把三个冗余备份全部放在不同的机架，甚至数据中心里面，虽然这样数据会安全，但写数据会消耗很多的带宽。Hadoop 0170给我们提供了一个默认replica分配策略（Hadoop 1X以后允许replica策略是可插拔的，也就是你可以自己制定自己需要的replica分配策略）。replica的默认分配策略是把第一个备份放在与客户端相同的datanode上（如果客户端在集群外运行，就随机选取一个datanode来存放第一个replica），第二个replica放在与第一个replica不同机架的一个随机datanode上，第三个replica放在与第二个replica相同机架的随机datanode上。如果replica数大于三，则随后的replica在集群中随机存放，Hadoop会尽量避免过多的replica存放在同一个机架上。选取replica的放置位置后，管道线的网络拓扑结构如下所示：

Hadoop

总体来说，上述默认的replica分配策略给了我们很好的可用性（blocks放置在两个rack上，较为安全），写带宽优化（写数据只需要跨越一个rack），读带宽优化（你可以从两个机架中选择较近的一个读取）。

一致性模型

HDFS某些地方为了性能可能会不符合POSIX（是的，你没有看错，POSIX不仅仅只适用于linux/unix， Hadoop 使用了POSIX的设计来实现对文件系统文件流的读取），所以它看起来可能与你所期望的不同，要注意。

创建了一个文件以后，它是可以在命名空间（namespace）中可以看到的：

Path p = new Path("p");

fscreate(p);

assertThat(fsexists(p), is(true));

但是任何向此文件中写入的数据并不能保证是可见的，即使你flush了已经写入的数据，此文件的长度可能仍然为零：

Path p = new Path("p");

OutputStream out = fscreate(p);

outwrite("content"getBytes("UTF-8"));

outflush();

assertThat(fsgetFileStatus(p)getLen(), is(0L));

这是因为，在Hadoop中，只有满一个block数据量的数据被写入文件后，此文件中的内容才是可见的（即这些数据会被写入到硬盘中去），所以当前正在写的block中的内容总是不可见的。

Hadoop提供了一种强制使buffer中的内容冲洗到datanode的方法，那就是FSDataOutputStream的sync()方法。调用了sync()方法后，Hadoop保证所有已经被写入的数据都被冲洗到了管道线中的datanode中，并且对所有读者都可见了：

Path p = new Path("p");

FSDataOutputStream out = fscreate(p);

outwrite("content"getBytes("UTF-8"));

outflush();

outsync();

assertThat(fsgetFileStatus(p)getLen(), is(((long) "content"length())));

这个方法就像POSIX中的fsync系统调用（它冲洗给定文件描述符中的所有缓冲数据到磁盘中）。例如，使用java API写一个本地文件，我们可以保证在调用flush()和同步化后可以看到已写入的内容：

FileOutputStream out = new FileOutputStream(localFile);

outwrite("content"getBytes("UTF-8"));

outflush(); // flush to operating system

outgetFD()sync(); // sync to disk （getFD()返回与该流所对应的文件描述符）

assertThat(localFilelength(), is(((long) "content"length())));

在HDFS中关闭一个流隐式的调用了sync()方法：

Path p = new Path("p");

OutputStream out = fscreate(p);

outwrite("content"getBytes("UTF-8"));

outclose();

assertThat(fsgetFileStatus(p)getLen(), is(((long) "content"length())));

由于Hadoop中的一致性模型限制，如果我们不调用sync()方法的话，我们很可能会丢失多大一个block的数据。这是难以接受的，所以我们应该使用sync()方法来确保数据已经写入磁盘。但频繁调用sync()方法也是不好的，因为会造成很多额外开销。我们可以再写入一定量数据后调用sync()方法一次，至于这个具体的数据量大小就要根据你的应用程序而定了，在不影响你的应用程序的性能的情况下，这个数据量应越大越好。

1下载hadoop的安装包，这里使用的是"hadoop-264targz":

2将安装包直接解压到D盘根目录:

3配置环境变量：

4下载hadoop的eclipse插件，并将插件放到eclipse的plugins目录下：

5打开Eclipse，选择菜单"Window"-->"Preferences"，在左侧找到"Hadoop Map/Reduce"，

在右侧选择hadoop的目录：

6打开菜单"Window"中的"Show View"窗口，选择"Map/Reduce Locations"：

7：在打开的"Map/Reduce Locations"面板中，点击小象图标，打开新建配置窗口：

8填写hadoop集群的主机地址和端口：

9新创建的hadoop集群连接配置，右上角的齿轮可以修改配置信息：

10打开菜单"Window"中的"Show View"窗口，找到"Project Explorer"：

11在"Project Explorer"面板中找到"DFS Locations"，展开下面的菜单就可以连接上HDFS，

可以直接看到HDFS中的目录和文件：

12在"Project Explorer"面板中点击鼠标右键，选择新建，就可以创建"Map/Reduce"项目了：

13下面我们创建了一个名为"hadoop-test"的项目，可以看到它自动帮我们导入了很多的jar包：

14在项目的src下面创建log4jproperties文件，内容如下：

log4jrootLogger=debug,stdout,R

log4jappenderstdout=orgapachelog4jConsoleAppender

log4jappenderstdoutlayout=orgapachelog4jPatternLayout

log4jappenderstdoutlayoutConversionPattern=%5p - %m%n

log4jappenderR=orgapachelog4jRollingFileAppender

log4jappenderRFile=mapreduce_testlog

虽然从事Hadoop方面工作，但是不是高手，毕竟只有一年经历而已。

分享下本人的学习经历吧。

了解Hadoop运行机制，可以学习Hadoop权威指南或者Hadoop实战；

了解Hadoop运行流程，看懂HADOOP_HOME/bin/下面主要执行脚本。

查看core-defaultxml/hdfs-defaultxml/mapred-defaultxml等默认配置

文件，及core-sitexml/hdfs-sitexml/mapred-sitexml等相关文件，学会

如何进行参数优化，以及掌握如何配置读取压缩文件，默认的gzip，及

自定义的lzo，学会自定义Combiner/Patitioner等，掌握各种输入输出

格式的区别及应用场景，学会自定义输入输出格式，其次学习MapReduce算法，

比如In-Map-Combing，相对频度计算，Pairs算法，Strips算法等。掌握好

mapreduce编程。

在这其中，需要好好阅读HADOOP_HOME/src/目录下的Hadoop源码，

这个就是开源最大的好处。说的比较乱，但是就凑合着借鉴下吧

1、启动hadoop所有进程

start-allsh等价于start-dfssh + start-yarnsh

但是一般不推荐使用start-allsh(因为开源框架中内部命令启动有很多问题)。

2、单进程启动。

sbin/start-dfssh

---------------

sbin/hadoop-daemonssh --config --hostname start namenode

sbin/hadoop-daemonssh --config --hostname start datanode

sbin/hadoop-daemonssh --config --hostname start sescondarynamenode

sbin/hadoop-daemonssh --config --hostname start zkfc //

sbin/start-yarnsh

--------------

libexec/yarn-configsh

sbin/yarn-daemonsh --config $YARN_CONF_DIR start resourcemanager

sbin/yarn-daemonssh --config $YARN_CONF_DIR start nodemanager

3、常用命令

1、查看指定目录下内容

hdfs dfs –ls [文件目录]

hdfs dfs -ls -R / //显式目录结构

eg: hdfs dfs –ls /user/wangkaipt

2、打开某个已存在文件

hdfs dfs –cat [file_path]

eg:hdfs dfs -cat /user/wangkaipt/datatxt

3、将本地文件存储至hadoop

hdfs dfs –put [本地地址] [hadoop目录]

hdfs dfs –put /home/t/filetxt /user/t

4、将本地文件夹存储至hadoop

hdfs dfs –put [本地目录] [hadoop目录]

hdfs dfs –put /home/t/dir_name /user/t

(dir_name是文件夹名)

5、将hadoop上某个文件down至本地已有目录下

hadoop dfs -get [文件目录] [本地目录]

hadoop dfs –get /user/t/oktxt /home/t

6、删除hadoop上指定文件

hdfs dfs –rm [文件地址]

hdfs dfs –rm /user/t/oktxt

7、删除hadoop上指定文件夹（包含子目录等）

hdfs dfs –rm [目录地址]

hdfs dfs –rmr /user/t

hdfs dfs –mkdir /user/t

hdfs dfs -mkdir - p /user/centos/hadoop

9、在hadoop指定目录下新建一个空文件

使用touchz命令：

hdfs dfs -touchz /user/newtxt

10、将hadoop上某个文件重命名

使用mv命令：

hdfs dfs –mv /user/testtxt /user/oktxt （将testtxt重命名为oktxt）

11、将hadoop指定目录下所有内容保存为一个文件，同时down至本地

hdfs dfs –getmerge /user /home/t

12、将正在运行的hadoop作业kill掉

hadoop job –kill [job-id]

13查看帮助

hdfs dfs -help

4、安全模式

(1)退出安全模式

NameNode在启动时会自动进入安全模式。安全模式是NameNode的一种状态，在这个阶段，文件系统不允许有任何修改。

系统显示Name node in safe mode，说明系统正处于安全模式，这时只需要等待十几秒即可，也可通过下面的命令退出安全模式：/usr/local/hadoop$bin/hadoop dfsadmin -safemode leave

(2) 进入安全模式

在必要情况下，可以通过以下命令把HDFS置于安全模式：/usr/local/hadoop$bin/hadoop dfsadmin -safemode enter

5、节点添加

添加一个新的DataNode节点，先在新加节点上安装好Hadoop，要和NameNode使用相同的配置（可以直接从NameNode复制），修改HADOOPHOME/conf/master文件，加入NameNode主机名。然后在NameNode节点上修改HADOOPHOME/conf/master文件，加入NameNode主机名。然后在NameNode节点上修改HADOOP_HOME/conf/slaves文件，加入新节点名，再建立新加节点无密码的SSH连接，运行启动命令为：/usr/local/hadoop$bin/start-allsh

6、负载均衡

HDFS的数据在各个DataNode中的分布可能很不均匀，尤其是在DataNode节点出现故障或新增DataNode节点时。新增数据块时NameNode对DataNode节点的选择策略也有可能导致数据块分布不均匀。用户可以使用命令重新平衡DataNode上的数据块的分布：/usr/local/hadoop$bin/start-balancersh

7、补充

1对hdfs *** 作的命令格式是hdfs dfs

11 -ls 表示对hdfs下一级目录的查看

12 -lsr 表示对hdfs目录的递归查看

13 -mkdir 创建目录

14 -put 从Linux上传文件到hdfs

15 -get 从hdfs下载文件到linux

16 -text 查看文件内容

17 -rm 表示删除文件

17 -rmr 表示递归删除文件

2hdfs在对数据存储进行block划分时，如果文件大小超过block，那么按照block大小进行划分；不如block size的，划分为一个块，是实际数据大小。

PermissionDenyException 权限不足

hadoop常用命令：

hdfs dfs 查看Hadoop HDFS支持的所有命令

hdfs dfs –ls 列出目录及文件信息

hdfs dfs –lsr 循环列出目录、子目录及文件信息

hdfs dfs –put testtxt /user/sunlightcs 将本地文件系统的testtxt复制到HDFS文件系统的/user/sunlightcs目录下

hdfs dfs –get /user/sunlightcs/testtxt 将HDFS中的testtxt复制到本地文件系统中，与-put命令相反

hdfs dfs –cat /user/sunlightcs/testtxt 查看HDFS文件系统里testtxt的内容

hdfs dfs –tail /user/sunlightcs/testtxt 查看最后1KB的内容

hdfs dfs –rm /user/sunlightcs/testtxt 从HDFS文件系统删除testtxt文件，rm命令也可以删除空目录

hdfs dfs –rmr /user/sunlightcs 删除/user/sunlightcs目录以及所有子目录

hdfs dfs –copyFromLocal testtxt /user/sunlightcs/testtxt 从本地文件系统复制文件到HDFS文件系统，等同于put命令

hdfs dfs –copyToLocal /user/sunlightcs/testtxt testtxt 从HDFS文件系统复制文件到本地文件系统，等同于get命令

hdfs dfs –chgrp [-R] /user/sunlightcs 修改HDFS系统中/user/sunlightcs目录所属群组，选项-R递归执行，跟linux命令一样

hdfs dfs –chown [-R] /user/sunlightcs 修改HDFS系统中/user/sunlightcs目录拥有者，选项-R递归执行

hdfs dfs –chmod [-R] MODE /user/sunlightcs 修改HDFS系统中/user/sunlightcs目录权限，MODE可以为相应权限的3位数或+/-{rwx}，选项-R递归执行

hdfs dfs –count [-q] PATH 查看PATH目录下，子目录数、文件数、文件大小、文件名/目录名

hdfs dfs –cp SRC [SRC …] DST 将文件从SRC复制到DST，如果指定了多个SRC，则DST必须为一个目录

hdfs dfs –du PATH 显示该目录中每个文件或目录的大小

hdfs dfs –dus PATH 类似于du，PATH为目录时，会显示该目录的总大小

hdfs dfs –expunge 清空回收站，文件被删除时，它首先会移到临时目录Trash/中，当超过延迟时间之后，文件才会被永久删除

hdfs dfs –getmerge SRC [SRC …] LOCALDST [addnl] 获取由SRC指定的所有文件，将它们合并为单个文件，并写入本地文件系统中的LOCALDST，选项addnl将在每个文件的末尾处加上一个换行符

hdfs dfs –touchz PATH 创建长度为0的空文件

hdfs dfs –test –[ezd] PATH 对PATH进行如下类型的检查： -e PATH是否存在，如果PATH存在，返回0，否则返回1 -z 文件是否为空，如果长度为0，返回0，否则返回1 -d 是否为目录，如果PATH为目录，返回0，否则返回1

hdfs dfs –text PATH 显示文件的内容，当文件为文本文件时，等同于cat，文件为压缩格式（gzip以及hadoop的二进制序列文件格式）时，会先解压缩 hdfs dfs –help ls 查看某个[ls]命令的帮助文档

本文转自 >

之前学习了一段时间的hadoop的相关知识，学习理论基础的时候要同时实际 *** 作才能对它更熟练，废话不多说来说说在hadoop上运行一个最简单的words count的程序

首先我先贴上这个程序的源代码供大家参考代码分为三个部分写的Run、 map阶段、 reduce阶段

Map：

[java] view plain copy

package wordsCount;

import javaioIOException;

import javautilStringTokenizer;

import orgapachehadoopioIntWritable;

import orgapachehadoopioLongWritable;

import orgapachehadoopioText;

import orgapachehadoopmapreduceMapper;

public class WordsMapper extends Mapper<LongWritable, Text, Text, IntWritable>{

@Override

protected void map(LongWritable key, Text value, Mapper<LongWritable, Text, Text, IntWritable>Context context)

throws IOException, InterruptedException {

String line = valuetoString();

StringTokenizer st = new StringTokenizer(line);

while(sthasMoreTokens()){

String word = stnextToken();

contextwrite(new Text(word), new IntWritable(1));

}

}

Reduce：

[java] view plain copy

package wordsCount;

import javaioIOException;

import orgapachehadoopioIntWritable;

import orgapachehadoopioText;

import orgapachehadoopmapreduceReducer;

public class WordsReduce extends Reducer<Text, IntWritable, Text, IntWritable>{

@Override

protected void reduce(Text key, Iterable<IntWritable> iterator,

Reducer<Text, IntWritable, Text, IntWritable>Context context) throws IOException, InterruptedException {

// TODO 自动生成的方法存根

int sum = 0;

for(IntWritable i:iterator){

sum = sum + iget();

}

contextwrite(key, new IntWritable(sum));

}

}

Run：

[java] view plain copy

package wordsCount;

import orgapachehadoopconfConfiguration;

import orgapachehadoopfsPath;

import orgapachehadoopioIntWritable;

import orgapachehadoopioText;

import orgapachehadoopmapreduceJob;

import orgapachehadoopmapreducelibinputFileInputFormat;

import orgapachehadoopmapreducelibinputTextInputFormat;

import orgapachehadoopmapreduceliboutputFileOutputFormat;

import orgapachehadoopmapreduceliboutputTextOutputFormat;

public class Run {

public static void main(String[] args) throws Exception{

// TODO 自动生成的方法存根

Configuration configuration = new Configuration();

Job job = new Job(configuration);

jobsetJarByClass(Runclass);

jobsetJobName("words count!");

jobsetOutputKeyClass(Textclass);

jobsetOutputValueClass(IntWritableclass);

jobsetInputFormatClass(TextInputFormatclass);

jobsetOutputFormatClass(TextOutputFormatclass);

jobsetMapperClass(WordsMapperclass);

jobsetReducerClass(WordsReduceclass);

FileInputFormataddInputPath(job, new Path("hdfs://1921681111:9000/user/input/wc/"));

FileOutputFormatsetOutputPath(job,new Path("hdfs://1921681111:9000/user/result/"));

jobwaitForCompletion(true);

}

}

Run里面的输入和输出路径根据自己的来修改

这个程序就不用去讲解了吧到处都能找到

首先在hadoop上运行这个程序用两个方法

方法一：将自己的编译软件与hadoop相连（我用的是MyEclipse去链接hadoop），直接运行程序。MyEclipse连接hadoop的教程待会我会在文章结尾处给出一个链接供大家参考。

看到下面的信息就表示你成功了然后你在再到你的输出文件夹里面就能查看运行的结果了

第二个文件里面的内容就是输出结果

第二种方法：将mapreduce程序打包成jar文件

这里简单的说一下打包的方法

然后下一步，完成就可以了

将打包好的jar文件传到你的装hadoop的机器上（我的hadoop集群是装在linux虚拟机中的）用SSH把jar传过去之后：

在你安装hadoop的目录下的bin目录下有一个hadoop的可执行文件，然后执行下面的 *** 作就可以了：

来解释下我的shell语句

/home/xiaohuihui/wordscountjar:打包之后的jar文件的所在位置（传到虚拟机中位置）

wordsCount/Run:这个位你的jar包中的主函数（这里的主函数就是Runclass）的名字可以打开你的jar文件查看便知道

还可以在这个语句之后加上你的输入和输出的文件路径，但是这个我已经在我的程序中设置了

如果你运行上面的shell语句之后看到下面的输出，那恭喜你，成功了！！

查看结果你可通过在你的Eclipse连接好hadoop查看，还可以通过在hdfs文件系统的网页去查看（localhost：50070）。

还有一个很重要的一步就是，运行之前保证你的hadoop已经启动了，可以通过jps来查看你的进程中是否已经启动hadoop集群

概述：

Hadoop是一个能够对大量数据进行分布式处理的软件框架，实现了Google的MapReduce编程模型和框架，能够把应用程序分割成许多的小的工作单元，并把这些单元放到任何集群节点上执行。在MapReduce中，一个准备提交执行的应用程序称为“作业（job）”，而从一个作业划分出得、运行于各个计算节点的工作单元称为“任务（task）”。此外，Hadoop提供的分布式文件系统（HDFS）主要负责各个节点的数据存储，并实现了高吞吐率的数据读写。

在分布式存储和分布式计算方面，Hadoop都是用从/从（Master/Slave）架构。在一个配置完整的集群上，想让Hadoop这头大象奔跑起来，需要在集群中运行一系列后台(deamon）程序。不同的后台程序扮演不用的角色，这些角色由NameNode、DataNode、 Secondary NameNode、JobTracker、TaskTracker组成。其中NameNode、Secondary NameNode、JobTracker运行在Master节点上，而在每个Slave节点上，部署一个DataNode和TaskTracker，以便这个Slave服务器运行的数据处理程序能尽可能直接处理本机的数据。对Master节点需要特别说明的是，在小集群中，Secondary NameNode可以属于某个从节点；在大型集群中，NameNode和JobTracker被分别部署在两台服务器上。

我们已经很熟悉这个5个进程，但是在使用的过程中，我们经常遇到问题，那么该如何入手解决这些问题。那么首先我们需了解的他们的原理和作用。

1Namenode介绍

Namenode 管理者文件系统的Namespace。它维护着文件系统树(filesystem tree)以及文件树中所有的文件和文件夹的元数据(metadata)。管理这些信息的文件有两个，分别是Namespace 镜像文件(Namespace image)和 *** 作日志文件(edit log)，这些信息被Cache在RAM中，当然，这两个文件也会被持久化存储在本地硬盘。Namenode记录着每个文件中各个块所在的数据节点的位置信息，但是他并不持久化存储这些信息，因为这些信息会在系统启动时从数据节点重建。

Namenode结构图课抽象为如图：

客户端(client)代表用户与namenode和datanode交互来访问整个文件系统。客户端提供了一些列的文件系统接口，因此我们在编程时，几乎无须知道datanode和namenode，即可完成我们所需要的功能。

11Namenode容错机制

没有Namenode，HDFS就不能工作。事实上，如果运行namenode的机器坏掉的话，系统中的文件将会完全丢失，因为没有其他方法能够将位于不同datanode上的文件块(blocks)重建文件。因此，namenode的容错机制非常重要，Hadoop提供了两种机制。

第一种方式是将持久化存储在本地硬盘的文件系统元数据备份。Hadoop可以通过配置来让Namenode将他的持久化状态文件写到不同的文件系统中。这种写 *** 作是同步并且是原子化的。比较常见的配置是在将持久化状态写到本地硬盘的同时，也写入到一个远程挂载的网络文件系统。

第二种方式是运行一个辅助的Namenode(Secondary Namenode)。事实上Secondary Namenode并不能被用作Namenode它的主要作用是定期的将Namespace镜像与 *** 作日志文件(edit log)合并，以防止 *** 作日志文件(edit log)变得过大。通常，Secondary Namenode 运行在一个单独的物理机上，因为合并 *** 作需要占用大量的CPU时间以及和Namenode相当的内存。辅助Namenode保存着合并后的Namespace镜像的一个备份，万一哪天Namenode宕机了，这个备份就可以用上了。

但是辅助Namenode总是落后于主Namenode，所以在Namenode宕机时，数据丢失是不可避免的。在这种情况下，一般的，要结合第一种方式中提到的远程挂载的网络文件系统(NFS)中的Namenode的元数据文件来使用，把NFS中的Namenode元数据文件，拷贝到辅助Namenode，并把辅助Namenode作为主Namenode来运行。

----------------------------------------------------------------------------------------------------------------------------------------------------

2、Datanode介绍

Datanode是文件系统的工作节点，他们根据客户端或者是namenode的调度存储和检索数据，并且定期向namenode发送他们所存储的块(block)的列表。

集群中的每个服务器都运行一个DataNode后台程序，这个后台程序负责把HDFS数据块读写到本地的文件系统。当需要通过客户端读/写某个数据时，先由NameNode告诉客户端去哪个DataNode进行具体的读/写 *** 作，然后，客户端直接与这个DataNode服务器上的后台程序进行通信，并且对相关的数据块进行读/写 *** 作。

---------------------------------------------------------------------------------------------------------------------------------------------------

3、Secondary NameNode介绍

Secondary NameNode是一个用来监控HDFS状态的辅助后台程序。就想NameNode一样，每个集群都有一个Secondary NameNode，并且部署在一个单独的服务器上。Secondary NameNode不同于NameNode，它不接受或者记录任何实时的数据变化，但是，它会与NameNode进行通信，以便定期地保存HDFS元数据的快照。由于NameNode是单点的，通过Secondary NameNode的快照功能，可以将NameNode的宕机时间和数据损失降低到最小。同时，如果NameNode发生问题，Secondary NameNode可以及时地作为备用NameNode使用。

31NameNode的目录结构如下：

${dfsnamedir}/current/VERSION

/edits

/fsimage

/fstime

32Secondary NameNode的目录结构如下：

${fscheckpointdir}/current/VERSION

/edits

/fsimage

/fstime

/previouscheckpoint/VERSION

/edits

/fsimage

/fstime

如上图，Secondary NameNode主要是做Namespace image和Edit log合并的。

那么这两种文件是做什么的？当客户端执行写 *** 作，则NameNode会在edit log记录下来，（我感觉这个文件有些像Oracle的online redo logo file）并在内存中保存一份文件系统的元数据。

Namespace image（fsimage）文件是文件系统元数据的持久化检查点，不会在写 *** 作后马上更新，因为fsimage写非常慢（这个有比较像datafile）。

由于Edit log不断增长，在NameNode重启时，会造成长时间NameNode处于安全模式，不可用状态，是非常不符合Hadoop的设计初衷。所以要周期性合并Edit log，但是这个工作由NameNode来完成，会占用大量资源，这样就出现了Secondary NameNode，它可以进行image检查点的处理工作。步骤如下：

（1） Secondary NameNode请求NameNode进行edit log的滚动（即创建一个新的edit log），将新的编辑 *** 作记录到新生成的edit log文件；

（2）通过>

（3）读取fsimage到内存中，即加载fsimage到内存，然后执行edits中所有 *** 作（类似OracleDG，应用redo log），并生成一个新的fsimage文件，即这个检查点被创建；

（4）通过>

（5） NameNode使用新的fsimage替换原来的fsimage文件，让（1）创建的edits替代原来的edits文件；并且更新fsimage文件的检查点时间。

整个处理过程完成。

Secondary NameNode的处理，是将fsimage和edites文件周期的合并，不会造成nameNode重启时造成长时间不可访问的情况。

--------------------------------------------------------------------------------------------------------------------------------------------------

4、JobTracker介绍

JobTracker后台程序用来连接应用程序与Hadoop。用户代码提交到集群以后，由JobTracker决定哪个文件将被处理，并且为不同的task分配节点。同时，它还监控所有的task，一旦某个task失败了，JobTracker就会自动重新开启这个task，在大多数情况下这个task会被放在不用的节点上。每个Hadoop集群只有一个JobTracker，一般运行在集群的Master节点上。

下面我们详细介绍：

41JobClient

我们配置好作业之后，就可以向JobTracker提交该作业了，然后JobTracker才能安排适当的TaskTracker来完成该作业。那么MapReduce在这个过程中到底做了那些事情呢？这就是本文以及接下来的一片博文将要讨论的问题，当然本文主要是围绕客户端在作业的提交过程中的工作来展开。先从全局来把握这个过程吧！

在Hadoop中，作业是使用Job对象来抽象的，对于Job，我首先不得不介绍它的一个大家伙JobClient——客户端的实际工作者。JobClient除了自己完成一部分必要的工作外，还负责与JobTracker进行交互。所以客户端对Job的提交，绝大部分都是JobClient完成的，从上图中，我们可以得知JobClient提交Job的详细流程主要如下：

JobClient在获取了JobTracker为Job分配的id之后，会在JobTracker的系统目录(HDFS)下为该Job创建一个单独的目录，目录的名字即是Job的id，该目录下会包含文件jobxml、jobjar、jobsplit等，其中，jobxml文件记录了Job的详细配置信息，jobjar保存了用户定义的关于job的map、reduce *** 纵，jobsplit保存了job任务的切分信息。在上面的流程图中，我想详细阐述的是JobClient是任何配置Job的运行环境，以及如何对Job的输入数据进行切分。

42JobTracker

上面谈到了客户端的JobClient对一个作业的提交所做的工作，那么这里，就要好好的谈一谈JobTracker为作业的提交到底干了那些个事情——一为作业生成一个Job；二接受该作业。

我们都知道，客户端的JobClient把作业的所有相关信息都保存到了JobTracker的系统目录下(当然是HDFS了)，这样做的一个最大的好处就是客户端干了它所能干的事情同时也减少了服务器端JobTracker的负载。下面就来看看JobTracker是如何来完成客户端作业的提交的吧！哦。对了，在这里我不得不提的是客户端的JobClient向JobTracker正式提交作业时直传给了它一个改作业的JobId，这是因为与Job相关的所有信息已经存在于JobTracker的系统目录下，JobTracker只要根据JobId就能得到这个Job目录。

对于上面的Job的提交处理流程，我将简单的介绍以下几个过程：

1创建Job的JobInProgress

JobInProgress对象详细的记录了Job的配置信息，以及它的执行情况，确切的来说应该是Job被分解的map、reduce任务。在JobInProgress对象的创建过程中，它主要干了两件事，一是把Job的jobxml、jobjar文件从Job目录copy到JobTracker的本地文件系统(jobxml->/jobTracker/jobidxml，jobjar->/jobTracker/jobidjar)；二是创建JobStatus和Job的mapTask、reduceTask存队列来跟踪Job的状态信息。

2检查客户端是否有权限提交Job

JobTracker验证客户端是否有权限提交Job实际上是交给QueueManager来处理的。

3检查当前mapreduce集群能够满足Job的内存需求

客户端提交作业之前，会根据实际的应用情况配置作业任务的内存需求，同时JobTracker为了提高作业的吞吐量会限制作业任务的内存需求，所以在Job的提交时，JobTracker需要检查Job的内存需求是否满足JobTracker的设置。

上面流程已经完毕，可以总结为下图：

--------------------------------------------------------------------------------------------------------------------------

5、TaskTracker介绍

TaskTracker与负责存储数据的DataNode相结合，其处理结构上也遵循主/从架构。JobTracker位于主节点，统领 MapReduce工作；而TaskTrackers位于从节点，独立管理各自的task。每个TaskTracker负责独立执行具体的task，而 JobTracker负责分配task。虽然每个从节点仅有一个唯一的一个TaskTracker，但是每个TaskTracker可以产生多个java 虚拟机（JVM），用于并行处理多个map以及reduce任务。TaskTracker的一个重要职责就是与JobTracker交互。如果 JobTracker无法准时地获取TaskTracker提交的信息，JobTracker就判定TaskTracker已经崩溃，并将任务分配给其他节点处理。

51TaskTracker内部设计与实现

Hadoop采用master-slave的架构设计来实现Map-Reduce框架，它的JobTracker节点作为主控节点来管理和调度用户提交的作业，TaskTracker节点作为工作节点来负责执行JobTracker节点分配的Map/Reduce任务。整个集群由一个JobTracker节点和若干个TaskTracker节点组成，当然，JobTracker节点也负责对TaskTracker节点进行管理。在前面一系列的博文中，我已经比较系统地讲述了JobTracker节点内部的设计与实现，而在本文，我将对TaskTracker节点的内部设计与实现进行一次全面的概述。

TaskTracker节点作为工作节点不仅要和JobTracker节点进行频繁的交互来获取作业的任务并负责在本地执行他们，而且也要和其它的TaskTracker节点交互来协同完成同一个作业。因此，在目前的Hadoop-02020实现版本中，对工作节点TaskTracker的设计主要包含三类组件：服务组件、管理组件、工作组件。服务组件不仅负责与其它的TaskTracker节点而且还负责与JobTracker节点之间的通信服务，管理组件负责对该节点上的任务、作业、JVM实例以及内存进行管理，工作组件则负责调度Map/Reduce任务的执行。这三大组件的详细构成如下：

下面来详细的介绍这三类组件：

服务组件

TaskTracker节点内部的服务组件不仅用来为TaskTracker节点、客户端提供服务，而且还负责向TaskTracker节点请求服务，这一类组件主要包括>

以上就是关于如何架构大数据系统 hadoop全部的内容，包括:如何架构大数据系统 hadoop、Hadoop读写文件时内部工作机制是怎样的、如何在Windows下面运行hadoop的MapReduce程序等相关内容解答，如果想了解更多相关内容，可以关注我们，你们的支持是我们更新的动力！

欢迎分享，转载请注明来源：内存溢出

原文地址:https://54852.com/web/9273114.html

如何架构大数据系统 hadoop

发表评论

评论列表（0条）