
1.修改hdfs-site.xml配置文件
原配置为:
修改为:
2.分发hdfs-site.xml文件到各节点
3.将原journalnode上的edits文件scp到新的journalnode节点
从hdfs-site.xml文件中的dfs.journalnode.edits.dir配置项得到edits文件存储路径,scp到新节点的相同路径,注意权限和属主要相同,可以用scp -rp来复制
4.新journalnode节点启动journalnode进程
jps检查是否启动成功,如果失败就去看$HADOOP_HOME/logs下的journalnode相关的日志,讲道理应该没什么问题
5.把standby(nn2)节点的namenode重启一下
6.切换standby节点为active
7.重启standby(nn1)节点的namenode
*** 作同5,完成后web界面应该可以看到NameNode Journal Status的journalnode已扩展完成
首先我这里有5台虚拟机,1台NameNode,4台DataNode
master充当着NameNode的角色,其他的salve充当着DataNode的角色,并且在这5台虚拟机上我都修改了hosts文件,配置了他们的主机名他们可以通过主机名进行互相的访问。
配置完成 wq 保存退出。
加入 export PATH=$PATH:/usr/local/hadoop-2.7.3/bin:/usr/local/hadoop-2.7.3/sbin
保存后输入命令让profile文件立即生效。
输入命令:hadoop
如果出现以下内容 Hadoop环境就配置成功了
在我的master机器上也就是我192.168.56.101这台机器,这台机器将会成为我的Hadoop集群NameNode节点。
进入master这台机器的的根目录
出现提示可以不理会 直接按几次回车键就行了,出现以下界面说明生成私钥id_rsa和公钥id_rsa.pub
把生成的公钥id发送到 slave1、slave2、slave3、slave4机器上
slave1会要求你输入slave1这台机器上的密码
密码输入正确后你会看到以下界面,它说已经添加了密钥,它叫你尝试登陆一下
输入命令SSH免密登陆到slave1
你发现你已经从master不用输入密码登陆到slave1上了
添加其他的slave2、slave3、slave4 也是同样的 *** 作。
在所有有的机器上的上core-site.xml、和hdfs-site.xml 文件
修改core-site.xml,在configuration标签内加入以下配置
修改hdfs-site.xml,在configuration标签内加入以下配置
创建文件夹Hadoop存放数据的文件夹
mkdir /home/hadoopData
master主机是我的NameNode节点,所以我在我的master主机上 *** 作,也就是192.168.56.101这台主机。
在master主机的Hadoop目录下修改slaves文件,加入DataNode的节点
注意!注意!注意!
在我hosts文件中已经绑定了域名所以可以直接通过主机的名字访问(不明白看本文章中的节点的介绍)
slave1、slave2、slave3、slave4都是DataNode的节点我把它们加入到我的NanmeNode节点中
这样我就可以一个命令启动整个集群。
在我master这台主机上 输入命令HDFS格式化命令
输入启动HDFS系统命令
检查是否启动成功
在游览器中输入 :http://192.168.56.101:50070/
默认 你NameNode的IP+50070端口
当你见到以下界面说明你的集群已经起来了
再检查DataNode
我这里配了4个DataNode也起来了 说明整个HDFS集群搭建完成了!
认识HDFS
HDFS的特点:
HDFS不适用的场景
HDFS的组成
HDFS的数据复制
HDFS复制的选择
HDFS的安全模式
HDFS的元数据持久化
HDFS架构
数据块
为什么HDFS默认的Block为128MB(64MB)?
分布式文件系统中的块进行抽象带来的好处:
NameNode
NameNode主要功能如下:
DataNode
SecondaryNameNode
SecondaryNameNode合并Fsimage和EditsLog文件过程如下:
CheckPoint过程如下:
SecondaryNameNode会周期性地将EditsLog文件进行合并,合并前提条件如下:
机架感知
HDFS的RPC机制
RPC的实现流程
RPC的实体模型
HDFS的文件读取
文件读取的流程如下:
HDFS的文件写入
写入文件的过程比读取复杂,步骤如下:
HDFS的HA(High Availability,高可用性)机制
HA架构解释如下:
HDFS的federation机制
HDFS Federation使用了多个独立的NameNode/NameSpace使得HDFS的命名服务能够水平扩展
HDFS Federation中的NameNode之间是联盟关系,它们之间相互独立且不需要相互协调。HDFS Federation中的NameNode提供了名字空间和块关联功能.HDFS Federation中的DataNode被所有的NameNode用作公共存储块的地方.每一个DataNode都会向所在集群中所有的NameNode注册,并周期性的发送心跳和块信息报告,同时处理来自NameNode的指令
在HDFS中,所有的更新、回滚都是以NameNode和BlockPool为单元发生的.即同HDFS Federation中不同的NameNode/BlockPool之间没有什么关系
多个名字空间的管理问题
HDFS Federation中名字空间管理的基本原理:
维护HDFS
追加数据
并行复制
升级与回滚
两种升级升级都简单分为以下几步:
添加节点
删除节点
HDFS权限管理
欢迎分享,转载请注明来源:内存溢出
微信扫一扫
支付宝扫一扫
评论列表(0条)