hadoop集群搭建(Hadoop 3.1.3 Hive 3.1.2Spark 3.0.0)

hadoop集群搭建(Hadoop 3.1.3 Hive 3.1.2Spark 3.0.0),第1张

完全分布式HA

服务器规划

技术栈包含

hdfs

hive on spark

presto

doris

superset

azkaban

kafka

fluent\flume

sqoop\kettle\flink-cdc

atlas

禁用swap/selinux

修改 IP/修改主机名/及主机名和 IP 地址的映射

时间同步/设置时区/自动时间同步

关闭防火墙

关闭SELINUX

新建用户

免密登录(先升级openssh)

发送密钥(dw01上执行)

授权

Tencent Kona v8.0.8-GA

腾讯开源的konaJDK,针对大数据场景下优化

解压并重命名至安装地址:/usr/local/java/

zookeeper-3.5.9

解压并重命名至安装地址:/usr/local/zookeeper

apache-hadoop-3.1.3 解压至安装地址:/usr/local/hadoop

修改环境变量

/usr/local/zookeeper/conf

启动zookeeper集群(每台执行)

三台服务器启动

格式化namenode(dw01执行)

启动namenode(dw01上执行)

在[nn2]和[nn3]上分别执行,同步 nn1 的元数据信息

启动nn2 nn3,分别执行

所有节点上启动datanode

将[nn1]切换为 Active

查看状态

配置yarn-site.xml

配置mapred-site.xml

分发配置文件,启动yarn(dw03 启动)

dw03节点

dw01节点

dw01执行

dw03执行

测试样例

启动脚本

HA切换namenode手动

修改yarn显示log的bug

在HDFS文件系统中,可以配置回收站的功能,这和windows的回收站类似,文件如果被删除,将在回收站保留一段时间A,小于A的时间内,我们可以从回收站中恢复源文件,超过时间A文件被删除。

<property>

<name>fs.trash.interval</name>

<value>1</value>

</property>

fs.trash.interval默认是0,表示禁止开启,如果设置为1,则代表开启回收站,且保留时间为1分钟。

还有一个参数fs.trash.checkpoint.interval,默认是0,表示检查回收站是否到期的时间间隔,与回收站设置的1分钟一样,当然,也可以配置该值小于fs.trash.interval的设置值,但不能超过。

不过,需要注意的是,通过web页面,以及client删除的文件,是不走回收站的,只有在shell控台执行的删除,文件才会被移入回收站中。


欢迎分享,转载请注明来源:内存溢出

原文地址:https://54852.com/tougao/11323641.html

(0)
打赏 微信扫一扫微信扫一扫 支付宝扫一扫支付宝扫一扫
上一篇 2023-05-15
下一篇2023-05-15

发表评论

登录后才能评论

评论列表(0条)

    保存