华为云服务器的搭建和配置_华为云服务器怎么使用_服务器

华为云提供的大数据MRS服务可以提供租户完全可控的企业级大数据集群云服务，轻松运行Hadoop、Spark、HBase、Kafka、Storm等大数据组件。当前性价比很高，最小规格集群已经低至199元/小时，还有买10个月送2个月的活动。

在华为云社区找到了一个介绍MRS服务的云图说，可以MRS云图说。也可以到华为云MRS官方介绍页去看看。

jdk:jdk180

hadoop:hadoop-2101

spark:spark-301

将jdk解压缩

之后在/etc/profile里面添加环境变量

注意每次都要source /etc/profile

解压Hadoop

并配置环境变量，将Hadoop的路径写入~/bashrc

需要source ~/bashrc

修改hostname,

sudo vim /etc/hostname

修改hosts的名字

sudo vim /etc/hosts

以下是master的hostname和hosts
slave1和slave2的hostname也需要改。

配置免密登录
ssh-keygen -t rsa # 一直按回车就可以

cat /id_rsapub >> /authorized_keys

需要修改Hadoop安装目录下/etc/hadoop中的5个配置文件。slaves、core-sitexml、hdfs-sitexml、mapred-sitexml、yarn-sitexml

<configuration>

<property>

<name>fsdefaultFS</name>

<value>hdfs://master:9000</value>

</property>

<property>

<name>hadooptmpdir</name>

<value>file:/home/zkx/hadoop-2101/tmp</value>

<description>Abase for other temporary directories</description>

</property>

</configuration>

这文件记录备份相关。我们有2个 slave 节点，因此可以将 dfsreplication 的值设为 2

<configuration>

<property>

<name>dfsnamenodesecondary>spark和hadoop的区别：诞生的先后顺序、计算不同、平台不同。
诞生的先后顺序，hadoop属于第一代开源大数据处理平台，而spark属于第二代。属于下一代的spark肯定在综合评价上要优于第一代的hadoop。
计算不同spark和hadoop在分布式计算的底层思路上，其实是极为相似的，即mapreduce分布式运算模型：将运算分成两个阶段，阶段1-map，负责从上游拉取数据后各自运算，然后将运算结果shuffle给下游的reduce，reduce再各自对通过shuffle读取来的数据进行聚合运算spark和hadoop在分布式计算的具体实现上，又有区别；hadoop中的mapreduce运算框架，一个运算job，进行一次map-reduce的过程；而spark的一个job中，可以将多个map-reduce过程级联进行。
平台不同spark和hadoop区别是，spark是一个运算平台，而hadoop是一个复合平台（包含运算引擎，还包含分布式文件存储系统，还包含分布式运算的资源调度系统），所以，spark跟hadoop来比较的话，主要是比运算这一块大数据技术发展到目前这个阶段，hadoop主要是它的运算部分日渐式微，而spark目前如日中天，相关技术需求量大，offer好拿。

1 尝试更新游戏：更新游戏可以解决一些技术问题，比如游戏卡顿，可以尝试更新游戏，看看能否解决卡顿问题。
2 更换游戏服务器：如果游戏服务器的网络状况不太好，可以尝试更换游戏服务器，以获得更好的游戏体验。
3 优化游戏设置：游戏设置可能会影响游戏的流畅度，可以尝试优化游戏设置，以获得更好的游戏体验。
4 更换电脑硬件：如果电脑硬件不够强大，可能会导致游戏卡顿，可以尝试更换电脑硬件，以获得更好的游戏体验。
5 关闭其他程序：如果电脑上运行的程序过多，可能会导致游戏卡顿，可以尝试关闭其他程序，以获得更好的游戏体验。

方法/步骤
首先你的机器安装了jdk，我的新机器，所以早上刚在centos上折腾了jdk，没有的也可以去参考下
下载安装包
scala-2114tgz
spark-120-bin-hadoop24tgz
后面的包忘了之前哪找的了，需要的可以私我。将包传到服务器，解压
tar zxvf scala-2114tgz
tar zxvf spark-120-bin-hadoop24tgz
配置环境变量
vim /etc/profile
加上以下对应内容：
export JAVA_HOME=/home/yy/jdk18
export SCALA_HOME=/home/yy/scala
export SPARK_HOME=/home/yy/spark-120-bin-hadoop24
export PATH=$PATH:$JAVA_HOME/bin:$SCALA_HOME/bin:$SPARK_HOME/bin:$SPARK_HOME/sbin
执行source /etc/profile使配置生效
修改spark配置
进入spark-120-bin-hadoop24/conf
复制模板文件：
cp spark-envshtemplate spark-envsh
cp slavestemplate slaves
编辑spark-envsh
添加上你的对应信息：
export JAVA_HOME=/home/yy/jdk18
export SCALA_HOME=/home/yy/scala
export SPARK_MASTER_IP=172200204
export SPARK_WORKER_MEMORY=2g
export HADOOP_CONF_DIR=/home/yy/spark-120-bin-hadoop24/conf
编辑slaves
添加上你的对应信息，所有的集群的机器：
172200204
172200205
到此为止，前面所有的安装配置动作，在你的另一个机器上(所有的slave机器)同样的做一遍，即我这里的205机器
进入spark-120-bin-hadoop24/sbin/目录
执行：/start-allsh
如果没有设置ssh免密码登陆，会要求输入密码
这时候jps查看多了个master和worker
浏览器查看集群信息
master地址+8080端口
启动Running Applications
在bin目录下执行：
MASTER=spark://172200204:7077 /spark-shell
这时候就可以看到运行的app啦
同时可以查看jobs内容
slave机器上也运行app，这时候就可以看到运行的applications有两个啦。
好了，环境就算先搭起来啦，后面就是去调用吧。
>

生产集群不会每台都有访问外网的权限，一般管理员会有master的外网访问权限，为了保证hadoop或spark程序的正确运行，保证节点间的时间同步是很有必要的，因此需要设置局域网内次节点与master时间同步。
1）一般系统安装时的时区都会选择上海，如果需要重新选择时区，那么在master下敲入tzselect进行时区选择。
2） Linux一般都是安装了ntp的，如果没有安装可以用yum install ntp来安装一下（这个安装应该直接在系统的yum库中可以找到，因此不需要网络的），每台节点都需要确保其安装。
3） chkconfig ntpd on命令设置ntp永久开启
4）接下来在master上需要进行配置文件的修改。
首先停掉ntpd服务： service ntpd stop
vim /etc/ntpconf
将文件修改如下：

1> restrict 1921681300 mask 2552552550 nomodify notrap 此处修改的意思为处于192168130网段的全部ip都可以与master来设置时间同步。
2> 对于新加的几个server，其目的如下注释：
server 2107214544 perfer #国家时间校准中心
server 2021121036 #校准备用服务器
server 5912419683 #校准备用服务器
server 19216813056 #局域网NTP服务器IP，也就是主节点

配置好后，master中root下启动ntpd： service ntpd start
设置每天同步一次： crontab –l

5）次节点同步
次节点先停掉ntpd服务，然后输入： ntpdate master_host_name ，然后启动ntpd，此时输入 date 命令，看看时间是否正常了，同时可以通过设置 crontab –l 来使其每天都同步一次。全部的节点都这么同步一下。

我的博客 : >

欢迎分享，转载请注明来源：内存溢出

原文地址:https://54852.com/zz/13449403.html