Hadoop

Hadoop,第1张

Hadoop

一、文件上传到hdfs
开启Hadoop

#开启Hadoop
cd /usr/local/hadoop
./sbin/start-dfs.sh
#开启hive
cd /usr/local/hive
./bin/hive   
#开启mysql
service mysql start
mysql -uroot -p

设置Java环境

#报错JAVA_HOME is not set and java could not be found in PATH
sudo vim /usr/local/hadoop/etc/hadoop/hadoop-env.sh
#在第一行加入export JAVA_HOME=/usr/lib/jvm/jdk1.8.0_162

创建目录1

./bin/hdfs dfs -mkdir -p /user/hadoop#创建目录/user/hadoop
./bin/hdfs dfs -mkdir mulu1#以上目录下创建mulu1

上传文件

#上传文件到mulu1下
./bin/hdfs dfs -put /home/hadoop/small.csv  mulu1

二、下载sqoop
http://dblab.xmu.edu.cn/blog/install-sqoop1/
三、文件上传到hive

# 可以在Linux的任何目录下执行该命令
service mysql start
#启动Hive  


cd /usr/local
ls
sudo mkdir bigdatacase
//这里会提示你输入当前用户(本教程是hadoop用户名)的密码
//下面给hadoop用户赋予针对bigdatacase目录的各种 *** 作权限
sudo chown -R hadoop:hadoop ./bigdatacase
cd bigdatacase
//下面创建一个dataset目录,用于保存数据集
mkdir dataset
//下面就可以解压缩user.zip文件
cd ~  //表示进入hadoop用户的目录
cd 下载
ls
unzip user.zip -d /usr/local/bigdatacase/dataset
cd /usr/local/bigdatacase/dataset
ls

数据预处理
连接mysql

```python
from mysql import connector
conn = connector.connect(host='192.168.43.152',user='root',password='123456',database='msy',port=3306,charset='utf8',buffered=True)
sqlcursor=conn.cursor()

sql='''SELECt * FROM bigdata1 LIMIT 5'''
sqlcursor.execute(sql)
a=sqlcursor.fetchall()
print(a)

欢迎分享,转载请注明来源:内存溢出

原文地址:https://54852.com/zaji/5701641.html

(0)
打赏 微信扫一扫微信扫一扫 支付宝扫一扫支付宝扫一扫
上一篇 2022-12-17
下一篇2022-12-17

发表评论

登录后才能评论

评论列表(0条)

    保存