
一、文件上传到hdfs
开启Hadoop
#开启Hadoop cd /usr/local/hadoop ./sbin/start-dfs.sh #开启hive cd /usr/local/hive ./bin/hive #开启mysql service mysql start mysql -uroot -p
设置Java环境
#报错JAVA_HOME is not set and java could not be found in PATH sudo vim /usr/local/hadoop/etc/hadoop/hadoop-env.sh #在第一行加入export JAVA_HOME=/usr/lib/jvm/jdk1.8.0_162
./bin/hdfs dfs -mkdir -p /user/hadoop#创建目录/user/hadoop ./bin/hdfs dfs -mkdir mulu1#以上目录下创建mulu1
上传文件
#上传文件到mulu1下 ./bin/hdfs dfs -put /home/hadoop/small.csv mulu1
二、下载sqoop
http://dblab.xmu.edu.cn/blog/install-sqoop1/
三、文件上传到hive
# 可以在Linux的任何目录下执行该命令 service mysql start #启动Hive cd /usr/local ls sudo mkdir bigdatacase //这里会提示你输入当前用户(本教程是hadoop用户名)的密码 //下面给hadoop用户赋予针对bigdatacase目录的各种 *** 作权限 sudo chown -R hadoop:hadoop ./bigdatacase cd bigdatacase //下面创建一个dataset目录,用于保存数据集 mkdir dataset //下面就可以解压缩user.zip文件 cd ~ //表示进入hadoop用户的目录 cd 下载 ls unzip user.zip -d /usr/local/bigdatacase/dataset cd /usr/local/bigdatacase/dataset ls
数据预处理
连接mysql
```python from mysql import connector conn = connector.connect(host='192.168.43.152',user='root',password='123456',database='msy',port=3306,charset='utf8',buffered=True) sqlcursor=conn.cursor() sql='''SELECt * FROM bigdata1 LIMIT 5''' sqlcursor.execute(sql) a=sqlcursor.fetchall() print(a)
欢迎分享,转载请注明来源:内存溢出
微信扫一扫
支付宝扫一扫
评论列表(0条)