hive数据库怎么建表和数据装载_工具

楼主说的是Hive，不是HBase。从Oracle里面头导出数据为平面文件后，导入HDFS里面。Hive里面的表结构是要自己手工定的。

建表可以自己写个小程序实现，根据oracle字典表和hive的建表规则，每个地方使用hive的情景不同，建表也不同。数据装载可以用sqoop来实现。

你可以安装下SQOOP，注意这个跟HADOOP的版本要对应的，不然会出现一些问题。以下是我项目用到的例子，不过我有个更高级的方法，只需配到表就行了，就是写个JAVA程序，然后自动生成对应的脚本，再执行就可以了。转载，仅供参考。

由于版本的不同，Python 连接 Hive 的方式也就不一样。

在网上搜索关键字 python hive 的时候可以找到一些解决方案。大部分是这样的，首先把hive 根目录下的$HIVE_HOME/lib/py拷贝到 python 的库中，也就是 site-package 中，或者干脆把新写的 python 代码和拷贝的 py 库放在同一个目录下，然后用这个目录下提供的 thrift 接口调用。示例也是非常简单的。类似这样：

import sys

from hive_service import ThriftHive

from hive_servicettypes import HiveServerException

from thrift import Thrift

from thrifttransport import TSocket

from thrifttransport import TTransport

from thriftprotocol import TBinaryProtocol

def hiveExe(sql):

try:

transport = TSocketTSocket('127001', 10000)

transport = TTransportTBufferedTransport(transport)

protocol = TBinaryProtocolTBinaryProtocol(transport)

client = ThriftHiveClient(protocol)

transportopen()

clientexecute(sql)

print "The return value is : "

print clientfetchAll()

print ""

transportclose()

except ThriftTException, tx:

print '%s' % (txmessage)

if __name__ == '__main__':

hiveExe("show tables")1234567891011121314151617181920212223242526272812345678910111213141516171819202122232425262728

或者是这样的：

#!/usr/bin/env python

import sys

from hive import ThriftHive

from hivettypes import HiveServerException

from thrift import Thrift

from thrifttransport import TSocket

from thrifttransport import TTransport

from thriftprotocol import TBinaryProtocol

try:

transport = TSocketTSocket('1418154188', 10000)

transport = TTransportTBufferedTransport(transport)

protocol = TBinaryProtocolTBinaryProtocol(transport)

client = ThriftHiveClient(protocol)

transportopen()

clientexecute("CREATE TABLE r(a STRING, b INT, c DOUBLE)")

clientexecute("LOAD TABLE LOCAL INPATH '/path' INTO TABLE r")

clientexecute("SELECT FROM test1")

while (1):

row = clientfetchOne()

if (row == None):

break

print rowve

clientexecute("SELECT FROM test1")

print clientfetchAll()

transportclose()

except ThriftTException, tx:

print '%s' % (txmessage)

12345678910111213141516171819202122232425262728293031323334351234567891011121314151617181920212223242526272829303132333435

但是都解决不了问题，从 netstat 中查看可以发现 TCP 连接确实是建立了，但是不执行 hive 指令。也许就是版本的问题。

还是那句话，看各种中文博客不如看官方文档。

项目中使用的 hive 版本是013，此时此刻官网的最新版本都到了121了。中间间隔了120、110、100、0140。但是还是参考一下官网的方法试试吧。

首先看官网的 setting up hiveserver2

可以看到启动 hiveserver2 可以配置最大最小线程数，绑定的 IP，绑定的端口，还可以设置认证方式。（之前一直不成功正式因为这个连接方式）然后还给了 python 示例代码。

import pyhs2

with pyhs2connect(host='localhost',

port=10000,

authMechanism="PLAIN",

user='root',

password='test',

database='default') as conn:

with conncursor() as cur:

#Show databases

print curgetDatabases()

#Execute query

curexecute("select from table")

#Return column info from query

print curgetSchema()

#Fetch table results

for i in curfetch():

print i123456789101112131415161718192021123456789101112131415161718192021

在拿到这个代码的时候，自以为是的把认证信息给去掉了。然后运行发现跟之前博客里介绍的方法结果一样，建立了 TCP 连接，但是就是不执行，也不报错。这是几个意思？然后无意中尝试了一下原封不动的使用上面的代码。结果可以用。唉。。。

首先声明一下，hive-sitexml中默认关于 hiveserver2的配置我一个都没有修改，一直是默认配置启动 hiveserver2。没想到的是默认配置是有认证机制的。

然后再写一点，在安装 pyhs2的时候还是遇到了点问题，其实还是要看官方文档的，我只是没看官方文档直接用 pip安装导致了这个问题。安装 pyhs2需要确定已经安装了几个依赖包。直接看在 github 上的 wiki 吧。哪个没安装就补上哪一个就好了。

To install pyhs2 on a clean CentOS 64 64-bit desktop

(as root or with sudo)

get ez_setuppy from >

首先感觉你有点乱。。。

你先明白数据仓库的作用－－存储历史数据－进而对数据进行分析，只提供查询－不提供修改

1。Hive 的目标是做成数据仓库，所以它提供了SQL，提供了文件－表的映射关系，又由于Hive基于HDFS，所以不提供Update，因为HDFS本身就不支持。

2HBase 是NoSQL数据库－所以不要跟传统混淆并谈－NoSQL 提供的是另一种思路来满足高性能的需求，而这些是传统数据库的短板，与传统数据库的理念不一样

3load data 这个可以自己去查。Hbase要使用自己的API

4是的。

5这句话不对。

6映射就是结构对应－如文件每一行的第一个字段－映射到Hive表的第一个字段

类似Hibernate的语法解析。

Hive本身实现了一套语法结构也就是 *** 作符。如扫描文件等，最终记本都会转换成MapReduce来运行

Hive与传统的关系型数据库有很多类似的地方，例如对SQL的支持。但是其基于HDFS与MapReduce的事实使得它与传统的数据库在很多方面有很大的不同，在一些特性的支持下也受到底层架构的限制，但是这些限制随着版本迭代正在不断被消除，使得Hive看起来越来越像传统的数据库。

以上就是关于hive数据库怎么建表和数据装载全部的内容，包括:hive数据库怎么建表和数据装载、windows下怎么用python连接hive数据库、有几点关于hadoop的hive数据仓库和hbase几点疑惑，希望有高手可以帮忙解决一下，谢谢了！！！等相关内容解答，如果想了解更多相关内容，可以关注我们，你们的支持是我们更新的动力！

欢迎分享，转载请注明来源：内存溢出

原文地址:https://54852.com/sjk/9369603.html

hive数据库怎么建表和数据装载

发表评论

评论列表（0条）