Hive 数据库表的基本 *** 作,必须掌握的基本功

Hive 数据库表的基本 *** 作,必须掌握的基本功,第1张

说明:hive 的表存放位置模式是由 hive-site.xml 当中的一个属性指定的,默认是存放在该配置文件设置的路径下,也可在创建数据库时单独指定存储路径。

数据库有一些描述性的属性信息,可以在创建时添加:

查看数据库的键值对信息

修改数据库的键值对信息

与mysql查询语句是一样的语法

删除一个空数据库,如果数据库下面有数据表,那么就会报错

强制删除数据库,包含数据库下面的表一起删除(请谨慎 *** 作)

[]里的属性为可选属性,不是必须的,但是如果有可选属性,会使 sql 语句的易读性更好,更标准与规范。

例如:[comment '字段注释信息'][comment '表的描述信息']等,[external]属性除外

1. CREATE TABLE

创建一个指定名字的表,如果相同名字的表已存在,则抛出异常提示:表已存在,使用时可以使用IF NOT EXISTS语句来忽略这个异常。

如果创建的表名已存在,则不会再创建,也不会抛出异常提示:表已存在。否则则自动创建该表。

2. EXTERNAL

顾名思义是外部的意思,此关键字在建表语句中让使用者可以创建一个外部表,如果不加该关键字,则默认创建内部表。

外部表在创建时必须同时指定一个指向实际数据的路径(LOCATION),Hive在创建内部表时,会将数据移动到数据仓库指向的路径;

若创建外部表,仅记录数据所在的路径,不对数据的位置作任何改变。

内部表在删除后,其元数据和数据都会被一起删除。

外部表在删除后,只删除其元数据,数据不会被删除。

3. COMMENT

用于给表的各个字段或整张表的内容作解释说明的,便于他人理解其含义。

4. PARTITIONED BY

区分表是否是分区表的关键字段,依据具体字段名和类型来决定表的分区字段。

5. CLUSTERED BY

依据column_name对表进行分桶,在 Hive 中对于每一张表或分区,Hive 可以通过分桶的方式将数据以更细粒度进行数据范围划分。Hive采用对列值哈希,然后除以桶的个数求余的方式决定该条记录存放在哪个桶当中。

6. SORTED BY

指定表数据的排序字段和排序规则,是正序还是倒序排列。

7. ROW FORMAT DELIMITED FIELDS TERMINATED BY ' '

指定表存储中列的分隔符,这里指定的是' ',也可以是其他分隔符。

8. STORED AS SEQUENCEFILE|TEXTFILE|RCFILE

指定表的存储格式,如果文件数据是纯文本格式,可以使用STORED AS TEXTFILE,如果数据需要压缩,则可以使用STORED AS SEQUENCEFILE。

9. LOCATION

指定 Hive 表在 hdfs 里的存储路径,一般内部表(Managed Table)不需要自定义,使用配置文件中设置的路径即可。

如果创建的是一张外部表,则需要单独指定一个路径。

1. 使用create table语句创建表

例子:

2. 使用create table ... as select...语句创建表

例子:

使用 create table ... as select ...语句来创建新表sub_student,此时sub_student 表的结构及表数据与 t_student 表一模一样, 相当于直接将 t_student 的表结构和表数据复制一份到 sub_student 表。

注意:

(1). select 中选取的列名(如果是 * 则表示选取所有列名)会作为新表 sub_student 的列名。

(2). 该种创建表的方式会改变表的属性以及结构,例如不能是外部表,只能是内部表,也不支持分区、分桶。

如果as select后的表是分区表,并且使用select *,则分区字段在新表里只是作为字段存在,而不是作为分区字段存在。

在使用该种方式创建时,create 与 table 之间不能加 external 关键字,即不能通过该种方式创建外部目标表,默认只支持创建内部目标表。

(3). 该种创建表的方式所创建的目标表存储格式会变成默认的格式textfile。

3.使用like语句创建表

例子:

注意:

(1). 只是将 t_student 的表结构复制给 sub1_student 表。

(2). 并不复制 t_student 表的数据给 sub1_student 表。

(3). 目标表可以创建为外部表,即:

第一步:配置JDBC提供程序.

在左侧的菜单->选择 资源->JDBC->JDBC提供程序->新建

作用域:使用默认即可.

数据库类型:根据你自己的需求选择,有Sql Server,DB2,Oracle.SyBase等等。这里我选择Oracle

实现类型:连接数据源.

名称:Oracle JDBC Driver(可以自己定义)

描述 :可以自己定义.

点击下一步.

这一步是选择驱动包所在的路径..

类路径:${ORACLE_JDBC_DRIVER_PATH}/ojdbc6.jar

这个是Oracle驱动的地址..

也可以指定自己的驱动jar包地址..

另存为 WebSphere 变量 ${ORACLE_JDBC_DRIVER_PATH} 的 ojdbc6.jar 的目录位置

下一步

点击完成.JDBC提供程序就配置完成了.

第二步:配置数据源.

从左侧菜单->选择数据源->新建按钮

输入基本数据源信息

作用域:(选择默认) cells:WpsCell01:nodes:WpsNode01:servers:server1

数据源名称:这里需要指定数据源名称.可以随便定义.然后记住就行了.我这里定义JDBCDataSource.

JNDI 名称:这里是指你在Java程序中指定的JNDI接口名称..这个一定要与Java程序中定义的JNDI名称一致,否则Java程序中不能连接到WebSphere中配置的数据源.

WebSphere数据源的配置:

配置好之后,点击下一步.选择 JDBC 提供程序

这一步则是选择刚刚配置的JDBC提供程序.

创建新的 JDBC 提供程序

选择现有的 JDBC 提供程序

然后下拉框中选择 Oracle JDBC Driver .

然后下一步

填写URL地址URL :jdbc:oracle:thin:@localhost:1521:ORCL

点击下一步设置安全性别名.

就是配置连接数据库的用户名和密码.

右侧-选择

JAAS - J2C 认证数据

点击新建。别名:databaseJ2C(可以随便定义)

用户标识:scott(数据库的用户名.)

密码:tiger(数据库的密码).

描述:可以不输入.

点击,应用->点击完成.

设置好认证信息之后. 回到设置安全性别名.选择刚刚设置的认证信息即可.

点击完成. 第三步测试数据源是否连接成功. 从左侧菜单->资源->数据源,找到刚刚配置好的数据源信息.

选中复选框. 点击测试连接按钮.

测试结果: 在节点 WpsNode01 上的服务器 server1 上,对数据源 JDBCDataSource执行的测试连接 *** 作是成功的。

修改 hive 的元数据库需要修改 hive-site.xml配置文件,比如我们使用mysql数据库修改其配置如下所示:

<property>

<name>javax.jdo.option.ConnectionDriverName</name>

<value>com.mysql.jdbc.Driver</value>

<description>Driver class name for a JDBC metastore</description>

</property>

<property>

<name>javax.jdo.option.ConnectionURL</name>

<value>jdbc:mysql://dajiangtai.com:3306/hive?characterEncoding=UTF-8</value>

<description>JDBC connect string for a JDBC metastore</description>

</property>

<property>

<name>javax.jdo.option.ConnectionUserName</name>

<value>hive</value>

<description>Username to use against metastore database</description>

</property>

<property>

<name>javax.jdo.option.ConnectionPassword</name>

<value>hive</value>

<description>password to use against metastore database</description>

</property>


欢迎分享,转载请注明来源:内存溢出

原文地址:https://54852.com/sjk/9261192.html

(0)
打赏 微信扫一扫微信扫一扫 支付宝扫一扫支付宝扫一扫
上一篇 2023-04-26
下一篇2023-04-26

发表评论

登录后才能评论

评论列表(0条)

    保存