Hive 数据库表的基本 *** 作，必须掌握的基本功_sql

说明：hive 的表存放位置模式是由 hive-site.xml 当中的一个属性指定的，默认是存放在该配置文件设置的路径下，也可在创建数据库时单独指定存储路径。

数据库有一些描述性的属性信息，可以在创建时添加：

查看数据库的键值对信息

修改数据库的键值对信息

与mysql查询语句是一样的语法

删除一个空数据库，如果数据库下面有数据表，那么就会报错

强制删除数据库，包含数据库下面的表一起删除(请谨慎 *** 作)

[]里的属性为可选属性，不是必须的，但是如果有可选属性，会使 sql 语句的易读性更好，更标准与规范。

例如：[comment '字段注释信息'][comment '表的描述信息']等，[external]属性除外

1. CREATE TABLE

创建一个指定名字的表，如果相同名字的表已存在，则抛出异常提示：表已存在，使用时可以使用IF NOT EXISTS语句来忽略这个异常。

如果创建的表名已存在，则不会再创建，也不会抛出异常提示：表已存在。否则则自动创建该表。

2. EXTERNAL

顾名思义是外部的意思，此关键字在建表语句中让使用者可以创建一个外部表，如果不加该关键字，则默认创建内部表。

外部表在创建时必须同时指定一个指向实际数据的路径（LOCATION），Hive在创建内部表时，会将数据移动到数据仓库指向的路径；

若创建外部表，仅记录数据所在的路径，不对数据的位置作任何改变。

内部表在删除后，其元数据和数据都会被一起删除。

外部表在删除后，只删除其元数据，数据不会被删除。

3. COMMENT

用于给表的各个字段或整张表的内容作解释说明的，便于他人理解其含义。

4. PARTITIONED BY

区分表是否是分区表的关键字段，依据具体字段名和类型来决定表的分区字段。

5. CLUSTERED BY

依据column_name对表进行分桶，在 Hive 中对于每一张表或分区，Hive 可以通过分桶的方式将数据以更细粒度进行数据范围划分。Hive采用对列值哈希，然后除以桶的个数求余的方式决定该条记录存放在哪个桶当中。

6. SORTED BY

指定表数据的排序字段和排序规则，是正序还是倒序排列。

7. ROW FORMAT DELIMITED FIELDS TERMINATED BY ' '

指定表存储中列的分隔符，这里指定的是' '，也可以是其他分隔符。

8. STORED AS SEQUENCEFILE|TEXTFILE|RCFILE

指定表的存储格式，如果文件数据是纯文本格式，可以使用STORED AS TEXTFILE，如果数据需要压缩，则可以使用STORED AS SEQUENCEFILE。

9. LOCATION

指定 Hive 表在 hdfs 里的存储路径，一般内部表（Managed Table）不需要自定义，使用配置文件中设置的路径即可。

如果创建的是一张外部表，则需要单独指定一个路径。

1. 使用create table语句创建表

例子：

2. 使用create table ... as select...语句创建表

例子：

使用 create table ... as select ...语句来创建新表sub_student，此时sub_student 表的结构及表数据与 t_student 表一模一样，相当于直接将 t_student 的表结构和表数据复制一份到 sub_student 表。

注意：

(1). select 中选取的列名（如果是 * 则表示选取所有列名）会作为新表 sub_student 的列名。

(2). 该种创建表的方式会改变表的属性以及结构，例如不能是外部表，只能是内部表，也不支持分区、分桶。

如果as select后的表是分区表，并且使用select *，则分区字段在新表里只是作为字段存在，而不是作为分区字段存在。

在使用该种方式创建时，create 与 table 之间不能加 external 关键字，即不能通过该种方式创建外部目标表，默认只支持创建内部目标表。

(3). 该种创建表的方式所创建的目标表存储格式会变成默认的格式textfile。

3.使用like语句创建表

例子：

注意：

(1). 只是将 t_student 的表结构复制给 sub1_student 表。

(2). 并不复制 t_student 表的数据给 sub1_student 表。

(3). 目标表可以创建为外部表，即:

第一步：配置JDBC提供程序.

在左侧的菜单->选择资源->JDBC->JDBC提供程序->新建

作用域:使用默认即可.

数据库类型:根据你自己的需求选择,有Sql Server，DB2,Oracle.SyBase等等。这里我选择Oracle

实现类型:连接数据源.

名称:Oracle JDBC Driver(可以自己定义)

描述 :可以自己定义.

点击下一步.

这一步是选择驱动包所在的路径..

类路径:${ORACLE_JDBC_DRIVER_PATH}/ojdbc6.jar

这个是Oracle驱动的地址..

也可以指定自己的驱动jar包地址..

另存为 WebSphere 变量 ${ORACLE_JDBC_DRIVER_PATH} 的 ojdbc6.jar 的目录位置

下一步

点击完成.JDBC提供程序就配置完成了.

第二步:配置数据源.

从左侧菜单->选择数据源->新建按钮

输入基本数据源信息

作用域:（选择默认） cells:WpsCell01:nodes:WpsNode01:servers:server1

数据源名称:这里需要指定数据源名称.可以随便定义.然后记住就行了.我这里定义JDBCDataSource.

JNDI 名称:这里是指你在Java程序中指定的JNDI接口名称..这个一定要与Java程序中定义的JNDI名称一致,否则Java程序中不能连接到WebSphere中配置的数据源.

WebSphere数据源的配置:

配置好之后,点击下一步.选择 JDBC 提供程序

这一步则是选择刚刚配置的JDBC提供程序.

创建新的 JDBC 提供程序

选择现有的 JDBC 提供程序

然后下拉框中选择 Oracle JDBC Driver .

然后下一步

填写URL地址URL :jdbc:oracle:thin:@localhost:1521:ORCL

点击下一步设置安全性别名.

就是配置连接数据库的用户名和密码.

右侧-选择

JAAS － J2C 认证数据

点击新建。别名:databaseJ2C（可以随便定义）

用户标识:scott(数据库的用户名.)

密码:tiger（数据库的密码）.

描述:可以不输入.

点击,应用->点击完成.

设置好认证信息之后. 回到设置安全性别名.选择刚刚设置的认证信息即可.

点击完成. 第三步测试数据源是否连接成功. 从左侧菜单->资源->数据源,找到刚刚配置好的数据源信息.

选中复选框. 点击测试连接按钮.

测试结果: 在节点 WpsNode01 上的服务器 server1 上，对数据源 JDBCDataSource执行的测试连接 *** 作是成功的。

修改 hive 的元数据库需要修改 hive-site.xml配置文件，比如我们使用mysql数据库修改其配置如下所示：

<name>javax.jdo.option.ConnectionDriverName</name>

<value>com.mysql.jdbc.Driver</value>

<description>Driver class name for a JDBC metastore</description>

</property>

<name>javax.jdo.option.ConnectionURL</name>

<value>jdbc:mysql://dajiangtai.com:3306/hive?characterEncoding=UTF-8</value>

<description>JDBC connect string for a JDBC metastore</description>

</property>

<name>javax.jdo.option.ConnectionUserName</name>

<description>Username to use against metastore database</description>

</property>

<name>javax.jdo.option.ConnectionPassword</name>

<description>password to use against metastore database</description>

</property>

欢迎分享，转载请注明来源：内存溢出

原文地址:https://54852.com/sjk/9261192.html

Hive 数据库表的基本 *** 作，必须掌握的基本功

发表评论

评论列表（0条）