hive怎么实现update *** 作

hive怎么实现update *** 作,第1张

1、要想使用Hive首先需要启动hadoop,因为hive的使用是依赖于hadoop的hdfs文件系统以及MapReduce计算的,下图是启动hadoop,如下图。

2、然后打开hadoop集群的master主机,然后使用【ifconfig】命令来看一下本机的ip地址,这个在SecureCRT软件的时候要使用 ,如下图。

3、然后打开SecureCRT软件,输入命令【rz】准备上传hive的安装包。

4、选中已经下载的hive安装包,然后点击【添加】,然后点击【确定】开始文件的上传,如下图。

5、然后在软件中观察文件上传的进度,上传结束后如下图。

6、进入到hadoop集群的master的终端中输入【ll】命令查看上传的hive安装包,红色表示压缩包。

7、然后输入【chmod +x ./hive-0.11.0.tar.gz】命令,给文件赋权。

hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供完整的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。

优点:学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计分析。

hive与关系型数据库的区别

1、数据加载

关系数据库:表的加载模式是在数据加载时候强制确定的(表的加载模式是指数据库存储数据的文件格式),如果加载数据时候发现加载的数据不符合模式,关系数据库则会拒绝加载数据,这个就叫“写时模式”,写时模式会在数据加载时候对数据模式进行检查校验的 *** 作

Hive:hive在加载数据时候不会对数据进行检查,也不会更改被加载的数据文件,而检查数据格式的 *** 作是在查询 *** 作时候执行,这种模式叫“读时模式”。

在实际应用中,写时模式在加载数据时候会对列进行索引,对数据进行压缩,因此加载数据的速度很慢,但是当数据加载好了,我们去查询数据的时候,速度很快。

但是当我们的数据是非结构化,存储模式也是未知时候,关系数据 *** 作这种场景就麻烦多了,这时候hive就会发挥它的优势。

2、

关系数据库:可以对某一行或某些行的数据进行更新、删除 *** 作。更新、事务和索引等等。

hive:不支持对某个具体行的 *** 作,也不支持事务和索引,hive对数据的 *** 作只支持覆盖原数据和追加数据。

hive的设计是对海量数据进行处理,全数据的扫描时常态。针对某些具体数据进行 *** 作的效率是很差的,对于更新 *** 作,hive是通过查询将原表的数据进行转化最后存储在新表里,这和传统数据库的更新 *** 作有很大不同。

3、

Hive也可以在hadoop做实时查询上做一份自己的贡献,那就是和hbase集成,hbase可以进行快速查询,但是hbase不支持类SQL的语句,那么此时hive可以给hbase提供sql语法解析的外壳,可以用类sql语句 *** 作hbase数据库。

Impala 获取hive 的 metadata

Impala 通常和Hive共用同一个metadata 数据库(通常是MySQL/PostgreSQL), 所以Impala 能够读取到Hive的元数据信息. 如果Impala需要访问Hive表, 需要将Hive metadata 刷新到impala中.

在Hive中Create/Drop表后, 或者HDFS rebalance,或者手工删除HDFS的文件后, 则需要在impala中执行下面两行命令:

INVALIDATE METADATA table_name

describe table_name

第一行命令 INVALIDATE METADATA 告诉impala 指定的 table 元数据已经过期, impala 将在下一次使用到该表时自动刷新元数据, 第二行命令即触发impala去更新元数据, 以免将来真正使用该表耗时太久.

如果Impala已经知道了Hive表的存在后, 又通过Hive增加或删除分区或alter table, 使用 refresh 命令即可更新元数据. refresh是对元数据进行增量更新, 和INVALIDATE METADATA相比, refresh命令使用成本低很多.

利用catalogd提供元数据服务。可以直接连DB也可以通过catalogd,一般是利用hive里的metastore获取数据。Impala高效的原因是其将原始数据缓存下来,catalogd启动会浏览缓存获取数据

因为impla默认catalogd会缓存,因此如果你重启的后,catalogd会将缓存数据存入到内存中,


欢迎分享,转载请注明来源:内存溢出

原文地址:https://54852.com/sjk/9455893.html

(0)
打赏 微信扫一扫微信扫一扫 支付宝扫一扫支付宝扫一扫
上一篇 2023-04-28
下一篇2023-04-28

发表评论

登录后才能评论

评论列表(0条)

    保存