为什么说 hive 是 hadoop 数据仓库，从方面理解_sql

hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供简单的sql查询功能，可以将sql语句转换为MapReduce任务进行运行。其优点是学习成本低，可以通过类SQL语句快速实现简单的MapReduce统计，不必开发专门的MapReduce应用，十分适合数据仓库的统计分析。它提供了一系列的工具，可以用来进行数据提取转化加载（ETL），这是一种可以存储、查询和分析存储在 Hadoop中的大规模数据的机制。

(1).hive由FaceBook开源用于解决海量结构化日志的数据统计。

(2).hive是基于hadoop的一个数据仓库工具，可以将结构化的数据文件映射成一张表，并提供类SQL查询功能。

(3).hive是构建在hadoop之上的数据仓库：

使用HQL语句作为查询接口

使用HDFS进行存储

使用mapreduce进行计算。

(4).hive本质是:将HQL转化成MapReduce程序。

(5).灵活和扩展性比较好：支持UDF，自定义存储格式。

(6).适合离线处理。

(7).查询和管理在分布式存储的大的数据集(数据库：增删改查，hive不支持增删该)。管理主要是对表的管理。

hadoop的hdfs支持海量数据量存储mapreduce支持对海量数据的分布式处理\x0d\x0aoracle虽然可以搭建集群但是当数据量达到一定限度之后查询处理速度会变得很慢且对机器性能要求很高\x0d\x0a其实这两个东西不是同类hadoop是一个分布式云处理架构，倾向于数据计算而oracle是一个关系型数据库，倾向于数据存储。要说比较可以比较hbase与oracle。\x0d\x0ahbase是一种nosql数据库，列式数据库，支持海量数据存储，支持列的扩展，但是查询 *** 作较复杂，不如oracle这类关系型数据库简单，且只支持一个索引，但是Hbase在表结构设置合理情况下，查询速度跟数据量大小没有太大关系，即数据量的大小不会影响到查询速度，顺便说句Hbase查询速度可以达到ms级

可以的

ClickHouse是一个用于联机分析(OLAP)的列式数据库管理系统(DBMS)。由号称“俄罗斯 Google”的Yandex开发而来，在2016年开源，在计算引擎里算是一个后起之秀，在内存数据库领域号称是最快的。由于它有几倍于GreenPlum等引擎的性能优势，所以不少人都选择将其安装云服务器中使用。

ClickHouse是一个列导向数据库，是原生的向量化执行引擎。它在大数据领域没有走Hadoop生态，而是采用Local attached storage作为存储，这样整个IO可能就没有Hadoop那一套的局限。它的系统在生产环境中可以应用到比较大的规模，因为它的线性扩展能力和可靠性保障能够原生支持shard+replication这种解决方案。它还提供了一些SQL直接接口，有比较丰富的原生client。

以下是ClickHouse作为分析型数据库的特点：

一. 速度快

ClickHouse性能超过了市面上大部分的列式存储数据库，相比传统的数据ClickHouse要快100-1000倍，ClickHouse还是有非常大的优势。

100Million 数据集:

ClickHouse比Vertica约快5倍，比Hive快279倍，比MySQL快801倍。

1Billion 数据集:

ClickHouse比Vertica约快5倍，MySQL和Hive已经无法完成任务了。

二. 功能多

ClickHouse支持数据统计分析各种场景：

1.支持类SQL查询；

2.支持繁多库函数（例如IP转化，URL分析等，预估计算/HyperLoglog等）；

3.支持数组(Array)和嵌套数据结构(Nested Data Structure)；

4.支持数据库异地复制部署。

三. 文艺范

不理睬Hadoop生态，走自己的路。目前任何具有x86_64，AArch64或PowerPC64LE CPU架构的Linux，FreeBSD或Mac OS X上运行。

而ClickHouse的缺点：

1.不支持Transaction：想快就别想Transaction；

2.聚合结果必须小于一台机器的内存大小：不是大问题；

3.缺少完整的Update/Delete *** 作；

4.支持有限 *** 作系统。

欢迎分享，转载请注明来源：内存溢出

原文地址:https://54852.com/sjk/10712696.html

为什么说 hive 是 hadoop 数据仓库，从方面理解

发表评论

评论列表（0条）

为什么说 hive 是 hadoop 数据仓库，从方 面理解

发表评论

评论列表（0条）

为什么说 hive 是 hadoop 数据仓库，从方面理解