
hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。其优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计分析。它提供了一系列的工具,可以用来进行数据提取转化加载(ETL),这是一种可以存储、查询和分析存储在 Hadoop中的大规模数据的机制。
(1).hive由FaceBook开源用于解决海量结构化日志的数据统计。
(2).hive是基于hadoop的一个数据仓库工具,可以将结构化的数据文件映射成一张表,并提供类SQL查询功能。
(3).hive是构建在hadoop之上的数据仓库:
使用HQL语句作为查询接口
使用HDFS进行存储
使用mapreduce进行计算。
(4).hive本质是:将HQL转化成MapReduce程序。
(5).灵活和扩展性比较好:支持UDF,自定义存储格式。
(6).适合离线处理。
(7).查询和管理在分布式存储的大的数据集(数据库:增删改查,hive不支持增删该)。管理主要是对表的管理。
hadoop的hdfs支持海量数据量存储mapreduce支持对海量数据的分布式处理\x0d\x0aoracle虽然可以搭建集群 但是当数据量达到一定限度之后查询处理速度会变得很慢 且对机器性能要求很高\x0d\x0a其实这两个东西不是同类hadoop是一个分布式云处理架构,倾向于数据计算 而oracle是一个关系型数据库,倾向于数据存储。要说比较可以比较hbase与oracle。\x0d\x0ahbase是一种nosql数据库,列式数据库,支持海量数据存储,支持列的扩展,但是查询 *** 作较复杂,不如oracle这类关系型数据库简单,且只支持一个索引,但是Hbase在表结构设置合理情况下,查询速度跟数据量大小没有太大关系,即数据量的大小不会影响到查询速度,顺便说句Hbase查询速度可以达到ms级可以的ClickHouse是一个用于联机分析(OLAP)的列式数据库管理系统(DBMS)。由号称“俄罗斯 Google”的Yandex开发而来,在2016年开源,在计算引擎里算是一个后起之秀,在内存数据库领域号称是最快的。由于它有几倍于GreenPlum等引擎的性能优势,所以不少人都选择将其安装云服务器中使用。
ClickHouse是一个列导向数据库,是原生的向量化执行引擎。它在大数据领域没有走Hadoop生态,而是采用Local attached storage作为存储,这样整个IO可能就没有Hadoop那一套的局限。它的系统在生产环境中可以应用到比较大的规模,因为它的线性扩展能力和可靠性保障能够原生支持shard+replication这种解决方案。它还提供了一些SQL直接接口,有比较丰富的原生client。
以下是ClickHouse作为分析型数据库的特点:
一. 速度快
ClickHouse性能超过了市面上大部分的列式存储数据库,相比传统的数据ClickHouse要快100-1000倍,ClickHouse还是有非常大的优势。
100Million 数据集:
ClickHouse比Vertica约快5倍,比Hive快279倍,比MySQL快801倍。
1Billion 数据集:
ClickHouse比Vertica约快5倍,MySQL和Hive已经无法完成任务了。
二. 功能多
ClickHouse支持数据统计分析各种场景:
1.支持类SQL查询;
2.支持繁多库函数(例如IP转化,URL分析等,预估计算/HyperLoglog等);
3.支持数组(Array)和嵌套数据结构(Nested Data Structure);
4.支持数据库异地复制部署。
三. 文艺范
不理睬Hadoop生态,走自己的路。目前任何具有x86_64,AArch64或PowerPC64LE CPU架构的Linux,FreeBSD或Mac OS X上运行。
而ClickHouse的缺点:
1.不支持Transaction:想快就别想Transaction;
2.聚合结果必须小于一台机器的内存大小:不是大问题;
3.缺少完整的Update/Delete *** 作;
4.支持有限 *** 作系统。
欢迎分享,转载请注明来源:内存溢出
微信扫一扫
支付宝扫一扫
评论列表(0条)