大数据的分布式数据库技术的对比

大数据的分布式数据库技术的对比,第1张

数据技术的实现离不开很多其他的技术,我们提到最多的就是Hadoop技术,其实就目前而言,Hadoop技术看似是自成一套体系,其实并不是这样的,Hadoop和Spark以及分布式数据库其实也是存在差异的,我们就在这篇文章中给大家介绍一下这些内容。

首先我们说一说大数据分析,现在的大数据分析体系以Hadoop生态为主,而近年来逐渐火热的Spark技术也是主要的生态之一。可以这么说,Hadoop技术只能算是以HDFS+YARN作为基础的分布式文件系统,而不是数据库。我们提到的Hadoop的历史可以向前追溯10年,当年谷歌为了在几万台PC服务器上构建超大数据集合并提供极高性能的并发访问能力,从而发明了一种新的技术,而这个技术,也是Hadoop诞生的理论基础。如果我们从Hadoop的诞生背景可以看出,其主要解决的问题是超大规模集群下如何对非结构化数据进行批处理计算。实际上,在Hadoop架构中,一个分布式任务可以是类似传统结构化数据的关联、排序、聚集 *** 作,也可以是针对非结构化数据的用户自定义程序逻辑。

那么Hadoop的发展道路是什么样的呢。最开始的Hadoop以Big、Hive和MapReduce三种开发接口为代表,分别适用于脚本批处理、SQL批处理以及用户自定义逻辑类型的应用。而Spark的发展更是如此,最开始的SparkRDD几乎完全没有SQL能力,还是套用了Hive发展出的Shark才能对SQL有了一部分的支持。但是,随着企业用户对Hadoop的使用越发广泛,SQL已经渐渐成为大数据平台在传统行业的主要访问方式之一。

下面我们就说一说分布式数据库,分布式数据库有着悠久的历史,从以Oracle RAC为代表的联机交易型分布式数据库,到IBM DB2 DPF统计分析性分布式数据库,分布式数据库覆盖了OLTP与OLAP几乎全部的数据应用场景。而大部分分布式数据库功能集中在结构化计算与在线增删改查上。但是,这些传统的分布式数据库以数仓及分析类OLAP系统为主,其局限性在于,其底层的关系型数据库存储结构在效率上并不能满足大量高并发的数据查询以及大数据数据加工和分析的效率要求。因此,分布式数据库在近几年也有着极大的转型,从单一的数据模型向多模的数据模型转移,将OLTP、联机高并发查询以及支持大数据加工和分析结合起来,不再单独以OLAP作为设计目标。同时,分布式数据库在访问模式上也出现了K/V、文档、宽表、图等分支,支持除了SQL查询语言之外的其他访问模式,大大丰富了传统分布式数据库单一的用途。一般来说,多模数据库的主要目的是为了满足具有高性能要求的 *** 作型需求以及目标明确的数据仓库功能,而不是类似大数据深度学习等数据挖掘场景。这就是分布式数据库的实际情况。

我们在这篇文章中给大家介绍了大数据分析以及分布式数据库的相关知识,通过这些内容相信大家已经理解了其中的具体区别了吧,如果这篇文章能够帮助到大家这就是我们最大的心愿。

ADB笔记:

目标:主要用于数据分析,后端支持BI报表和数据大屏。mysql协议,学习成本低。

特有名词:

表组,对应RDS的schema。

维度表组(系统自带):自带维度概念的表(例如省份表等),可以放到维度表组下

普通表组:一般会把需要关联的普通表放在相同普通表组中,建议这个表组中的所有普通表的一级分区数一致,join性能会有很大提升。

维度表:共享表。

普通表:分区表。默认一级分区,可创建二级分区。

分区:普通表才有,一级分区采用hash算法,单表数据量在60亿以内,推荐。

主键:表必须包含主键。由业务id、一级分区键组成,有些情况业务id与一级分区相同。对于记录量特别大的表,从存储空间和insert性能考虑,一定要减少主键的字段数。

数据库创建完毕后,系统会默认创建一个维度表组,所有维度相关的表,可以放到维度表组下。

特殊字段:timestamp timestamp AnalyticDB精确到秒,MySQL支持自定义精度

常用sql连接:

>

不是直接使用数据库做分析的,数据库是存放数据的,公司每天产生的交易信息都会被数仓同事整理成格式化数据,存放在宽表中,而数据分析的同学,需要根据实际业务情况通过sql的形式取数,然后再通过excel等工具做图做表等去做统计分析。

”的争论一直没有休止,这个问题同时也是企业在建立DW时需要决策的关键问题。Bill Inmon的集线器架构/企业信息工厂架构(Hub and Spoke / CIF – Corporate Information Factory)与Ralph Kimball的数据集市/数据仓库总线架构(Data Mart Bus Architecture/Data Warehouse Bus Architecture)则是DW架构的争论焦点。但是,这些争论一直无法形成统一的结论。到底哪种DW架构最好,不同的BI/DW从业者在不同的项目中,面对不同企业的不同情况时,往往持有不同的说法。2005 年,Thilini Ariyachandra 与Hugh Watson针对DW架构做了一个深入的调查,调查题目为“哪种数据仓库最成功?”,受访者由454位曾在各种不同规模的企业(绝大多数是美国企业)中参与了DW规划与实施的人员组成,受访者根据DW应用实际情况及经验体会做出回答。为了合理设计调查问卷,在调查问卷中合理设置调查对象(参与调查的DW架构)和评判标准(影响DW架构选择的因素及判断DW架构成功的因素等)等内容,Watson和Ariyachandra邀请了20位专家组成专家组设计调查问卷及判断标准等,这20位专家包括了DW领域的两位先驱——赫赫有名的Bill Inmon和Ralph Kimball。因此我们可以认为这份调查的结果是权威可信的。

、多媒体数据库

这类数据库主要存储与多媒体相关的数据,如声音、图像和视频等数据。多媒体数据最大的特点是数据连续,而且数据量比较大,存储需要的空间较大。

搜狗问问

2、移动数据库

该类数据库是在移动计算机系统上发展起来的,如笔记本电脑、掌上计算机等。该数据库最大的特点是通过无线数字通信网络传输的。移动数据库可以随时随地地获取和访问数据,为一些商务应用和一些紧急情况带来了很大的便利。

3、数据库技术在多媒体技术方面的应用。

相对比传统的数据库技术,这种结合了多媒体技术的数据库,以多媒体技术的优势使得数据界面的丰富化并对于两者结合所可能带来的相关技术问题给予了充分解决,相关数据库方面的安全性得到了很好的提高。

多媒体数据库设计中有很多问题需要解决:用户接口支持方面、数据库组织与存储方面、媒体种类增加方面信息的分布影响方面。

4、信息检索系统

信息检索就是根据用户输入的信息,从数据库中查找相关的文档或信息,并把查找的信息反馈给用户。信息检索领域和数据库是同步发展的,它是一种典型的联机文档管理系统或者联机图书目录。

通常情况下,有两个方面的标准来判断数据库是否设计的比较规范:一是看看是否拥有大量的窄表,二是宽表的数量是否足够的少。若符合这两个基本条件,则说明这个数据库的规范化水平还是比较高的。

当然这两个指标只是最基础的判定条件。为了让数据库更加的规范,需要符合以下五点要求。

要求一:表中应该避免可为空的列。

虽然表中允许空列,但是,空字段是一种比较特殊的数据类型。数据库处理时需要进行特殊的处理。如此的话,就会增加数据库处理记录的复杂性。当表中有比较多的空字段时,在同等条件下,数据库处理的性能会降低许多。

所以,虽然在数据库表设计的时候,允许表中具有空字段,但是,我们应该尽量避免。若确实需要的话,我们可以通过一些折中的方式,来处理这些空字段,让其对数据库性能的影响降低到最少。

一是通过设置默认值的形式,来避免空字段的产生。如在一个人事管理系统中,有时候身份z号码字段可能允许为空。因为不是每个人都可以记住自己的身份z号码。为此,身份z号码字段可以允许为空,以满足这些特殊情况的需要。但是,在数据库设计的时候,则可以做一些处理。如当用户没有输入内容的时候,则把这个字段的默认值设置为0或者为N/A。以避免空字段的产生。

二是若一张表中,允许为空的列比较多,接近表全部列数的三分之一。而且,这些列在大部分情况下,都是可有可无的。若数据库管理员遇到这种情况,笔者建议另外建立一张副表,以保存这些列。然后通过关键字把主表跟这张副表关联起来。将数据存储在两个独立的表中使得主表的设计更为简单,同时也能够满足存储空值信息的需要。

要求二:表不应该有重复的值或者列。

如现在有一个进销存管理系统,这个系统中有一张产品基本信息表中。这个产品开发有时候可以是一个人完成,而有时候又需要多个人合作才能够完成。所以,在产品基本信息表产品开发者这个字段中,有时候可能需要填入多个开发者的名字。

以上就是关于大数据的分布式数据库技术的对比全部的内容,包括:大数据的分布式数据库技术的对比、adbmrio数据库怎么计、公共数据库是直接使用吗等相关内容解答,如果想了解更多相关内容,可以关注我们,你们的支持是我们更新的动力!

欢迎分享,转载请注明来源:内存溢出

原文地址:https://54852.com/sjk/9857173.html

(0)
打赏 微信扫一扫微信扫一扫 支付宝扫一扫支付宝扫一扫
上一篇 2023-05-02
下一篇2023-05-02

发表评论

登录后才能评论

评论列表(0条)

    保存