GBase 8a MPP Cluster数据库的数据分片是什么概念如何理解

GBase 8a MPP Cluster数据库的数据分片是什么概念如何理解,第1张

数据存储与应用特点及技术路线分析

大数据时代,数据呈爆炸式增长。从存储服务的发展趋势来看,一方面,对数据的存储量的需求越来越大;另一方面,对数据的有效管理提出了更高的要求。大数据对存储设备的容量、读写性能、可靠性、扩展性等都提出了更高的要求,需要充分考虑功能集成度、数据安全性、数据稳定性,系统可扩展性、性能及成本各方面因素。

大数据存储与应用的特点分析

“大数据”是由数量巨大、结构复杂、类型众多数据构成的数据集合,是基于云计算的数据处理与应用模式,通过数据的整合共享,交叉复用形成的智力资源和知识服务能力。其常见特点可以概括为3V:Volume、Velocity、Variety(规模大、速度快、多样性)。

大数据具有数据规模大(Volume)且增长速度快的特性,其数据规模已经从PB级别增长到EB级别,并且仍在不断地根据实际应用的需求和企业的再发展继续扩容,飞速向着ZB(ZETA-BYTE)的规模进军。以国内最大的电子商务企业淘宝为例,根据淘宝网的数据显示,至2011年底,淘宝网最高单日独立用户访问量超过12亿人,比2010年同期增长120%,注册用户数量超过4亿,在线商品数量达到8亿,页面浏览量达到20亿规模,淘宝网每天产生4亿条产品信息,每天活跃数据量已经超过50TB所以大数据的存储或者处理系统不仅能够满足当前数据规模需求,更需要有很强的可扩展性以满足快速增长的需求。

(1)大数据的存储及处理不仅在于规模之大,更加要求其传输及处理的响应速度快(Velocity)。

相对于以往较小规模的数据处理,在数据中心处理大规模数据时,需要服务集群有很高的吞吐量才能够让巨量的数据在应用开发人员“可接受”的时间内完成任务。这不仅是对于各种应用层面的计算性能要求,更加是对大数据存储管理系统的读写吞吐量的要求。例如个人用户在网站选购自己感兴趣的货物,网站则根据用户的购买或者浏览网页行为实时进行相关广告的推荐,这需要应用的实时反馈;又例如电子商务网站的数据分析师根据购物者在当季搜索较为热门的关键词,为商家提供推荐的货物关键字,面对每日上亿的访问记录要求机器学习算法在几天内给出较为准确的推荐,否则就丢失了其失效性;更或者是出租车行驶在城市的道路上,通过GPS反馈的信息及监控设备实时路况信息,大数据处理系统需要不断地给出较为便捷路径的选择。这些都要求大数据的应用层可以最快的速度,最高的带宽从存储介质中获得相关海量的数据。另外一方面,海量数据存储管理系统与传统的数据库管理系统,或者基于磁带的备份系统之间也在发生数据交换,虽然这种交换实时性不高可以离线完成,但是由于数据规模的庞大,较低的数据传输带宽也会降低数据传输的效率,而造成数据迁移瓶颈。因此大数据的存储与处理的速度或是带宽是其性能上的重要指标。

(2)大数据由于其来源的不同,具有数据多样性的特点。

所谓多样性,一是指数据结构化程度,二是指存储格式,三是存储介质多样性。对于传统的数据库,其存储的数据都是结构化数据,格式规整,相反大数据来源于日志、历史数据、用户行为记录等等,有的是结构化数据,而更多的是半结构化或者非结构化数据,这也正是传统数据库存储技术无法适应大数据存储的重要原因之一。所谓存储格式,也正是由于其数据来源不同,应用算法繁多,数据结构化程度不同,其格式也多种多样。例如有的是以文本文件格式存储,有的则是网页文件,有的是一些被序列化后的比特流文件等等。所谓存储介质多样性是指硬件的兼容,大数据应用需要满足不同的响应速度需求,因此其数据管理提倡分层管理机制,例如较为实时或者流数据的响应可以直接从内存或者Flash(SSD)中存取,而离线的批处理可以建立在带有多块磁盘的存储服务器上,有的可以存放在传统的SAN或者NAS网络存储设备上,而备份数据甚至可以存放在磁带机上。因而大数据的存储或者处理系统必须对多种数据及软硬件平台有较好的兼容性来适应各种应用算法或者数据提取转换与加载(ETL)。

大数据存储技术路线最典型的共有三种:

第一种是采用MPP架构的新型数据库集群,重点面向行业大数据,采用Shared Nothing架构,通过列存储、粗粒度索引等多项大数据处理技术,再结合MPP架构高效的分布式计算模式,完成对分析类应用的支撑,运行环境多为低成本 PC Server,具有高性能和高扩展性的特点,在企业分析类应用领域获得极其广泛的应用。

这类MPP产品可以有效支撑PB级别的结构化数据分析,这是传统数据库技术无法胜任的。对于企业新一代的数据仓库和结构化数据分析,目前最佳选择是MPP数据库。

第二种是基于Hadoop的技术扩展和封装,围绕Hadoop衍生出相关的大数据技术,应对传统关系型数据库较难处理的数据和场景,例如针对非结构化数据的存储和计算等,充分利用Hadoop开源的优势,伴随相关技术的不断进步,其应用场景也将逐步扩大,目前最为典型的应用场景就是通过扩展和封装 Hadoop来实现对互联网大数据存储、分析的支撑。这里面有几十种NoSQL技术,也在进一步的细分。对于非结构、半结构化数据处理、复杂的ETL流程、复杂的数据挖掘和计算模型,Hadoop平台更擅长。

第三种是大数据一体机,这是一种专为大数据的分析处理而设计的软、硬件结合的产品,由一组集成的服务器、存储设备、 *** 作系统、数据库管理系统以及为数据查询、处理、分析用途而特别预先安装及优化的软件组成,高性能大数据一体机具有良好的稳定性和纵向扩展性。

以上是小编为大家分享的关于大数据存储与应用特点及技术路线分析的相关内容,更多信息可以关注环球青藤分享更多干货

大数据分析技术生态圈一览

大数据领域让人晕头转向。为了帮助你,我们决定制作这份厂商图标和目录。它并不是全面列出了这个领域的每家厂商,而是深入探讨大数据分析技术领域。我们希望这份资料新颖、实用。

这是一款面向Hadoop的自助服务式、无数据库模式的大数据分析应用软件。

Platfora

这是一款大数据发现和分析平台。

Qlikview

这是一款引导分析平台。

Sisense

这是一款商业智能软件,专门处理复杂数据的商业智能解决方案。

Sqream

这是一款快速、可扩展的大数据分析SQL数据库。

Splunk

这是一款运维智能平台。

Sumologic

这是一项安全的、专门定制的、基于云的机器数据分析服务。

Actian

这是一款大数据分析平台。

亚马逊Redshift

这是一项PB级云端数据仓库服务。

CitusData

可扩展PostgreSQL。

Exasol

这是一种用于分析数据的大规模并行处理(MPP)内存数据库。

惠普Vertica

这是一款SQL on Hadoop大数据分析平台。

Mammothdb

这是一款与SQL兼容的MPP分析数据库。

微软SQL Server

这是一款关系数据库管理系统。

甲骨文Exadata

这是一款计算和存储综合系统,针对甲骨文数据库软件进行了优化。

SAP HANA

这是一款内存计算平台。

Snowflake

这是一款云数据仓库。

Teradata

这是企业级大数据分析和服务。

数据探查

Apache Drill

这是一款无数据库模式的SQL查询引擎,面向Hadoop、NoSQL和云存储。

Cloudera Impala

这是一款开源大规模并行处理SQL查询引擎。

谷歌BigQuery

这是一项全面托管的NoOps数据分析服务。

Presto

这是一款面向大数据的分布式SQL查询引擎。

Spark

这是一款用于处理大数据的快速通用引擎。

平台/基础设施

亚马逊网络服务(AWS)

提供云计算服务

思科云

提供基础设施即服务

Heroku

为云端应用程序提供平台即服务

Infochimps

提供云服务的大数据解决方案

微软Azure

这是一款企业级云计算平台。

Rackspace

托管专业服务和云计算服务

Softlayer(IBM)

提供云基础设施即服务

数据基础设施

Cask

这是一款面向Hadoop解决方案的开源应用程序平台。

Cloudera

提供基于Hadoop的软件、支持和服务。

Hortonworks

管理HDP――这是一款开源企业Apache Hadoop数据平台。

MAPR

这是面向大数据部署环境的Apache Hadoop技术。

垂直领域应用/数据挖掘

Alpine Data Labs

这是一种高级分析平台,可处理Apache Hadoop和大数据。

R

这是一种免费软件环境,可处理统计计算和图形。

Rapidminer

这是一款开源预测分析平台

SAS

这是一款软件套件,可以挖掘、改动、管理和检索来自众多数据源的数据。

提取、转换和加载(ETL)

IBM Datastage

使用一种高性能并行框架,整合多个系统上的数据。

Informatica

这是一款企业数据整合和管理软件。

Kettle-Pentaho Data Integration

提供了强大的提取、转换和加载(ETL)功能。

微软SSIS

这是一款用于构建企业级数据整合和数据转换解决方案的平台。

甲骨文Data Integrator

这是一款全面的数据整合平台。

SAP

NetWeaver为整合来自各个数据源的数据提供了灵活方式。

Talend

提供了开源整合软件产品

Cassandra

这是键值数据库和列式数据库的混合解决方案。

CouchBase

这是一款开源分布式NoSQL文档型数据库。

Databricks

这是使用Spark的基于云的大数据处理解决方案。

Datastax

为企业版的Cassandra数据库提供商业支持。

IBM DB2

这是一款可扩展的企业数据库服务器软件。

MemSQL

这是一款分布式内存数据库。

MongoDB

这是一款跨平台的文档型数据库。

MySQL

这是一款流行的开源数据库。

甲骨文

这是一款企业数据库软件套件。

PostgresSQL

这是一款对象关系数据库管理系统。

Riak

这是一款分布式NoSQL数据库。

Splice Machine

这是一款Hadoop关系数据库管理系统。

VoltDB

这是一款内存NewSQL数据库。

Actuate

这是一款嵌入式分析和报表解决方案。

BiBoard

这是一款交互式商业智能仪表板和可视化工具。

ChartIO

这是面向数据库的企业级分析工具。

IBM Cognos

这是一款商业智能和绩效管理软件。

D3JS

这是一种使用HTML、SVG和CSS可视化显示数据的JavaScript库。

Highcharts

这是面向互联网的交互式JavaScirpt图表。

Logi Analytics

这是自助服务式、基于Web的商业智能和分析应用软件。

微软Power BI

这是交互式数据探查、可视化和演示工具。

Microstrategy

这是一款企业商业智能和分析软件。

甲骨文Hyperion

这是企业绩效管理和商业智能系统。

Pentaho

这是大数据整合和分析解决方案。

SAP Business Objects

这是商业智能解决方案。

Tableau

这是专注于商业智能的交互式数据可视化产品系列。

Tibco Jaspersoft

这是商业智能套件。

二者处理数据的思路是一样的, 分布式并行处理, 某种程度上也都能完成同样的工作但mpp仍是关系型数据库技术, 能较好支持SQL, 使用更方便 (举例:GreenPlum)hadoop是开源平台, 本身不是数据库, 但可处理非结构化数据, 这点关系数据库很难做到

大数据分析的价值和分析方式

对中国大数据市场趋势的调查数据进行解析,以诠释中国大数据市场和技术趋势。同时,会通过在线讲座和中国读者解读中国大数据市场趋势,以及大数据对IT技术、架构、管理以及格局的影响。中桥结合中国大数据市场的调研数据和分析,将分成四个系列对“中国大数据价值和趋势”进行解读。

在前面3个系列里,中桥就大数据分析对未来24个月、企业的大数据分析投入重点以及大数据分析对IT资源的需求进行了分析。在这一系列里,中桥将就大数据的分析方式和技术进行阐述。

大数据分析的业务价值和数据类型

越来越多的企业认识到大数据分析能够带给企业业务的价值。中桥的多选项调查结果显示(图1),企业认为大数据分析能够带来的主要业务价值依次是:提高生产过程的资源利用率,降低生产成本;根据商业分析提高商业智能的准确率,降低传统“凭感觉”做决策的业务风险;动态价格优化利润和增长;获取优质客户。这表明大数据已经对企业的成本、业务决策、利润有着直接的影响。中桥的另外一组调研数据显示,目前越来越多的企业级用户考虑从批量分析(大数据创造价值的第一阶段)向近实时分析(第二阶段)发展,从而提高IT创造价值的能力。同时,数据分析在快速从商业智能向用户智能发展。中国市场正逐步从大数据降低成本向大数据加速业务增长、提高利润以及突破创新发展。

图1 大数据分析的主要业务价值

目前中国用户主要是通过数据分析来提高整个企业的运营效率,降低运营成本。从图2对数据类型的调查结果来看,目前,中国企业的数据分析还是以结构化数据为主,如数据库或事务性数据。此外办公文件、计算机/网络日志文件、文本/信息等也是企业数据增长的主要来源,同时也是能够攫取出价值的数据类型。

图2 大数据分析数据类型

而就导致大数据问题的数据来源调查显示(图3),毫无疑问,数据库首当其冲,是企业大数据的主要来源;而半结构化和非结构化数据如软件和网络日志、感应数据、社群等也已经纳入企业数据分析的主要范畴,这表明企业已经意识到这些数据对于业务的重要性,这也是实现从(大)数据分析第一阶段到大数据分析第二阶段的必要条件。也成为未来24个月用户通过IT创造价值的IT投资重点。

图3 大数据分析数据来源

中国市场大数据分析方法

在了解了企业大数据的来源和种类之后,如何采取有效方式对这些数据进行分析,从而最大程度攫取数据价值,转化为最明智的商业决策以利于企业业务运营,是企业对大数据进行分析的目的所在。从目前中国大数据分析的分析方法来看(图4),有338%的企业选择针对具体工作负载来调整通用数据库;220%的受访企业选择数据分析云计算服务(如软件即服务和/或基础设施即服务);还有207%的企业选择自定义开发的解决方案。仅48%的用户使用了并行处理(MPP)分析数据库,33%使用了对称处理(SMP)分析数据库。这一结果表明,大多数的中国企业仍处于数据分析的第一阶段。而且,目前中国用户大多采用通用数据库、云计算或自定义开发的解决方案和数据库工具作为大数据分析方法,而没有选择去购买数据分析的软件。

图4 大数据分析方法

MapReduce可以让用户把半结构化和非结构化数据整合到数据处理和分析平台,从传统的核心式数据分布演进到集群或网格式数据分布。从图5关于数据处理和分析平台的调查结果来看,常用的分布式计算环境(290%)、自定义开发的解决方案(277%)、SMP(对称处理)数据库(160%)、公有云平台(105%)是目前大数据环境下较为普遍采用的数据处理和分析平台,而使用MapReduce的企业占比较低(48%)。这说明,目前中国企业对MapReduce的认同有限,这不仅影响着数据分析三个阶段的演进速度,也制约着数据的采集管理,进一步也影响着大数据分析四个环节的后面几个环节。

图5 大数据处理和分析平台

以上是小编为大家分享的关于大数据分析的价值和分析方式的相关内容,更多信息可以关注环球青藤分享更多干货

以上就是关于GBase 8a MPP Cluster数据库的数据分片是什么概念如何理解全部的内容,包括:GBase 8a MPP Cluster数据库的数据分片是什么概念如何理解、Office Frontpage Onenote Visio Project 这5个软件 有什么作用我需要详细解答 谢谢!、大数据存储与应用特点及技术路线分析等相关内容解答,如果想了解更多相关内容,可以关注我们,你们的支持是我们更新的动力!

欢迎分享,转载请注明来源:内存溢出

原文地址:https://54852.com/sjk/9402514.html

(0)
打赏 微信扫一扫微信扫一扫 支付宝扫一扫支付宝扫一扫
上一篇 2023-04-28
下一篇2023-04-28

发表评论

登录后才能评论

评论列表(0条)

    保存