大数据用什么数据库_工具

大数据肯定用云数据库啦，可以了解一下阿里云云数据库。

现在有阿里云幸运券分享给你，用券购买或者升级阿里云相应产品会有特惠惊喜哦。

幸运券地址

大数据和云计算从理论角度来看，二者属于不同层次的事情，云计算研究的是计算问题，大数据研究的是巨量数据处理问题，而巨量数据处理依然属于计算问题的研究范围，因此，从这个角度来看，大数据是云计算的一个子领域，从应用角度来看，大数据是云计算的应用案例之一，云计算是大数据的实现工具之一。

大数据与云计算既有不同又有联系，但在现实中，由于大数据处理时为了获得良好的效率和质量，常常采用云计算技术，因此，大数据与云计算便常常同时出现于人们的眼前，从而造成了人们的困惑。

大数据技术是一种新一代技术和构架，它以成本较低、以快速的采集、处理和分析技术，从各种超大规模的数据中提取价值。大数据技术不断涌现和发展，让我们处理海量数据更加容易、更加便宜和迅速，成为利用数据的好助手，甚至可以改变许多行业的商业模式。

大数据(big data)是这样的数据集合：数据量增长速度极快，用常规的数据工具无法在一定的时间内进行采集、处理、存储和计算的数据集合。云计算是一种基于因特网的超级计算模式，在远程的数据中心里，成千上万台电脑和服务器连接成一片电脑云。因此，云计算甚至可以让你体验每秒10万亿次的运算能力，拥有这么强大的计算能力可以模拟核爆炸、预测气候变化和市场发展趋势。用户通过电脑、笔记本、手机等方式接入数据中心，按自己的需求进行运算。

云计算的就业前途，某种意义上也可以理解为云计算为我们提供的服务，存在一定的必然性，也就是说云计算对于社会、云计算使用者有哪些优势，也同时可以理解为，云计算的优势就是云计算的就业优势。

从技术上看，大数据与云计算的关系就像一枚硬币的正反面一样密不可分。大数据必然无法用单台的计算机进行处理，必须采用分布式架构。它的特色在于对海量数据进行分布式数据挖掘。但它必须依托云计算的分布式处理、分布式数据库和云存储、虚拟化技术。

随着云时代的来临，大数据(Big data)也吸引了越来越多的关注。分析师团队认为，大数据(Big data)通常用来形容一个公司创造的大量非结构化数据和半结构化数据，这些数据在下载到关系型数据库用于分析时会花费过多时间和金钱。大数据分析常和云计算联系到一起，因为实时的大型数据集分析需要像MapReduce一样的框架来向数十、数百或甚至数千的电脑分配工作。

大数据需要特殊的技术，以有效地处理大量的容忍经过时间内的数据。适用于大数据的技术，包括大规模并行处理(MPP)数据库、数据挖掘、分布式文件系统、分布式数据库、云计算平台、互联网和可扩展的存储系统。大数据和云计算是未来发展趋势所需，且功能足够强大，这样的行业你说前景好不好呢当然是好啊，所以抓紧学习才是正确的开始。

云计算(cloud computing)是基于互联网的相关服务的增加、使用和交付模式，通常涉及通过互联网来提供动态易扩展且经常是虚拟化的资源。云是网络、互联网的一种比喻说法。过去在图中往往用云来表示电信网，后来也用来表示互联网和底层基础设施的抽象。狭义云计算指IT基础设施的交付和使用模式，指通过网络以按需、易扩展的方式获得所需资源;广义云计算指服务的交付和使用模式，指通过网络以按需、易扩展的方式获得所需服务。这种服务可以是IT和软件、互联网相关，也可是其他服务。它意味着计算能力也可作为一种商品通过互联网进行流通。

大数据(big data)，或称海量数据，指的是所涉及的资料量规模巨大到无法透过目前主流软件工具，在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯。大数据的4V特点：Volume、Velocity、Variety、Veracity。

从技术上看,大数据与云计算的关系就像一枚硬币的正反面一样密不可分。大数据必然无法用单台的计算机进行处理,必须采用分布式计算架构。它的特色在于对海量数据的挖掘,但它必须依托云计算的分布式处理、分布式数据库、云存储和虚拟化技术。

大数据管理，分布式进行文件系统，如Hadoop、Mapreduce数据分割与访问执行;同时SQL支持，以Hive+HADOOP为代表的SQL界面支持，在大数据技术上用云计算构建下一代数据仓库成为热门话题。从系统需求来看，大数据的架构对系统提出了新的挑战：

1、集成度更高。一个标准机箱最大限度完成特定任务。

2、配置更合理、速度更快。存储、控制器、I/O通道、内存、CPU、网络均衡设计，针对数据仓库访问最优设计，比传统类似平台高出一个数量级以上。

3、整体能耗更低。同等计算任务，能耗最低。

4、系统更加稳定可靠。能够消除各种单点故障环节，统一一个部件、器件的品质和标准。

5、管理维护费用低。数据藏的常规管理全部集成。

6、可规划和预见的系统扩容、升级路线图。

大数据技术及应用

半个世纪以来，随着计算机技术全面融入社会生活，信息爆炸已经积累到了一个开始引发变革的程度。21世纪是数据信息大发展的时代，移动互联、社交网络、电子商务等极大拓展了互联网的边界和应用范围，各种数据正在迅速膨胀并变大。互联网（社交、搜索、电商）、移动互联网（微博）、物联网（传感器，智慧地球）、车联网、GPS、医学影像、安全监控、金融（银行、股市、保险）、电信（通话、短信）都在疯狂产生着数据。2011年5 月，在“云计算相遇大数据” 为主题的EMC World 2011 会议中，EMC 抛出了Big Data概念。正如《纽约时报》2012年2月的一篇专栏中所称，“大数据”时代已经降临，在商业、经济及其他领域中，决策将日益基于数据和分析而作出，而并非基于经验和直觉。哈佛大学社会学教授加里？金说：“这是一场革命，庞大的数据资源使得各个领域开始了量化进程，无论学术界、商界还是政府，所有领域都将开始这种进程。”

二、什么是大数据

大数据（Big Data）是指那些超过传统数据库系统处理能力的数据。它的数据规模和转输速度要求很高，或者其结构不适合原本的数据库系统。为了获取大数据中的价值，我们必须选择另一种方式来处理它。数据中隐藏着有价值的模式和信息，在以往需要相当的时间和成本才能提取这些信息。如沃尔玛或谷歌这类领先企业都要付高昂的代价才能从大数据中挖掘信息。而当今的各种资源，如硬件、云架构和开源软件使得大数据的处理更为方便和廉价。即使是在车库中创业的公司也可以用较低的价格租用云服务时间了。对于企业组织来讲，大数据的价值体现在两个方面：分析使用和二次开发。对大数据进行分析能揭示隐藏其中的信息。例如零售业中对门店销售、地理和社会信息的分析能提升对客户的理解。对大数据的二次开发则是那些成功的网络公司的长项。例如Facebook通过结合大量用户信息，定制出高度个性化的用户体验，并创造出一种新的广告模式。这种通过大数据创造出新产品和服务的商业行为并非巧合，谷歌、雅虎、亚马逊和Facebook它们都是大数据时代的创新者。

（一）大数据的4V特征

大量化（Volume）：企业面临着数据量的大规模增长。例如，IDC最近的报告预测称，到2020年，全球数据量将扩大50倍。目前，大数据的规模尚是一个不断变化的指标，单一数据集的规模范围从几十TB到数PB不等。简而言之，存储1PB数据将需要两万台配备50GB硬盘的个人电脑。此外，各种意想不到的来源都能产生数据。

多样化（Variety）：一个普遍观点认为，人们使用互联网搜索是形成数据多样性的主要原因，这一看法部分正确。然而，数据多样性的增加主要是由于新型多结构数据，以及包括网络日志、社交媒体、互联网搜索、手机通话记录及传感器网络等数据类型造成。其中，部分传感器安装在火车、汽车和飞机上，每个传感器都增加了数据的多样性。

快速化（Velocity）：高速描述的是数据被创建和移动的速度。在高速网络时代，通过基于实现软件性能优化的高速电脑处理器和服务器，创建实时数据流已成为流行趋势。企业不仅需要了解如何快速创建数据，还必须知道如何快速处理、分析并返回给用户，以满足他们的实时需求。根据IMS Research关于数据创建速度的调查，据预测，到2020年全球将拥有220亿部互联网连接设备。

价值（Value）：大量的不相关信息，浪里淘沙却又弥足珍贵。对未来趋势与模式的可预测分析，深度复杂分析（机器学习、人工智能Vs传统商务智能（咨询、报告等）

三、大数据时代对生活、工作的影响

大数据，其影响除了经济方面的，它同时也能在政治、文化等方面产生深远的影响，大数据可以帮助人们开启循“数”管理的模式，也是我们当下“大社会”的集中体现，三分技术，七分数据，得数据者得天下。

“大数据”的影响，增加了对信息管理专家的需求。事实上，大数据的影响并不仅仅限于信息通信产业，而是正在“吞噬”和重构很多传统行业，广泛运用数据分析手段管理和优化运营的公司其实质都是一个数据公司。麦当劳、肯德基以及苹果公司等旗舰专卖店的位置都是建立在数据分析基础之上的精准选址。而在零售业中，数据分析的技术与手段更是得到广泛的应用，传统企业如沃尔玛通过数据挖掘重塑并优化供应链，新崛起的电商如卓越亚马逊、淘宝等则通过对海量数据的掌握和分析，为用户提供更加专业化和个性化的服务。

大数据在个人隐私的方面，大量数据经常含有一些详细的潜在的能够展示有关我们的信息，逐渐引起了我们对个人隐私的担忧。一些处理大数据公司需要认真的对待这个问题。例如美国天睿资讯给人留下比较深刻印象的是他的一个科学家提出，我们不应该简单地服从法律方面的隐私保护问题，这些远远不够的，公司都应该遵从谷歌不作恶的原则，甚至更应该做出更积极的努力。

四、大数据时代的发展方向、趋势

根据ESM国际电子商情针对2013年大数据应用现状和趋势的调查显示：被调查者最关注的大数据技术中，排在前五位的分别是大数据分析（1291%）、云数据库（1182%）、Hadoop（1173%）、内存数据库（1164%）以及数据安全（921%）。Hadoop已不再是人们心目中仅有的大数据技术，而大数据分析成为最被关注的技术。从中可以看出，人们对大数据的了解已经逐渐深入，关注的技术点也越来越多。既然大数据分析是最被关注的技术趋势，那么大数据分析中的哪项功能是最重要的呢？从下图可以看出，排在前三位的功能分别是实时分析（2132%）、丰富的挖掘模型（1797%）和可视化界面（1591%）。2012年也曾做过类似的调查，当时选择丰富的挖掘模型（2722%）比实时分析（1988%）多734%。短短一年时间内，企业对实时分析的需求激增，成就了很多以实时分析为创新技术的大数据厂商。从调查结果可以看出：企业在未来一两年中有迫切部署大数据的需求，并且已经从一开始的基础设施建设，逐渐发展为对大数据分析和整体大数据解决方案的需求。与此同时，大数据还面临人才的缺乏的挑战，需要企业和高校联合起来，培养数据领域的复合型人才，帮助企业打赢这场“数据战”。

五、大数据的应用

（一）行业拓展者，打造大数据行业基石

IBM：IBM大数据提供的服务包括数据分析，文本分析，蓝色云杉（混搭供电合作的网络平台）；业务事件处理；IBM Mashup Center的计量，监测，和商业化服务（MMMS）。 IBM的大数据产品组合中的最新系列产品的InfoSphere bigInsights，基于Apache Hadoop。

该产品组合包括：打包的Apache Hadoop的软件和服务，代号是bigInsights核心，用于开始大数据分析。软件被称为bigsheet，软件目的是帮助从大量数据中轻松、简单、直观的提取、批注相关信息为金融，风险管理，媒体和娱乐等行业量身定做的行业解决方案。

微软：2011年1月与惠普（具体而言是HP数据库综合应用部门）合作目标是开发了一系列能够提升生产力和提高决策速度的设备。

EMC：EMC 斩获了纽交所和Nasdaq；大数据解决方案已包括40多个产品。

Oracle：Oracle大数据机与Oracle Exalogic中间件云服务器、Oracle Exadata数据库云服务器以及Oracle Exalytics商务智能云服务器一起组成了甲骨文最广泛、高度集成化系统产品组合。

（二）大数据促进了政府职能变革

重视应用大数据技术，盘活各地云计算中心资产：把原来大规模投资产业园、物联网产业园从政绩工程，改造成智慧工程；在安防领域，应用大数据技术，提高应急处置能力和安全防范能力；在民生领域，应用大数据技术，提升服务能力和运作效率，以及个性化的服务，比如医疗、卫生、教育等部门；解决在金融，电信领域等中数据分析的问题：一直得到得极大的重视，但受困于存储能力和计算能力的限制，只局限在交易数型数据的统计分析。一方面大数据的应用促进了政府职能变革，另一方面政府投入将形成示范效应，大大推动大数据的发展。

（三）打造“智慧城市”

美国奥巴马政府在白宫网站发布《大数据研究和发展倡议》，提出“通过收集、处理庞大而复杂的数据信息，从中获得知识和洞见，提升能力，加快科学、工程领域的创新步伐，强化美国国土安全，转变教育和学习模式” ；中国工程院院士邬贺铨说道，“智慧城市是使用智能计算技术使得城市的关键基础设施的组成和服务更智能、互联和有效，随着智慧城市的建设，社会将步入“大数据”时代。”

（四）未来，改变一切

未来，企业会依靠洞悉数据中的信息更加了解自己，也更加了解客户。

数据的再利用：由于在信息价值链中的特殊位置，有些公司可能会收集到大量的数据，但他们并不急需使用也不擅长再次利用这些数据。例如，移动电话运营商手机用户的位置信息来传输电话信号，这对以他们来说，数据只有狭窄的技术用途。但当它被一些发布个性化位置广告服务和促销活动的公司再次利用时，则变得更有价值。

六、机遇和挑战

大数据赋予了我们洞察未来的能力，但同时诸多领域的问题亟待解决，最重要的是每个人的信息都被互联网所记录和保留了下来，并且进行加工和利用，为人所用，而这正是我们所担忧的信息安全隐患！更多的隐私、安全性问题：我们的隐私被二次利用了。多少密码和账号是因为“社交网络”流出去的？

眼下中国互联网热门的话题之一就是互联网实名制问题，我愿意相信这是个好事。毕竟我们如果明着亮出自己的身份，互联网才能对我们的隐私给予更好保护

大数据的由来

对于“大数据”（Big data）研究机构Gartner给出了这样的定义。“大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力来适应海量、高增长率和多样化的信息资产。

麦肯锡全球研究所给出的定义是：一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合，具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低四大特征。

大数据技术的战略意义不在于掌握庞大的数据信息，而在于对这些含有意义的数据进行专业化处理。换而言之，如果把大数据比作一种产业，那么这种产业实现盈利的关键，在于提高对数据的“加工能力”，通过“加工”实现数据的“增值”。

从技术上看，大数据与云计算的关系就像一枚硬币的正反面一样密不可分。大数据必然无法用单台的计算机进行处理，必须采用分布式架构。它的特色在于对海量数据进行分布式数据挖掘。但它必须依托云计算的分布式处理、分布式数据库和云存储、虚拟化技术。

大数据需要特殊的技术，以有效地处理大量的容忍经过时间内的数据。适用于大数据的技术，包括大规模并行处理（MPP）数据库、数据挖掘、分布式文件系统、分布式数据库、云计算平台、互联网和可扩展的存储系统。

最小的基本单位是bit，按顺序给出所有单位：bit、Byte、KB、MB、GB、TB、PB、EB、ZB、YB、BB、NB、DB。

大数据的应用领域

大数据无处不在，大数据应用于各个行业，包括金融、汽车、餐饮、电信、能源、体能和娱乐等在内的社会各行各业都已经融入了大数据的印迹。

制造业，利用工业大数据提升制造业水平，包括产品故障诊断与预测、分析工艺流程、改进生产工艺，优化生产过程能耗、工业供应链分析与优化、生产计划与排程。

金融行业，大数据在高频交易、社交情绪分析和信贷风险分析三大金融创新领域发挥重大作用。

汽车行业，利用大数据和物联网技术的无人驾驶汽车，在不远的未来将走入我们的日常生活。

互联网行业，借助于大数据技术，可以分析客户行为，进行商品推荐和针对性广告投放。

电信行业，利用大数据技术实现客户离网分析，及时掌握客户离网倾向，出台客户挽留措施。

能源行业，随着智能电网的发展，电力公司可以掌握海量的用户用电信息，利用大数据技术分析用户用电模式，可以改进电网运行，合理设计电力需求响应系统，确保电网运行安全。

物流行业，利用大数据优化物流网络，提高物流效率，降低物流成本。

城市管理，可以利用大数据实现智能交通、环保监测、城市规划和智能安防。

体育娱乐，大数据可以帮助我们训练球队，决定投拍哪种题财的影视作品，以及预测比赛结果。

安全领域，政府可以利用大数据技术构建起强大的国家安全保障体系，企业可以利用大数据抵御网络攻击，警察可以借助大数据来预防犯罪。

个人生活，大数据还可以应用于个人生活，利用与每个人相关联的“个人大数据”，分析个人生活行为习惯，为其提供更加周到的个性化服务。

大数据的价值，远远不止于此，大数据对各行各业的渗透，大大推动了社会生产和生活，未来必将产生重大而深远的影响。

大数据方面核心技术有哪些？

大数据技术的体系庞大且复杂，基础的技术包含数据的采集、数据预处理、分布式存储、NoSQL数据库、数据仓库、机器学习、并行计算、可视化等各种技术范畴和不同的技术层面。首先给出一个通用化的大数据处理框架，主要分为下面几个方面：数据采集与预处理、数据存储、数据清洗、数据查询分析和数据可视化。

数据采集与预处理

对于各种来源的数据，包括移动互联网数据、社交网络的数据等，这些结构化和非结构化的海量数据是零散的，也就是所谓的数据孤岛，此时的这些数据并没有什么意义，数据采集就是将这些数据写入数据仓库中，把零散的数据整合在一起，对这些数据综合起来进行分析。数据采集包括文件日志的采集、数据库日志的采集、关系型数据库的接入和应用程序的接入等。在数据量比较小的时候，可以写个定时的脚本将日志写入存储系统，但随着数据量的增长，这些方法无法提供数据安全保障，并且运维困难，需要更强壮的解决方案。

Flume NG

Flume NG作为实时日志收集系统，支持在日志系统中定制各类数据发送方，用于收集数据，同时，对数据进行简单处理，并写到各种数据接收方(比如文本，HDFS，Hbase等)。Flume NG采用的是三层架构：Agent层，Collector层和Store层，每一层均可水平拓展。其中Agent包含Source，Channel和 Sink，source用来消费(收集)数据源到channel组件中，channel作为中间临时存储，保存所有source的组件信息，sink从channel中读取数据，读取成功之后会删除channel中的信息。

NDC

Logstash

Logstash是开源的服务器端数据处理管道，能够同时从多个来源采集数据、转换数据，然后将数据发送到您最喜欢的 “存储库” 中。一般常用的存储库是Elasticsearch。Logstash 支持各种输入选择，可以在同一时间从众多常用的数据来源捕捉事件，能够以连续的流式传输方式，轻松地从您的日志、指标、Web 应用、数据存储以及各种 AWS 服务采集数据。

Sqoop

Sqoop，用来将关系型数据库和Hadoop中的数据进行相互转移的工具，可以将一个关系型数据库(例如Mysql、Oracle)中的数据导入到Hadoop(例如HDFS、Hive、Hbase)中，也可以将Hadoop(例如HDFS、Hive、Hbase)中的数据导入到关系型数据库(例如Mysql、Oracle)中。Sqoop 启用了一个 MapReduce 作业(极其容错的分布式并行计算)来执行任务。Sqoop 的另一大优势是其传输大量结构化或半结构化数据的过程是完全自动化的。

流式计算

流式计算是行业研究的一个热点，流式计算对多个高吞吐量的数据源进行实时的清洗、聚合和分析，可以对存在于社交网站、新闻等的数据信息流进行快速的处理并反馈，目前大数据流分析工具有很多，比如开源的strom，spark streaming等。

Strom集群结构是有一个主节点(nimbus)和多个工作节点(supervisor)组成的主从结构，主节点通过配置静态指定或者在运行时动态选举，nimbus与supervisor都是Storm提供的后台守护进程，之间的通信是结合Zookeeper的状态变更通知和监控通知来处理。nimbus进程的主要职责是管理、协调和监控集群上运行的topology(包括topology的发布、任务指派、事件处理时重新指派任务等)。supervisor进程等待nimbus分配任务后生成并监控worker(jvm进程)执行任务。supervisor与worker运行在不同的jvm上，如果由supervisor启动的某个worker因为错误异常退出(或被kill掉)，supervisor会尝试重新生成新的worker进程。

Zookeeper

Zookeeper是一个分布式的，开放源码的分布式应用程序协调服务，提供数据同步服务。它的作用主要有配置管理、名字服务、分布式锁和集群管理。配置管理指的是在一个地方修改了配置，那么对这个地方的配置感兴趣的所有的都可以获得变更，省去了手动拷贝配置的繁琐，还很好的保证了数据的可靠和一致性，同时它可以通过名字来获取资源或者服务的地址等信息，可以监控集群中机器的变化，实现了类似于心跳机制的功能。

数据存储

Hadoop作为一个开源的框架，专为离线和大规模数据分析而设计，HDFS作为其核心的存储引擎，已被广泛用于数据存储。

HBase

HBase，是一个分布式的、面向列的开源数据库，可以认为是hdfs的封装，本质是数据存储、NoSQL数据库。HBase是一种Key/Value系统，部署在hdfs上，克服了hdfs在随机读写这个方面的缺点，与hadoop一样，Hbase目标主要依靠横向扩展，通过不断增加廉价的商用服务器，来增加计算和存储能力。

Phoenix

Phoenix，相当于一个Java中间件，帮助开发工程师能够像使用JDBC访问关系型数据库一样访问NoSQL数据库HBase。

Yarn

Yarn是一种Hadoop资源管理器，可为上层应用提供统一的资源管理和调度，它的引入为集群在利用率、资源统一管理和数据共享等方面带来了巨大好处。Yarn由下面的几大组件构成：一个全局的资源管理器ResourceManager、ResourceManager的每个节点代理NodeManager、表示每个应用的Application以及每一个ApplicationMaster拥有多个Container在NodeManager上运行。

Mesos

Mesos是一款开源的集群管理软件，支持Hadoop、ElasticSearch、Spark、Storm 和Kafka等应用架构。

Redis

Redis是一种速度非常快的非关系数据库，可以存储键与5种不同类型的值之间的映射，可以将存储在内存的键值对数据持久化到硬盘中，使用复制特性来扩展性能，还可以使用客户端分片来扩展写性能。

Atlas

Atlas是一个位于应用程序与MySQL之间的中间件。在后端DB看来，Atlas相当于连接它的客户端，在前端应用看来，Atlas相当于一个DB。Atlas作为服务端与应用程序通讯，它实现了MySQL的客户端和服务端协议，同时作为客户端与MySQL通讯。它对应用程序屏蔽了DB的细节，同时为了降低MySQL负担，它还维护了连接池。Atlas启动后会创建多个线程，其中一个为主线程，其余为工作线程。主线程负责监听所有的客户端连接请求，工作线程只监听主线程的命令请求。

Kudu

Kudu是围绕Hadoop生态圈建立的存储引擎，Kudu拥有和Hadoop生态圈共同的设计理念，它运行在普通的服务器上、可分布式规模化部署、并且满足工业界的高可用要求。其设计理念为fast analytics on fast data。作为一个开源的存储引擎，可以同时提供低延迟的随机读写和高效的数据分析能力。Kudu不但提供了行级的插入、更新、删除API，同时也提供了接近Parquet性能的批量扫描 *** 作。使用同一份存储，既可以进行随机读写，也可以满足数据分析的要求。Kudu的应用场景很广泛，比如可以进行实时的数据分析，用于数据可能会存在变化的时序数据应用等。

在数据存储过程中，涉及到的数据表都是成千上百列，包含各种复杂的Query，推荐使用列式存储方法，比如parquent,ORC等对数据进行压缩。Parquet 可以支持灵活的压缩选项，显著减少磁盘上的存储。

数据清洗

MapReduce作为Hadoop的查询引擎，用于大规模数据集的并行计算，”Map(映射)”和”Reduce(归约)”，是它的主要思想。它极大的方便了编程人员在不会分布式并行编程的情况下，将自己的程序运行在分布式系统中。

随着业务数据量的增多，需要进行训练和清洗的数据会变得越来越复杂，这个时候就需要任务调度系统，比如oozie或者azkaban，对关键任务进行调度和监控。

Oozie

Oozie是用于Hadoop平台的一种工作流调度引擎，提供了RESTful API接口来接受用户的提交请求(提交工作流作业)，当提交了workflow后，由工作流引擎负责workflow的执行以及状态的转换。用户在HDFS上部署好作业(MR作业)，然后向Oozie提交Workflow，Oozie以异步方式将作业(MR作业)提交给Hadoop。这也是为什么当调用Oozie 的RESTful接口提交作业之后能立即返回一个JobId的原因，用户程序不必等待作业执行完成(因为有些大作业可能会执行很久(几个小时甚至几天))。Oozie在后台以异步方式，再将workflow对应的Action提交给hadoop执行。

Azkaban

Azkaban也是一种工作流的控制引擎，可以用来解决有多个hadoop或者spark等离线计算任务之间的依赖关系问题。azkaban主要是由三部分构成：Relational Database，Azkaban Web Server和Azkaban Executor Server。azkaban将大多数的状态信息都保存在MySQL中，Azkaban Web Server提供了Web UI，是azkaban主要的管理者，包括project的管理、认证、调度以及对工作流执行过程中的监控等;Azkaban Executor Server用来调度工作流和任务，记录工作流或者任务的日志。

流计算任务的处理平台Sloth，是网易首个自研流计算平台，旨在解决公司内各产品日益增长的流计算需求。作为一个计算服务平台，其特点是易用、实时、可靠，为用户节省技术方面(开发、运维)的投入，帮助用户专注于解决产品本身的流计算需求

数据查询分析

Hive

Hive的核心工作就是把SQL语句翻译成MR程序，可以将结构化的数据映射为一张数据库表，并提供 HQL(Hive SQL)查询功能。Hive本身不存储和计算数据，它完全依赖于HDFS和MapReduce。可以将Hive理解为一个客户端工具，将SQL *** 作转换为相应的MapReduce jobs，然后在hadoop上面运行。Hive支持标准的SQL语法，免去了用户编写MapReduce程序的过程，它的出现可以让那些精通SQL技能、但是不熟悉MapReduce 、编程能力较弱与不擅长Java语言的用户能够在HDFS大规模数据集上很方便地利用SQL 语言查询、汇总、分析数据。

Hive是为大数据批量处理而生的，Hive的出现解决了传统的关系型数据库(MySql、Oracle)在大数据处理上的瓶颈。Hive 将执行计划分成map->shuffle->reduce->map->shuffle->reduce…的模型。如果一个Query会被编译成多轮MapReduce，则会有更多的写中间结果。由于MapReduce执行框架本身的特点，过多的中间过程会增加整个Query的执行时间。在Hive的运行过程中，用户只需要创建表，导入数据，编写SQL分析语句即可。剩下的过程由Hive框架自动的完成。

Impala

Impala是对Hive的一个补充，可以实现高效的SQL查询。使用Impala来实现SQL on Hadoop，用来进行大数据实时查询分析。通过熟悉的传统关系型数据库的SQL风格来 *** 作大数据，同时数据也是可以存储到HDFS和HBase中的。Impala没有再使用缓慢的Hive+MapReduce批处理，而是通过使用与商用并行关系数据库中类似的分布式查询引擎(由Query Planner、Query Coordinator和Query Exec Engine三部分组成)，可以直接从HDFS或HBase中用SELECT、JOIN和统计函数查询数据，从而大大降低了延迟。Impala将整个查询分成一执行计划树，而不是一连串的MapReduce任务，相比Hive没了MapReduce启动时间。

Hive 适合于长时间的批处理查询分析，而Impala适合于实时交互式SQL查询，Impala给数据人员提供了快速实验，验证想法的大数据分析工具，可以先使用Hive进行数据转换处理，之后使用Impala在Hive处理好后的数据集上进行快速的数据分析。总的来说：Impala把执行计划表现为一棵完整的执行计划树，可以更自然地分发执行计划到各个Impalad执行查询，而不用像Hive那样把它组合成管道型的map->reduce模式，以此保证Impala有更好的并发性和避免不必要的中间sort与shuffle。但是Impala不支持UDF，能处理的问题有一定的限制。

Spark

Spark拥有Hadoop MapReduce所具有的特点，它将Job中间输出结果保存在内存中，从而不需要读取HDFS。Spark 启用了内存分布数据集，除了能够提供交互式查询外，它还可以优化迭代工作负载。Spark 是在 Scala 语言中实现的，它将 Scala 用作其应用程序框架。与 Hadoop 不同，Spark 和 Scala 能够紧密集成，其中的 Scala 可以像 *** 作本地集合对象一样轻松地 *** 作分布式数据集。

Nutch

Nutch 是一个开源Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具，包括全文搜索和Web爬虫。

Solr

Solr用Java编写、运行在Servlet容器(如Apache Tomcat或Jetty)的一个独立的企业级搜索应用的全文搜索服务器。它对外提供类似于Web-service的API接口，用户可以通过>

Redshift跨一个主节点和多个工作节点实施分布式数据库。通过使用AW管理控制台，管理员能够在集群内增加或删除节点，以及按实际需要调整数据库规模。所有的数据都存储在集群节点或机器实例中。

Redshift集群的实施可通过两种类型的虚拟机：密集存储型和密集计算型。密集存储型虚拟机是专为大数据仓库应用而进行优化的，而密集计算型为计算密集型分析应用提供了更多的CPU。DynamoDB是亚马逊公司的NoSQL数据库产品。其数据库还可与亚马逊Lambda集成以帮助管理人员对数据和应用的触发器进行设置。

DynamoDB特别适用于具有大容量读写 *** 作的移动应用。用户可创建存储JavaScript对象符号（JSON）文档的表格，而用户可指定键值对其进行分区。与定义如何分割数据不同，这里无需定义一个正式的架构。

我们平时所说的大数据，云计算简单地说，就是把自己电脑里或者公司服务器上的硬盘CPU都放到网上统一动态调用，这就是比较简单的大数据，云计算的说法，这其中还包括把所有的数据放到一起分析并关联实现预测。

大数据，云计算需要学习的知识，最起码要包括

网络通信知识，这包括互联网基础建设相关的所有知识

虚拟化知识，这包括了解硬件运行的原理，以及虚拟化实现技术

数据库技术

网络存储技术，还有网络信息安全技术，电子商务容灾及备份技术分布式软件系统架构等等

还有数据采集，数据存储，基础架构，数据处理，统计分析，数据挖掘模型，预测结果呈现，大学里面需要学习的计算机类专业。

以上就是关于大数据用什么数据库全部的内容，包括:大数据用什么数据库、大数据云计算好不好学习、大数据与云计算,信息网络安全等相关内容解答，如果想了解更多相关内容，可以关注我们，你们的支持是我们更新的动力！

欢迎分享，转载请注明来源：内存溢出

原文地址:https://54852.com/sjk/9737768.html

大数据用什么数据库

发表评论

评论列表（0条）