做大数据分析一般用什么工具呢？_服务器

一、Hadoop

Hadoop是一个能够对大量数据进行分布式处理的软件框架。但是 Hadoop 是以一种可靠、高效、可伸缩的方式进行处理的。Hadoop 是可靠的，因为它假设计算元素和存储会失败，因此它维护多个工作数据副本，确保能够针对失败的节点重新分布处理。Hadoop 是高效的，因为它以并行的方式工作，通过并行处理加快处理速度。Hadoop 还是可伸缩的，能够处理 PB 级数据。此外，Hadoop 依赖于社区服务器，因此它的成本比较低，任何人都可以使用。

Hadoop是一个能够让用户轻松架构和使用的分布式计算平台。用户可以轻松地在Hadoop上开发和运行处理海量数据的应用程序。它主要有以下几个优点：

⒈高可靠性。Hadoop按位存储和处理数据的能力值得人们信赖。

⒉高扩展性。Hadoop是在可用的计算机集簇间分配数据并完成计算任务的，这些集簇可以方便地扩展到数以千计的节点中。

⒊高效性。Hadoop能够在节点之间动态地移动数据，并保证各个节点的动态平衡，因此处理速度非常快。

⒋高容错性。Hadoop能够自动保存数据的多个副本，并且能够自动将失败的任务重新分配。

Hadoop带有用 Java 语言编写的框架，因此运行在 Linux 生产平台上是非常理想的。

Hadoop 上的应用程序也可以使用其他语言编写，比如 C++。

二、HPCC

HPCC，High Performance Computing and Communications（高性能计算与通信）的缩写。

1993年，由美国科学、工程、技术联邦协调理事会向国会提交了“重大挑战项目：高性能计算与通信”的报告，也就是被称为HPCC计划的报告，即美国总统科学战略项目，其目的是通过加强研究与开发解决一批重要的科学与技术挑战问题。HPCC是美国实施信息高速公路而上实施的计划，该计划的实施将耗资百亿美元，其主要目标要达到：开发可扩展的计算系统及相关软件，以支持太位级网络传输性能，开发千兆比特网络技术，扩展研究和教育机构及网络连接能力。

该项目主要由五部分组成：

1、高性能计算机系统（HPCS），内容包括今后几代计算机系统的研究、系统设计工具、先进的典型系统及原有系统的评价等；

2、先进软件技术与算法（ASTA），内容有巨大挑战问题的软件支撑、新算法设计、软件分支与工具、计算计算及高性能计算研究中心等；

3、国家科研与教育网格（NREN），内容有中接站及10亿位级传输的研究与开发；

4、基本研究与人类资源（BRHR），内容有基础研究、培训、教育及课程教材，被设计通过奖励调查者-开始的，长期的调查在可升级的高性能计算中来增加创新意识流，通过提高教育和高性能的计算训练和通信来加大熟练的和训练有素的人员的联营，和来提供必需的基础架构来支持这些调查和研究活动；

5、信息基础结构技术和应用（IITA ），目的在于保证美国在先进信息技术开发方面的领先地位。

三、Storm

Storm是自由的开源软件，一个分布式的、容错的实时计算系统。Storm可以非常可靠的处理庞大的数据流，用于处理Hadoop的批量数据。Storm很简单，支持许多种编程语言，使用起来非常有趣。Storm由Twitter开源而来，其它知名的应用企业包括Groupon、淘宝、支付宝、阿里巴巴、乐元素、Admaster等等。

Storm有许多应用领域：实时分析、在线机器学习、不停顿的计算、分布式RPC（远过程调用协议，一种通过网络从远程计算机程序上请求服务）、 ETL（Extraction-Transformation-Loading的缩写，即数据抽取、转换和加载）等等。Storm的处理速度惊人：经测试，每个节点每秒钟可以处理100万个数据元组。Storm是可扩展、容错，很容易设置和 *** 作。

四、Apache Drill

为了帮助企业用户寻找更为有效、加快Hadoop数据查询的方法，Apache软件基金会近日发起了一项名为“Drill”的开源项目。Apache Drill实现了 Google‘s Dremel

据Hadoop厂商MapR Technologies公司产品经理Tomer Shiran介绍，“Drill”已经作为Apache孵化器项目来运作，将面向全球软件工程师持续推广。

该项目将会创建出开源版本的谷歌Dremel Hadoop工具（谷歌使用该工具来为Hadoop数据分析工具的互联网应用提速）。而“Drill”将有助于Hadoop用户实现更快查询海量数据集的目的。

“Drill”项目其实也是从谷歌的Dremel项目中获得灵感：该项目帮助谷歌实现海量数据集的分析处理，包括分析抓取Web文档、跟踪安装在Android Market上的应用程序数据、分析垃圾邮件、分析谷歌分布式构建系统上的测试结果等等。

通过开发“Drill”Apache开源项目，组织机构将有望建立Drill所属的API接口和灵活强大的体系架构，从而帮助支持广泛的数据源、数据格式和查询语言。

五、RapidMiner

RapidMiner是世界领先的数据挖掘解决方案，在一个非常大的程度上有着先进技术。它数据挖掘任务涉及范围广泛，包括各种数据艺术，能简化数据挖掘过程的设计和评价。

功能和特点：

免费提供数据挖掘技术和库

100%用Java代码（可运行在 *** 作系统）

数据挖掘过程简单，强大和直观

内部XML保证了标准化的格式来表示交换数据挖掘过程

可以用简单脚本语言自动进行大规模进程

多层次的数据视图，确保有效和透明的数据

图形用户界面的互动原型

命令行（批处理模式）自动大规模应用

Java API（应用编程接口）

简单的插件和推广机制

强大的可视化引擎，许多尖端的高维数据的可视化建模

400多个数据挖掘运营商支持

耶鲁大学已成功地应用在许多不同的应用领域，包括文本挖掘，多媒体挖掘，功能设计，数据流挖掘，集成开发的方法和分布式数据挖掘。

六、 Pentaho BI

Pentaho BI平台不同于传统的BI 产品，它是一个以流程为中心的，面向解决方案（Solution）的框架。其目的在于将一系列企业级BI产品、开源软件、API等等组件集成起来，方便商务智能应用的开发。它的出现，使得一系列的面向商务智能的独立产品如Jfree、Quartz等等，能够集成在一起，构成一项项复杂的、完整的商务智能解决方案。

Pentaho BI 平台，Pentaho Open BI 套件的核心架构和基础，是以流程为中心的，因为其中枢控制器是一个工作流引擎。工作流引擎使用流程定义来定义在BI 平台上执行的商业智能流程。流程可以很容易的被定制，也可以添加新的流程。BI 平台包含组件和报表，用以分析这些流程的性能。目前，Pentaho的主要组成元素包括报表生成、分析、数据挖掘和工作流管理等等。这些组件通过 J2EE、WebService、SOAP、>

Pentaho SDK共包含五个部分：Pentaho平台、Pentaho示例数据库、可独立运行的Pentaho平台、Pentaho解决方案示例和一个预先配制好的 Pentaho网络服务器。其中Pentaho平台是Pentaho平台最主要的部分，囊括了Pentaho平台源代码的主体；Pentaho数据库为 Pentaho平台的正常运行提供的数据服务，包括配置信息、Solution相关的信息等等，对于Pentaho平台来说它不是必须的，通过配置是可以用其它数据库服务取代的；可独立运行的Pentaho平台是Pentaho平台的独立运行模式的示例，它演示了如何使Pentaho平台在没有应用服务器支持的情况下独立运行；Pentaho解决方案示例是一个Eclipse工程，用来演示如何为Pentaho平台开发相关的商业智能解决方案。

Pentaho BI 平台构建于服务器，引擎和组件的基础之上。这些提供了系统的J2EE 服务器，安全，portal，工作流，规则引擎，图表，协作，内容管理，数据集成，分析和建模功能。这些组件的大部分是基于标准的，可使用其他产品替换之。

七、Splunk

Splunk的功能组件主要有Forwarder、Serch Head、Indexer三种，然后支持了查询搜索、仪表盘和报表（效果真不是吹的，很精致呀），另外还支持SaaS服务模式。其中，Splunk支持的数据源也是多种类型的，基本上还是可以满足客户的需求。

目前支持hadoop1x（MRv1）、Hadoop2x（MRv2）、Hadoop2x（Yarn）三个版本的Hadoop集群的日志数据源收集，在日志管理运维方面还是处于一个国际领先的地位，目前国内有部分的数据驱动型公司也正在采用Splunk的日志管理运维服务。

八、EverString

everstring主要是通过大数据的预测分析建模为企业提供业务和客户推荐的SaaS服务，获取和积累了两个数据信息资源库，一个行业外部的资源库（公有SaaS收费形式），一个行业自己内部的资源库（私有），然后再通过机器学习和人工智能的方法对数据进行相应行业或是领域的建模，最后得到一个比较不错的结果，优化于人工可以得到的结果，而且Everstring也成为了初创大数据公司里面估值很高的公司。

它是一个可以在所有主流 *** 作系统上运行的独立软件包 - 只需选择您的平台，然后下载并安装即可。您需要处理和运行的是用户使用的 Web 界面，以及用于索引计算机数据的引擎。2从任意源索引任意数据Splunk 可以从任何源实时索引任何类型的计算机数据。可以在 Splunk 中指向您的服务器或网络设备的系统日志、设置 WMI 轮询、监视实时日志文件，并能够监视您的文件系统或 Windows 注册表中的更改，或安排脚本获取系统指标。Splunk 可以索引您的所有机器数据，而无需购买、编写或维护任何特定的分析器或适配器。原始数据和丰富索引均存储在高效、已压缩的、基于文件系统的数据存储中，并提供可选数据签名和数据的完整性审核。3从远程系统转发数据在无法通过网络提供所需数据，或安装了Splunk的服务器上看不见所需数据的情况下，可以部署 Splunk Forwarder。Splunk forwarder 为成千上万的端点提供安全、分布式实时全局数据收集。它们可以监视本地应用程序日志文件、捕获有关时间表的状态命令输出、获取来自虚拟或非虚拟来源的性能指标，或监控配置、权限和属性变化的文件系统。它们都是属于可以快速部署的轻量级服务器，而且不会产生任何额外费用。4专为大型数据构建使用Splunk ，每天可收集和索引成千上万太字节的数据。其可扩展性体系结构基于 MapReduce，因此，随着日常数据量和数据来源不断增长，您只需添加更多商品服务器即可扩展效能。自动负载平衡可以优化工作负载和响应时间，并提供内置故障转移机制。开箱即用的报告和分析功能可避免部署第三方报告工具的需要。还可以配置 Splunk 使用 SAN 或其它存储设备，以满足长期存储需求。5在整个数据中心扩展Splunk 分布式体系结构可让您在一个数据中心跨多个部署进行搜索，或在您的所有数据中心进行全局搜索。借助基于角色的访问，您可以控制指定用户的搜索将要跨越的范围。区域用户可以查看区域系统的数据，而企业范围内用户则可以查看所有数据中心的数据。Splunk 愿景是让每一位已授权员工都能够看到他们需要的计算机数据；并将数据用于调查、报告和仪表板或分析，以便不断提高 IT 运营并获得有价值的业务洞察力。花几分钟时间安全连接您的 Splunk 安装，能让您设计一个可管理的企业数据结构。6提供角色型的安全性从各个方面来说，Splunk 均可谓是一种强大的安全模型。各项 Splunk 交易均会得到验证，其中包括通过 Web 用户界面和命令行接口执行的用户活动，以及通过 Splunk API 执行的系统活动。使用一整套按用户类型来限制功能的记录控制点，您可以自己为 Splunk 用户定义角色。这些精细的访问控制可以限制搜索、警报、报告、仪表板以及不同 Splunk 角色可以查看的视图。Splunk 还可以集成兼容 LDAP 的外部目录服务器和 Active Directory 服务器，以执行企业范围内的安全策略。此外，还提供单一登录集成，以启动对用户凭据的传递身份验证。

它是一个可以在所有主流 *** 作系统上运行的独立软件包 - 只需选择您的平台，然后下载并安装即可。您需要处理和运行的是用户使用的 Web 界面，以及用于索引计算机数据的引擎。2从任意源索引任意数据Splunk 可以从任何源实时索引任何类型的计算机数据。可以在 Splunk 中指向您的服务器或网络设备的系统日志、设置 WMI 轮询、监视实时日志文件，并能够监视您的文件系统或 Windows 注册表中的更改，或安排脚本获取系统指标。Splunk 可以索引您的所有机器数据，而无需购买、编写或维护任何特定的分析器或适配器。原始数据和丰富索引均存储在高效、已压缩的、基于文件系统的数据存储中，并提供可选数据签名和数据的完整性审核。3从远程系统转发数据在无法通过网络提供所需数据，或安装了Splunk的服务器上看不见所需数据的情况下，可以部署 Splunk Forwarder。Splunk forwarder 为成千上万的端点提供安全、分布式实时全局数据收集。它们可以监视本地应用程序日志文件、捕获有关时间表的状态命令输出、获取来自虚拟或非虚拟来源的性能指标，或监控配置、权限和属性变化的文件系统。它们都是属于可以快速部署的轻量级服务器，而且不会产生任何额外费用。4专为大型数据构建使用Splunk ，每天可收集和索引成千上万太字节的数据。其可扩展性体系结构基于 MapReduce，因此，随着日常数据量和数据来源不断增长，您只需添加更多商品服务器即可扩展效能。自动负载平衡可以优化工作负载和响应时间，并提供内置故障转移机制。开箱即用的报告和分析功能可避免部署第三方报告工具的需要。还可以配置 Splunk 使用 SAN 或其它存储设备，以满足长期存储需求。5在整个数据中心扩展Splunk 分布式体系结构可让您在一个数据中心跨多个部署进行搜索，或在您的所有数据中心进行全局搜索。借助基于角色的访问，您可以控制指定用户的搜索将要跨越的范围。区域用户可以查看区域系统的数据，而企业范围内用户则可以查看所有数据中心的数据。Splunk 愿景是让每一位已授权员工都能够看到他们需要的计算机数据;并将数据用于调查、报告和仪表板或分析，以便不断提高 IT 运营并获得有价值的业务洞察力。花几分钟时间安全连接您的 Splunk 安装，能让您设计一个可管理的企业数据结构。6提供角色型的安全性从各个方面来说，Splunk 均可谓是一种强大的安全模型。各项 Splunk 交易均会得到验证，其中包括通过 Web 用户界面和命令行接口执行的用户活动，以及通过 Splunk API 执行的系统活动。使用一整套按用户类型来限制功能的记录控制点，您可以自己为 Splunk 用户定义角色。这些精细的访问控制可以限制搜索、警报、报告、仪表板以及不同 Splunk 角色可以查看的视图。Splunk 还可以集成兼容 LDAP 的外部目录服务器和 Active Directory 服务器，以执行企业范围内的安全策略。此外，还提供单一登录集成，以启动对用户凭据的传递身份验证。

C++单独作为应用服务的服务器较少，>

欢迎分享，转载请注明来源：内存溢出

原文地址:https://54852.com/zz/10606595.html

做大数据分析一般用什么工具呢？

发表评论

评论列表（0条）