
最近我和我的团队一直在做一些大数据相关的工作,我来回答一下这个问题。
首先是第一个问题,大数据平台是什么?
当我们说到一个平台的时候,我们的意识里面往往就知道,这里面肯定不止一样东西,它是很多东西的一个集合,大数据平台也是一样,首先如果用几个字来描述它的话就是“它是一个数据解决方案”,进一步解析就是:大数据平台它是一个以分布式存储为基础,集成了数据获取,数据清洗,数据流转,数据分析,数据输出等工具集的一个数据解决方案。它的核心使命是提供数据存储和数据分析服务给目标客户。
那么它的核心组成部分是什么呢?实现的方法有多种,我就举一个最典型的大数据平台结构作为说明。
目前无论是国内或者国外,应用最广泛也是最典型的大数据平台是以Hadoop为核心进行功能延伸的生态系统,业内把它叫做Hadoop生态,它开源并且免费使用,它长什么样子?它的面目基本上是这样:
从上图我们得知,它就是一套以Hadoop分布式文件系统为核心的数据处理工具集,目的是为了向用户提供数据分析服务的一个集成解决方案。
什么时候需要大数据平台?
简单的说就是当数据总量大到传统单机数据解决方面没办法存储,分析,计算时就要用到大数据平台。
举例说,家用电脑目前一般是配置2TB大小的硬盘(存储容量约等于于18个128G的iPhone),一般几万块钱的商用服务器容量大约在32TB容量,高端的单机存储器可以达到100TB以上,但是数据量如果再大比如上跳一个数量级1000TB,也就是1PB左右,单机系统就无能为力了,不单是存储容量无能为力,计算能力也无法应对了,因为我们知道,单台计算机的性能是有极限的,数据太多磁盘检索读取的速度就会变慢,CPU和内存压力也会变大,这个时候需要完成一个数据分析任务就要耗时很长,那么这个时候大数据平台就派上用场了,大数据平台的一个特性就是多台计算机组成一个集群集体并行作战,并且理论上可以无限拓展。
希望我的回答能够帮助到您,有任何问题请在留言区留言,也欢迎在线咨询
问题一:选购IA服务器时应考察的主要配置参数有哪些CPU和内存:CPU的类型、主频和数量在相当程度上决定着服务器的性能;服务器应采用专用的ECC校验内存,并且应当与不同的CPU搭配使用。
芯片组与主板:即使采用相同的芯片组,不同的主板设计也会对服务器性能产生重要影响。
网卡:服务器应当连接在传输速率最快的端口上,并最少配置一块千兆网卡。对于某些有特殊应用的服务器(如FTP、文件服务器或视频点播服务器),还应当配置两块千兆网卡。
硬盘和RAID卡:硬盘的读取/写入速率决定着服务器的处理速度和响应速率。除了在入门级服务器上可采用IDE硬盘外,通常都应采用传输速率更高、扩展性更好的SCSI硬盘。对于一些不能轻易中止运行的服务器而言,还应当采用热插拔硬盘,以保证服务器的不停机维护和扩容。
冗余:磁盘冗余采用两块或多块硬盘来实现磁盘阵列;网卡、电源、风扇等部件冗余可以保证部分硬件损坏之后,服务器仍然能够正常运行。
热插拔:是指带电进行硬盘或板卡的插拔 *** 作,实现故障恢复和系统扩容。 同时,在选择IA服务器时通常需要考虑可管理性、可用性、可扩展性、安全性以及可靠性等几方面的性能指标。
问题二:64位服务器覆盖的应用范围
从应用类型来看,大致可分为主域服务器、数据库服务器、Web服务器、FTP服务器和邮件服务器、高性能计算集群系统几类。 而目前,主流的服务器处理器有:英特尔安腾处理器、英特尔至强处理器和AMD公司的Opteron处理器,这些处理器是近几年推出的新型64位服务器。笔者就以上的几种应用,讨论一下服务器在不同的应用当中,对服务器子系统的不同要求进行简单概述:
主域控制器 网络、用户、计算机的管理中心,提供安全的网络工作环境。主域控制器的系统瓶颈是内存、网络、CPU、内存配置。
文件服务器 文件服务器作为网络的数据存储仓库,其性能要求是在网络上的用户和服务器磁盘子系统之间快速传递数据。
数据库服务器 数据库引擎包括DB2、SQL Server、Oracle、Sybase等。数据库服务器一般需要使用多处理器的系统,以SQL Server为例,SQL Server能够充分利用SMP技术来执行多线程任务,通过使用多个CPU,对数据库进行并行 *** 作来提高吞吐量。另外,SQL Server对L2缓存的点击率达到90%,所以L2缓存越大越好。内存和磁盘子系统对于数据库服务器来说也是至关重要的部分。
Web服务器 Web服务器用来响应Web请求,其性能是由网站内容来决定的。如果Web站点是静态的,系统瓶颈依次是:网络、内存、CPU;如果Web服务器主要进行密集计算(例如动态产生Web页),系统瓶颈依次是:内存、CPU、磁盘、网络,因为这些网站使用连接数据库的动态内容产生交易和查询,这都需要额外的CPU资源,更要有足够的内存来缓存和处理动态页面。
高性能计算用的集群系统 一般在4节点以上,节点机使用基于安腾、AMD 64技术的Opteron系统,这种集群系统的性能主要取决于厂商的技术实力、集群系统的设计、针对应用的调优等方面。
问题三:多核时代,处理器内核越多越好吗?
二大芯片巨头英特尔、AMD公司于2005年底推出多核处理器,目前,不管是双核、还是即将成为2007年主流四核处理器或是将来的八核、十六核处理器,英特尔、AMD之间激烈的竞争,促使处理器市场新品越来越多。在性能上、在功耗节能方面还是其它服务器配件方面,都极大地促进了产业的发展。
而对于大部分用户来讲,服务器在应用层次方面,仍旧是不变的。唯一需要考虑的就是用户自身的发展对于服务器的性能是否能够满足。现今,对于一款四核高性能服务器,其采购成本远远高于现今主流的双核服务器,如果双核服务器就能够满足您的需求,同时也能够为将来的3~5年发展预留足够的空间,那么就没必要选择价格昂贵的四核服务器。
综合以上:对于单核/双核/多核综合交叉时代,选购服务器应该把目光放在自身需求上面,以本身应用需求、资金投入为因素,选购最合适的服务器产品。
欢迎分享,转载请注明来源:内存溢出
微信扫一扫
支付宝扫一扫
评论列表(0条)