
大数据开发其实分两种,第一类是编写一些Hadoop、Spark的应用程序,第二类是对大数据处理系统本身进行开发。第一类工作感觉更适用于data analyst这种职位吧,而且现在Hive Spark-SQL这种系统也提供SQL的接口。第二类工作的话通常才大公司里才有,一般他们都会搞自己的系统或者再对开源的做些二次开发。这种工作的话对理论和实践要求的都更深一些,也更有技术含量。
大数据作为时下最火热的IT行业的词汇,随之而来的数据仓库、数据安全、数据分析、数据挖掘等等围绕大数据的商业价值的利用逐渐成为行业人士争相追捧的利润焦点。随着大数据时代的来临,大数据分析也应运而生。
应用案例,与往届世界杯不同的是,数据分析成为巴西世界杯赛事外的精彩看点。伴随赛场上球员的奋力角逐,大数据也在全力演绎世界杯背后的分析故事。一向以严谨著称的德国队引入专门处理大数据的足球解决方案,进行比赛数据分析,优化球队配置,并通过分析对手数据找到比赛的“制敌”方式;谷歌、微软、Opta等通过大数据分析预测赛果...... 大数据,不仅成为赛场上的“第12人”,也在某种程度上充当了世界杯的"预言帝"。
分析开始的时候,数据首先从数据仓储中会被抽出来,被放进RDBMS里以产生需要的报告或者支撑相应的商业智能应用。在大数据分析的环节中,裸数据以及经转换了的数据大都会被保存下来,因为可能在后面还需要再次转换。
第一步,需求分析。需求分析阶段应该对系统的整个应用情况作全面的、详细的调查,确定企业组织的目标,收集支持系统总的设计目标的基础数据和对这些数据的要求,确定用户的需求,并把这些要求写成用户和数据库设计者都能够接受的需求分析报告。这一阶段的工作只要有,分析用户活动,产生业务流程图;确定系统范围,产生体统范围图;分析用户活动涉及的数据,产生数据流程图;分析系统数据,产生数据字典。第二步,概念设计。概念设计的目标是产生反应企业组织信息需求的数据库概念结构,即设计出独立与计算机硬件和DBMS(数据库管理系统)的概念模式。E-R模型是主要设计工具。
第三步,逻辑结构设计。其目的是把概念设计阶段设计好的全局E-R模式转换成与选用的具体机器上的DBMS所支持的数据模型相符合的逻辑结构(包括数据库模式和外模式)。
第四步,数据库的物理设计。对于给定的数据模型选取一个最适合应用应用环境的物理结构的过程。数据库的物理结构主要指数据库的存储记录格式、存储记录安排和存取方法,完全依赖于给定的硬件环境赫尔数据库产品。
第五步,数据库的实现。该阶段主要有3项工作:1建立实际数据库结构 2装入试验数据对应用程序进行调试 3装入实际数据,进入试运行状态。
第六步,数据库的运行与维护。数据库系统的正式运行,标志着数据库设计与应用开发工作的结束和维护阶段的开始,该阶段有4项任务:1维护数据库的安全性与完整性 2监测并改善数据库运行性能 3根据用户要求对数据库现有功能进行扩充 4及时改正运行中发现的系统错误。
欢迎分享,转载请注明来源:内存溢出
微信扫一扫
支付宝扫一扫
评论列表(0条)