
一、 办公软件
1) 熟练使用excel, Access,Visio等MS Office办公软件,可以制作相关的原型; (MS即microsoft微软,MS Office 是微软提供的系列软件,Word, Excel, PowerPoint, Access, OutLook,Publisher,InfoPath这7个办公软件中,常用的是前4个。) 2) 重点掌握EXCEL表,会使用高级功能,能快速制作报表,熟练使用EXCEL VBA;
二、 数据分析软件及方法
1)熟练使用各种数理统计、数据分析、数据挖掘工具软件,熟悉各种网站分析软件的应用,如Google Analytics 、百度统计、Omniture等;
2)具备相关数据分析软件的使用经验SPSS\SAS\EVIEW\STATA\R\Weka……
3)至少精通使用IBM Intelligent Miner、SAS Enterprise Miner、SPSS Clementine、LEVEL5Quest、SGI、WinRosa、ExcelVBA、S-plus、Matlab、SSIS等等常见数据挖掘软件中的一个进行数据挖掘的 开发工作;
4)熟练使用至少一种网站流量分析工具(Google Analytics、Webtrends、百度统计等),并掌握分析工具的部署、配置优化和权限管理;
5)精通一种或多种数据挖掘算法(如聚类、回归、决策树等); 6)熟悉维基编辑者优先; 7)使用软件的要求;
(71)掌握数据分析、挖掘方法,具备使用Excel、SQL、SPSS/SAS、Powerpoint等工具处理和分析较大量级数据的能力;
(72)能够综合使用各种数理统计、数据分析、制表绘图等软件进行图表、图像以及文字处理;
(73)掌握常用的数据统计、分析方法,有敏锐的洞察力和数据感觉,优秀的数据分析能力;
(74)能够综合使用各种数理统计、数据分析、数据挖掘、制表绘图等软件进行具有基本数据美感的图表、图像以及文字处理 。
三、 数据库语言
1)熟悉Linux *** 作系统及至少一种脚本语言(Shell/Perl/Python);
2)熟练掌握C/C++/Java中的一种,有分布式平台(如Hadoop)开发经验者优先; 3)熟悉数据库原理及SQL基本 *** 作;
(31)了解Mysql,postgresql,sql server等数据库原理,熟悉SQL,具备很强的学习能力,写过程序,会perl,python等脚本语言者优先; (32)熟练应用mysql的select,update等sql语句; 4)熟悉sql server或其他主流数据库,熟悉olap原理; 5)熟悉Oracle或其他大型数据库。
四、 思维能力等方面
1)具备良好的行业分析、判断能力、及文字表达能力;
2)沟通、协调能力强,有较高的数据敏感性及分析报告写作能力; 3)理解网站运营的常识,能从问题中引申出解决方案,提供设计改进建议;
4)具有良好经济学、统计学及相关领域的理论基础,熟悉数理统计、数据分析或市场研究的工作方法,具有较强的数据分析能力;
5)熟悉数据分析与数理统计理论,具有相关课程研修经历。
五、 其他要求
1)较强的英文听说读写能力,英语6级以上;
2)文笔良好;
3)了解seo,sem优先;
4)知识要求:同时具备统计学、数据库、经济学三个领域的基础知识;英语四级或以上、熟悉指标英文名称;具备互联网产品设计知识;
5)具有深厚的数据分析、数据挖掘理论知识,深入了解相关技术;能熟练使用至少一种统计分析或数据挖掘工具。
入门推荐你看《机器学习实战》,不需要你跑去学习算法和数据结构,不需要解析几何的知识,但是数理统计的基础你必须要有,期望、方差、常用的几种概率分布,尤其注意一下条件概率,因为朴素贝叶斯模型你一定要懂,线性代数至少你要明白矩阵乘法、行列式计算,再就是微积分知识,不然你看不懂所有基于梯度下降法的文献,行业内用的比较多的是c++,java和python,推荐你用python,很多模型不需要你造轮子,python有相关的第三方模块,很方便。
数据挖掘涉及的内容比较泛,机器学习、数据挖掘、人工智能,但实际上这些知识大多是相通的,机器学习实战这本书是我看的启蒙书里很好的一本了,该有的都有,难度较小,有理论有实践,可以较快的对各种知识有个大概的了解,但是想要长期在这个行业发展,还需要学习更多的知识,比如说提到回归模型,你不仅仅要知道最小二乘法,你还要想到怎么进行数据清洗、哪些数据需要清洗,怎么规范数据,数据是否过多,要不要进行归约和降维,采用哪种回归模型,精确度大致要达到什么水平,要不要考虑过拟合和欠拟合,要不要进行交叉验证,几折交叉验证效果好,如果回归模型不适用,有哪些备选方案。比如说决策树模型,书上简单的讲了个if-then就完了,按照什么规则生成树,怎么分层,要不要剪枝,最终的效果怎么样,造成误差的原因是模型太复杂还是太简单,怎么综合其他模型对决策树进行改进,数据的聚类方法用k均值还是DBSCAN,需要对数据进行分类的时候要考虑数据量大不大,SVM还是神经网络,数据量计算机吃不吃得消,一次吃不消该怎么做,等你对这些有了大致的了解之后,好好看看《统计学习方法》这本书,深入地了解一下理论部分,看一看核心部分的数学模型,看一看如何算法实现,着重理解一下拉格朗日微分法和拉格朗日对偶,解决等式约束和不等式约束很有用,这个也是使用智能算法尝试解决NP完全问题的一个结合点。
除了看书以外,其他时间全部用在学习编程上,python常用的numpy、matplotlib、scipy、sklearn、nltk这些包你都要大致了解怎么用,推荐你看看图灵程序设计丛书里的《python学习手册》《python自然语言处理》《python科学计算》,至少要知道怎么定义类、方法、属性,常用模块里有哪些好用的方法,常见的异常怎么排除,其他的在有时间的时候随用随学,至于算法和数据结构,有时间的话看看《算法导论》,肯定有所收获。
至于说书单就上豆瓣搜一搜,评分高的一般都比较靠谱,英文版的也比较靠谱
数据是平台运营商的重要资产,可能提供API接口允许第三方有限度地使用,但是显然是为了增强自身的业务,与此目的抵触的行为都会受到约束。
收集数据主要是通过计算机和网络。凡是经过计算机处理的数据都很容易收集,比如浏览器里的搜索、点击、网上购物、……其他数据(比如气温、海水盐度、地震波)可以通过传感器转化成数字信号输入计算机。
收集到的数据一般要先经过整理,常用的软件:Tableau和Impure是功能比较全面的,Refine和Wrangler是比较纯粹的数据整理工具,Weka用于数据挖掘。
Hadoop是一个能够对大量数据进行分布式处理的软件框架。用于统计分析的R语言有个扩展R + Hadoop,可以在Hadoop集群上运行R代码。更具体的自己搜索吧。
可视化输出的工具很多。建议参考wikipedia的“数据可视化”条目。
Tableau、Impure都有可视化功能。R语言也可以绘图。
还有很多可以用来在网页上实现可视化输出的框架或者控件。
大致基于四种技术:Flash(Flex)或者JS(HTML5)或者Java或者ASPNET(Silverlight)
Flash的有Degrafa、BirdEye、Axiis、Open Flash Chart
JS的有Ajaxorg、Sencha Ext JS、Filament、jQchart、Flot、Sparklines、gRaphael、TufteGraph、Exhibit、PlotKit、ExplorerCanvas、MilkChart、Google Chart API、Protovis
Java的有Choosel、google-visualization-java、GWT Chronoscope、JFreeChart
ASPNET的有Telerik Charts、Visifire、Dundas Chart
目前我比较喜欢d3(Data-Driven Documents),图形种类丰富,有交互能力,你可以去d3jsorg看看,有很多种图形的demo。
数据仓库还是数据库,数据还是在数据库里放着呢,不过是按照数据仓库的理念去设计架构和开发数据库BI项目主要运用数据仓库,OLAP,和数据挖掘的技术,细分下来又有主流数据库的开发,如oracle,db2,sqlserver, java,cognos,bo,biee,sas,spss,clementine,weka等等
大数据所需技能:
1、linux
大数据集群主要建立在linux *** 作系统上,Linux是一套免费使用和自由传播的类Unix *** 作系统。
2、Hadoop
Hadoop是一个能够对大量数据进行离线分布式处理的软件框架,运算时利用mapreduce对数据进行处理。
3、HDFS
HDFS是建立在多台节点上的分布式文件系统,用户可以通过hdfs命令来 *** 作分布式文件系统。
4、Hive
Hive是使用sql进行计算的hadoop框架,工作中常用到的部分,也是面试的重点,此部分大家将从方方面面来学习Hive的应用,任何细节都将给大家涉及到。
5、Storm实时数据处理
全面掌握Storm内部机制和原理,通过大量项目实战,拥有完整项目开发思路和架构设计,掌握从数据采集到实时计算到数据存储再到前台展示。
6、spark
大数据开发中最重要的部分,涵盖了Spark生态系统的概述及其编程模型,深入内核的研究,Spark on Yarn,Spark Streaming流式计算原理与实践,Spark SQL,Spark的多语言编程以及SparkR的原理和运行
1 工程能力
( 1 )编程基础:需要掌握一大一小两门语言,大的指 C++ 或者 Java ,小的指Python 或者 shell 脚本;需要掌握基本的数据库语言;
建议:MySQL + python + C++ ;语言只是一种工具,看看语法就好;
推荐书籍:《C++ primer plus 》
( 2 )开发平台: Linux ;
建议:掌握常见的命令,掌握 Linux 下的源码编译原理;
推荐书籍:《Linux 私房菜》
( 3 )数据结构与算法分析基础:掌握常见的数据结构以及 *** 作(线性表,队,列,字符串,树,图等),掌握常见的计算机算法(排序算法,查找算法,动态规划,递归等);
建议:多敲代码,多刷题;
推荐书籍:《大话数据结构》《剑指 offer 》
( 4 )海量数据处理平台: Hadoop ( mr 计算模型,java 开发)或者 Spark ( rdd 计算模型, scala开发),重点推荐后者;
建议:主要是会使用,有精力的话可以看看源码了解集群调度机制之类的;
推荐书籍:《大数据 spark 企业级实战》
2 算法能力
( 1 )数学基础:概率论,数理统计,线性代数,随机过程,最优化理论
建议:这些是必须要了解的,即使没法做到基础扎实,起码也要掌握每门学科的理论体系,涉及到相应知识点时通过查阅资料可以做到无障碍理解;
( 2 )机器学习 / 深度学习:掌握 常见的机器学习模型(线性回归,逻辑回归, SVM ,感知机;决策树,随机森林, GBDT , XGBoost ;贝叶斯, KNN , K-means , EM 等);掌握常见的机器学习理论(过拟合问题,交叉验证问题,模型选择问题,模型融合问题等);掌握常见的深度学习模型( CNN ,RNN 等);
建议:这里的掌握指的是能够熟悉推导公式并能知道模型的适用场景;
推荐书籍:《统计学习方法》《机器学习》《机器学习实战》《 UFLDL 》
( 3 )自然语言处理:掌握常见的方法( tf-idf , word2vec ,LDA );
3 业务经验
( 1 )了解推荐以及计算广告相关知识;
推荐书籍:《推荐系统实践》《计算广告》
( 2 )通过参加数据挖掘竞赛熟悉相关业务场景,常见的比赛有 Kaggle ,阿里天池, datacastle 等。
1)新建文件夹lib和文件夹weka,然后将mysql-connector-java-516-binjar复制到lib文件夹中
2)“我的电脑”属性,设置环境变量
新建变量WEKA_HOME=weka的安装目录,如(D:\Prgrams\weka-36)
在CLASSPATH变量中添加“;%WEKA_HOME%\lib\mysql-connector-java-516-binjar”
3)将wekajar解压到weka文件夹(新建)中,然后进入weka\experiment,找到DatabaseUtilsprops(缺省使用)将其重新命名备份;假设我们要连接的mysql数据库,则将DatabaseUtilspropsmysql重新命名为DatabaseUtilsprops,然后做如下修改:
# JDBC driver (comma-separated list)
#jdbcDriver=orggjtmmmysqlDriver
修改为:jdbcDriver=commysqljdbcDriver
# database URL,保持不变
jdbcURL=jdbc:mysql://server_name:3306/database_name ~
用java开发的、较成功的桌面应用软件有很多,具体软件名字建议官网查询。学java开发推荐选择千锋教育,该教育机构采用全程面授高品质、高体验培养模式,非常不错。
java开发需要掌握的内容如下:
1、Java基础
主要涉及:Java基础语法、面向对象、核心类库、集合、异常、IO、线程、JDK新特性等知识点
2、JavaWeb开发
主要涉及:前端技术、数据库、JAVA数据库 *** 作、软件服务器及服务器相关技术、动态网页JSP、AJAX等知识点
3、Java高级框架
主要涉及:SpringMVC、MyBatis、Spring、MySQL高级、Linux&Redis&Nginx、Maven等知识点
4、大型微服务分布式技术
主要涉及:SpringBoot、SpringCloud、Git、Dubbo、Zookeeper、AngularJS、SpringSecurity、BCrypt加密、FastDFS、分布式事务处理、RedisCluster、Solr、SolrCloud、Freemarker、JMS、短信发送平台、SSO解决方案、CORS、Twitter的Snowflake、SpringTask、MavenProfile、MongoDB简介、MyCat、Docker、Jenkins等知识点。
想要了解更多有关java开发的相关信息,推荐咨询千锋教育。千锋教育成立教研学科中心,推出贴近企业需求的线下技能培训课程。课程包含HTML5大前端培训、JavaEE+分布式开发培训、Python人工智能+数据分析培训、全链路UI/UE设计培训、云计算培训、全栈软件测试培训、大数据+人工智能培训、智能物联网+嵌入式培训、Unity游戏开发培训、网络安全培训、区块链培训、影视剪辑包装培训、游戏原画培训、全媒体运营培训。采用全程面授高品质、高体验培养模式,非常值得选择。
以上就是关于学习数据分析要哪些基础全部的内容,包括:学习数据分析要哪些基础、学习数据挖掘需要那些基础知识、大数据时代的数据管理可以使用哪些软件等相关内容解答,如果想了解更多相关内容,可以关注我们,你们的支持是我们更新的动力!
欢迎分享,转载请注明来源:内存溢出
微信扫一扫
支付宝扫一扫
评论列表(0条)