
数据分析师的基本工作流程:
1定义问题
确定需要的问题,以及想得出的结论。需要考虑的选项有很多,要根据所在业务去判断。常见的有:变化趋势、用户画像、影响因素、历史数据等。
2数据获取
数据获取的方式有很多种:
一是直接从企业数据库调取,需要SQL技能去完成数据提取等的数据库管理工作。
二是获取公开数据,政府、企业、统计局等机构有。
三是通过Python编写网页爬虫。
3数据预处理
对残缺、重复等异常数据进行清洗。
4数据分析与建模
这个部分需要了解基本的统计分析方法、数据挖掘算法,了解不同统计方法适用的场景和适合的问题。
5数据可视化和分析报告撰写
学习一款可视化工具,将数据通过可视化最直观的展现出来。
数据分析入门需要掌握的技能有:
1 SQL(数据库):
怎么从数据库取数据?怎么取到自己想要的特定的数据?等这些问题就是你首要考虑的问题,而这些问题都是通过SQL解决的,所以SQL是数据分析的最基础的技能。
2 excel
分析师更多的时候是在分析数据,分析数据时需要把数据放到一个文件里,就是excel。
熟练excel常用公式,学会做数据透视表,什么数据画什么图等。
3Python或者R的基础:
必备项,也是加分项,在数据挖掘方向是必备项,语言相比较工具更加灵活也更加实用。
4学习一个可视化工具
如果你想往更高层次发展,上面的东西顶多只占20%,剩下的80%则是业务理解能力,目标拆解能力,根据数据需求更多新技能的学习能力。
1、数据的获取
11从excel中读取数据
需要加载包,通常有两种包
library(readxl)
library(readxl) # 读取数据,返回值是dataframe() mydata <- read_xlsx("D:/test/testdataxlsx",sheet = 1) print(mydata$ID) class(mydata)
library(openxlsx)
library(openxlsx) mydata <- readxlsx("D:/test/testdataxlsx",sheet = 1)
12从CSV文件中获取
什么是CSV文件 ?:Comma-Separated Values,中文叫,逗号分隔值或者字符分割值,其文件 以纯文本的形式存储表格数据 。该文件是一个字符序列,可以由任意数目的记录组成,记录间以某种换行符分割。每条记录由字段组成,字段间的分隔符是其他字符或者字符串。所有的记录都有完全相同的字段序列,相当于一个结构化表的纯文本形式。
个人更加偏好csv格式的文件。
用文本文件、excel等软件都可以打开CSV文件。
读取csv中的数据
第一部分:数据信息
生活中,我们面临着各种各样的数据:比如你的成绩单,比如公司的财务报表,比如朋友圈的一些状态,比如微信里的一段语音……我们生活的大数据时代的一个重要特征便是数据的多样化(variety)。
也许你期待的数据是这样的:
## SepalLength SepalWidth PetalLength PetalWidth Species
## 1 51 35 14 02 setosa
## 2 49 30 14 02 setosa
## 3 47 32 13 02 setosa
## 4 46 31 15 02 setosa
你好,关于股票价格有关的开盘价格,当日最高价格,当日最低价格,收盘价格,股票交易量;和调整后的价格;
DIAOpen 当日开盘价格
DIAHigh 当日最高价格
DIALow 当日最低价格
DIAClose 当日收盘价格
DIAVolume 当日股票交易量
DIAAdjusted 当日调整后的价格
最简单的方法,数据框的名称,加上你要提取的列数,示例如下:
需要注意的是,如果只提取单列的话,得到的数据就变成了一个vector,而不再是dataframe的格式了。
首先,导入R语言需要加载xlsx包,没有安装这个包的,请用下面的代码进行在线安装:
installpackages("xlsx")选择China的任意一个镜像站点,它会自动安装其他所需的依赖包。
安装好xlsx包后,接下来导入存放在“C:\Users\HWT\Desktop”路径下的“testxlsx”文件,导入这个文件的代码如下:
library(xlsx)
readxlsx2(file="C:\\Users\\HWT\\Desktop\\testxlsx",sheetIndex=1)
我们上面的代码只是把testxlsx导入了R语言,并没有把它赋给R语言里的某个对象,用下面的代码把数据赋给对象Mydata:
Mydata-readxlsx2(file="C:\\Users\\HWT\\Desktop\\testxlsx",sheetIndex=1)。
最合适的格式是EPS。导出的pdf文件,也可以用AI打开进行类似的编辑,支持带有透明度的。第一步,声明四个向量id、name、age和score,分别利用c()函数给这四个向量赋值;然后使用dataframe()函数生成数据帧,赋值给student并打印结果,第二步,获取第二列到第四列的数据元素,显示结果为name、age和score三列,第三步,获取数据帧的某一行数据,可以使用student,第四步,如果想要获取某一列的数据,可以利用student,第五步,利用向量函数获取数据帧中的某个或几个的属性值,可以使用数据帧[c(属性)]。
以上就是关于如何自学成为数据分析师全部的内容,包括:如何自学成为数据分析师、r语言如何看到values中的数据、如何用R语言从网上读取多样格式数据等相关内容解答,如果想了解更多相关内容,可以关注我们,你们的支持是我们更新的动力!
欢迎分享,转载请注明来源:内存溢出
微信扫一扫
支付宝扫一扫
评论列表(0条)