如何自学成为数据分析师

如何自学成为数据分析师,第1张

数据分析师的基本工作流程:

1定义问题

确定需要的问题,以及想得出的结论。需要考虑的选项有很多,要根据所在业务去判断。常见的有:变化趋势、用户画像、影响因素、历史数据等。

2数据获取

数据获取的方式有很多种:

一是直接从企业数据库调取,需要SQL技能去完成数据提取等的数据库管理工作。

二是获取公开数据,政府、企业、统计局等机构有。

三是通过Python编写网页爬虫。

3数据预处理

对残缺、重复等异常数据进行清洗。

4数据分析与建模

这个部分需要了解基本的统计分析方法、数据挖掘算法,了解不同统计方法适用的场景和适合的问题。

5数据可视化和分析报告撰写

学习一款可视化工具,将数据通过可视化最直观的展现出来。

数据分析入门需要掌握的技能有:

1 SQL(数据库):

怎么从数据库取数据?怎么取到自己想要的特定的数据?等这些问题就是你首要考虑的问题,而这些问题都是通过SQL解决的,所以SQL是数据分析的最基础的技能。

2 excel

分析师更多的时候是在分析数据,分析数据时需要把数据放到一个文件里,就是excel。

熟练excel常用公式,学会做数据透视表,什么数据画什么图等。

3Python或者R的基础:

必备项,也是加分项,在数据挖掘方向是必备项,语言相比较工具更加灵活也更加实用。

4学习一个可视化工具

如果你想往更高层次发展,上面的东西顶多只占20%,剩下的80%则是业务理解能力,目标拆解能力,根据数据需求更多新技能的学习能力。

1、数据的获取

11从excel中读取数据

需要加载包,通常有两种包

library(readxl)

library(readxl) # 读取数据,返回值是dataframe() mydata <- read_xlsx("D:/test/testdataxlsx",sheet = 1) print(mydata$ID) class(mydata)

library(openxlsx)

library(openxlsx) mydata <- readxlsx("D:/test/testdataxlsx",sheet = 1)

12从CSV文件中获取

什么是CSV文件 ?:Comma-Separated Values,中文叫,逗号分隔值或者字符分割值,其文件 以纯文本的形式存储表格数据 。该文件是一个字符序列,可以由任意数目的记录组成,记录间以某种换行符分割。每条记录由字段组成,字段间的分隔符是其他字符或者字符串。所有的记录都有完全相同的字段序列,相当于一个结构化表的纯文本形式。

个人更加偏好csv格式的文件。

用文本文件、excel等软件都可以打开CSV文件。

读取csv中的数据

第一部分:数据信息

生活中,我们面临着各种各样的数据:比如你的成绩单,比如公司的财务报表,比如朋友圈的一些状态,比如微信里的一段语音……我们生活的大数据时代的一个重要特征便是数据的多样化(variety)。

也许你期待的数据是这样的:

## SepalLength SepalWidth PetalLength PetalWidth Species

## 1 51 35 14 02 setosa

## 2 49 30 14 02 setosa

## 3 47 32 13 02 setosa

## 4 46 31 15 02 setosa

你好,关于股票价格有关的开盘价格,当日最高价格,当日最低价格,收盘价格,股票交易量;和调整后的价格;

DIAOpen 当日开盘价格

DIAHigh 当日最高价格

DIALow 当日最低价格

DIAClose 当日收盘价格

DIAVolume 当日股票交易量

DIAAdjusted 当日调整后的价格

最简单的方法,数据框的名称,加上你要提取的列数,示例如下:

需要注意的是,如果只提取单列的话,得到的数据就变成了一个vector,而不再是dataframe的格式了。

首先,导入R语言需要加载xlsx包,没有安装这个包的,请用下面的代码进行在线安装:

installpackages("xlsx")选择China的任意一个镜像站点,它会自动安装其他所需的依赖包。

安装好xlsx包后,接下来导入存放在“C:\Users\HWT\Desktop”路径下的“testxlsx”文件,导入这个文件的代码如下:

library(xlsx)

readxlsx2(file="C:\\Users\\HWT\\Desktop\\testxlsx",sheetIndex=1)

我们上面的代码只是把testxlsx导入了R语言,并没有把它赋给R语言里的某个对象,用下面的代码把数据赋给对象Mydata:

Mydata-readxlsx2(file="C:\\Users\\HWT\\Desktop\\testxlsx",sheetIndex=1)。

最合适的格式是EPS。导出的pdf文件,也可以用AI打开进行类似的编辑,支持带有透明度的。第一步,声明四个向量id、name、age和score,分别利用c()函数给这四个向量赋值;然后使用dataframe()函数生成数据帧,赋值给student并打印结果,第二步,获取第二列到第四列的数据元素,显示结果为name、age和score三列,第三步,获取数据帧的某一行数据,可以使用student,第四步,如果想要获取某一列的数据,可以利用student,第五步,利用向量函数获取数据帧中的某个或几个的属性值,可以使用数据帧[c(属性)]。

以上就是关于如何自学成为数据分析师全部的内容,包括:如何自学成为数据分析师、r语言如何看到values中的数据、如何用R语言从网上读取多样格式数据等相关内容解答,如果想了解更多相关内容,可以关注我们,你们的支持是我们更新的动力!

欢迎分享,转载请注明来源:内存溢出

原文地址:https://54852.com/web/9698250.html

(0)
打赏 微信扫一扫微信扫一扫 支付宝扫一扫支付宝扫一扫
上一篇 2023-05-01
下一篇2023-05-01

发表评论

登录后才能评论

评论列表(0条)

    保存