
数据分析师数据分析师 是数据师Datician['detɪʃən]的一种,指的是不同行业中,专门从事行业数据搜集、整理、分析,并依据数据做出行业研究、评估和预测的专业人员。
为什么要学习统计学?因为了解各种技术背后的想法是非常重要的,以便知道如何以及何时使用它们。
此外,这是一个非常有前景的研究领域,在科学,工业和金融领域有着重要的应用,而且统计学是培养现代数据科学家的基本要素。
统计学应用的经典例子包括以下这些:确定前列腺癌的危险因素。
根据记录周期图对录制的音素进行分类。
根据人口统计,饮食和临床测量预测是否有人会发生心脏病。
自定义垃圾邮件检测系统。
识别手写邮政编码中的数字。
将组织样本分为几个癌症类别之一。
建立人口调查数据中工资与人口变量之间的关系。
本篇文章分享《统计学入门》一书中的10个统计方法,任何数据科学家都应该学会更有效地处理大数据集。
由于篇幅原因,这次先介绍前5个,下篇文章再介绍剩下的。
在使用这10种方法之前,大家要区分“统计学习”和“机器学习”:机器学习是人工智能的一个子领域。
统计学习是统计学的一个分支。
机器学习更强调大规模应用和预测的准确性。
统计学习强调模型及其可解释性,精确性和不确定性。
但是这种区别变得越来越模糊,并且存在着很多“交叉”。
机器学习在市场营销中占据上风!1、线性回归(Linear Regression)在统计学中,线性回归是一种通过拟合自变量与自变量之间最佳线性关系来预测目标变量的方法。
最好的做法是确保每个点的形状和实际观测之间的所有距离之和尽可能小。
形状的适合性是“最好的”,因为在形状的选择上没有其他位置会产生较少的误差。
线性回归的2种主要类型是简单线性回归和多元线性回归。
简单线性回归使用一个独立变量来通过拟合最佳线性关系来预测因变量。
多重线性回归使用多个独立变量来通过拟合最佳线性关系来预测因变量。
举个例子:选择你在日常生活中使用的任何两件相关的东西,例如每月支出,月收入和过去三年每月的旅行次数的数据。
现在回答以下问题:明年的每月开支是多少?哪个因素(每月收入或每月旅行次数)在决定我的每月支出时更重要?月收入和每月旅行如何与每月支出相关?2、分类(Classification)分类是一种数据挖掘技术,它将类别分配给数据集合,以帮助进行更准确的预测和分析。
也有时称为决策树,分类是用于对非常大的数据集进行分析的几种方法之一。
2大分类技术脱颖而出:Logistic回归和判别分析。
Logistic回归分析是当因变量是二分的(二元)时进行的适当的回归分析。
像所有回归分析一样,逻辑回归是预测分析。
Logistic回归用于描述数据并解释一个相关二元变量与一个或多个名义,序数,区间或比例级别的独立变量之间的关系。
逻辑回归可以检查的问题类型:体重每增加一磅和每天吸一包香烟,肺癌的可能性(是vs否)会发生怎样的变化?体重卡路里摄入量,脂肪摄入量和参与者年龄对心脏病发作有何影响(有vs无)?在判别分析中,先验已知2个或更多个组或群或群,并基于所测量的特征将1个或更多个新观察分类到1个已知群中。
判别分析在每个响应类别中分别对预测变量X的分布进行建模,然后使用贝叶斯定理将它们翻转为给定X的值的响应类别概率的估计。
这样的模型可以是线性的或二次的。
线性判别分析为每个观测值计算“判别分数”,以便对它所处的响应变量类别进行分类。
这些分数是通过寻找自变量的线性组合得到的。
它假设每个类别内的观察值都来自多变量高斯分布,预测变量的协方差在响应变量Y的所有k个水平上是共同的。
二次判别分析提供了一种替代方法。
和LDA一样,QDA假定每个Y类的观测值都是从高斯分布中得到的。
但是,与LDA不同的是,QDA假定每个类都有其自己的协方差矩阵。
换句话说,预测变量不被假定在Y中的每个k个水平上具有共同的方差。
3、重采样方法(ResamplingMethods)重采样是从原始数据样本中绘制重复样本的方法。
这是统计推断的非参数方法。
换句话说,重采样方法不涉及使用通用分布表来计算近似p个概率值。
重采样根据实际数据生成唯一的采样分布。
它使用实验方法而不是分析方法来生成独特的抽样分布。
它产生无偏估计,因为它是基于研究者所研究数据的所有可能结果的无偏样本。
为了理解重采样的概念,您应该理解术语拔靴法(Bootstrapping)和交叉验证(Cross-Validation):拔靴法是一种技术,可以帮助您在很多情况下验证预测模型的性能、集成方法、估计模型的偏差和方差。
它通过对原始数据进行替换进行采样,并将“未选择”的数据点作为测试用例。
我们可以多做几次,并计算平均分作为我们的模型性能的估计。
另一方面,交叉验证是验证模型性能的一种技术,它是通过将训练数据分成k个部分来完成的。
我们以k - 1部分作为训练集,并使用“伸出部分”作为我们的测试集。
我们重复k次不同的方式。
最后,我们将k分数的平均值作为我们的业绩估计。
通常对于线性模型来说,普通最小二乘法是要考虑将其纳入数据的主要标准。
接下来的3种方法是可以为线性模型的拟合提供更好的预测精度和模型可解释性的替代方法。
4、子集选择(Subset Selection)这种方法确定了我们认为与响应相关的p个预测因子的一个子集。
然后,我们使用子集特征的最小二乘拟合模型。
最佳子集选择:这里我们对每个可能的p个预测子组合进行单独的OLS回归拟合,然后查看最终的模型拟合。
该算法分为2个阶段:(1)拟合所有包含k个预测变量的模型,其中k是模型的最大长度;(2)使用交叉验证的预测误差选择单个模型。
使用测试或验证错误非常重要,而不是训练错误来评估模型拟合,因为RSS和R 2单调增加更多的变量。
最好的方法是在测试误差估计值上交叉验证并选择具有最高R 2和最低RSS的模型。
向前逐步选择考虑p个预测因子的更小的子集。
它从不含预测变量的模型开始,然后在模型中添加预测变量,直到所有预测变量都在模型中。
被添加的变量的顺序是变量,其给出对拟合的最大的加法改进,直到没有更多的变量使用交叉验证的预测误差来改进模型拟合。
向后逐步选择开始将模型中的所有预测变量,然后迭代去除最不有用的预测变量。
混合方法遵循前向逐步方法,但是,在添加每个新变量之后,该方法还可以移除对模型拟合没有贡献的变量。
5、特征缩减技术(Shrinkage)这种方法适合一个涉及所有p个预测因子的模型,然而,估计的系数相对于最小二乘估计向零收缩。
这种缩水,又称正规化,具有减少方差的作用。
取决于执行什么类型的收缩,可以估计一些系数恰好为零。
因此这个方法也执行变量选择。
将系数估计收缩为零的两个最着名的技术是岭回归(ridge regression)和lasso回归。
岭回归类似于最小二乘,除了通过最小化一个稍微不同的数量估计系数。
像OLS一样,岭回归寻求减少RSS的系数估计,然而当系数接近于零时,它们也会有收缩惩罚。
这个惩罚的作用是将系数估计收缩到零。
不用进入数学计算,知道岭回归缩小列空间方差最小的特征是有用的。
像在主成分分析中一样,岭回归将数据投影到双向空间,然后比高方差分量收缩低方差分量的系数,这相当于最大和最小主分量。
岭回归至少有一个缺点;它包括最终模型中的所有p个预测值。
罚款期限将使他们中的许多接近于零,但从未完全为零。
这对于预测准确性来说通常不是问题,但它可能使模型更难以解释结果。
Lasso回归克服了这个缺点,并且能够迫使一些系数归零,只要s足够小。
由于s = 1导致有规律的OLS回归,当s接近0时,系数收缩为零。
因此,Lasso回归也执行变量选择。
1.什么是SPSSSPSS是社会统计科学软件包的简称, 其官方全称为IBM SPSS Statistics。
SPSS软件包最初由SPSS Inc.于1968年推出,于2009年被IBM收购,主要运用于各领域数据的管理和统计分析。
作为世界社会科学数据分析的标准,SPSS *** 作 *** 作界面极其友好,结果输出界面也很美观,同时还配备十分详细的用户手册。
1.1 SPSS的核心功能1.2 数据编辑功能可以通过SPSS的数据编辑功能,对数据进行增删改等处理,还可以根据需要对数据进行拆分、加权、排序、聚合等处理。
1.3 可视化功能SPSS有很强大的绘图功能,可以根据模型自动输出描述性分析的统计图,反映不同变量间的内在关系;同时还可以由用户自定义统计图的基本属性,使数据分析报告更加美观。
其中,基本图包括条形图、扇形图、饼图、柱状图、箱线图、直方图、P-P图、Q-Q图等。
而它的交互图更加美观,包括条形交互图、带状交互图、箱形交互图、散点交互图等不同风格的2D及3D图。
1.4 表格编辑功能用户可以使用SPSS绘制不同风格的表格,同时表格可以在查看器中编辑,也可以在专门的编辑窗口编辑。
1.5 联接其他软件SPSS可以打开多种类型的数据文件, 其中包括Excel、Access、Dabase、文本编辑器、Lotus 1-2-3等等,同时用户还可以将图片保存为不同的图片格式。
1.6 统计功能CDA数据分析师认为SPSS统计功能是进行数据分析要重点掌握的模块,通过此功能可以完成绝大部分数理统计模型分析,其中包括:回归分析、列联表分析、聚类分析、因子分析、相关分析、对应分析、时间序列分析、判别分析等。
2.如何用SPSS进行数据分析首先,要了解数据分析的一般流程是什么?CDA数据分析师将一个完整的数据分析项目分为以下五个流程:2.1 数据获取外部数据主要有三种获取方式,一种是获取国内一些网站上公开的数据资料,例如国家统计局;一种是通过爬虫等工具获取网站上的数据。
还有一种是通过企业内部的数据库,SPSS有丰富的数据库接口,可以便捷地从数据库中读取数据。
2.2 数据存储对于数据量不大的项目,可以使用excel来处理数据,但对于数据量过万的项目,使用数据库来存储与管理会更高效便捷。
SPSS也有自己的用作数据储存的数据格式,sav文件。
用户可以将经过SPSS处理的数据保存为sav格式,同时也可以非常方便地将sav文件转换为其他数据格式文件。
2.3 数据预处理数据预处理也称数据清洗。
大多数情况下,我们拿到手的数据是格式不一致,存在异常值、缺失值等问题的,而不同项目数据预处理步骤的方法也不一样。
CDA数据分析师认为数据分析有80%的工作都在处理数据,可见数据预处理在数据分析的重要性。
2.4 建模与分析这一阶段首先要清楚数据的结构,结合项目需求来选取模型。
常见的数据挖掘模型有:2.5 可视化分析数据分析最后一步是撰写数据分析报告,一般包括数据可视化分析。
其次,掌握了数据分析的一般流程后,便要以SPSS为工具,根据以下流程对一个完整项目进行以下细分并掌握:作者最新文章拒绝目光短浅来造业,马斯克认为这些东西比钱更重要!零售中的机器视觉–当前实例和应用Python是啥?竟然彻底改变了老板对我的看法……相关文章用数据瞒天过海!数据分析里那些难以置信的骗人把戏!厉害了!经理完成财务分析仅需1小时!数据分析动态图表全都包含数据分析是什么?一篇文章告诉数据化运营的原理、价值、趋势基础元素数据可视化应用简列
欢迎分享,转载请注明来源:内存溢出
微信扫一扫
支付宝扫一扫
评论列表(0条)