数据挖掘技术与应用:描述统计DataFrame数值型特征数据

数据挖掘技术与应用:描述统计DataFrame数值型特征数据,第1张

描述统计DataFrame数值型特征数据

  1. 准备数据

准备数据meal_order_detail1.csv,并将meal_order_detail1.csv放到Linux本地/course/DataAnalyze/data目录

  1. 数值型特征的描述性统计
  1. pandas库基于NumPy,可以用这些函数对数据框进行描述性统计,例如代码 421。

代码 421 NumPy计算平均价格

In[33]:

import numpy as np

print('订单详情表中amount(价格)的平均值为:', np.mean(detail['amounts']))

Out[33]:

订单详情表中amount(价格)的平均值为: 45.343084145901045

  1. 上述用numpy实现菜品销量价格的均值,也可以通过pandas实现,具体实现详如代码 422所示。

代码 422 pandas实现销量和价格的协方差矩阵计算

In[34]:

print('订单详情表中amount(价格)的平均值为:', detail['amounts'].mean())

Out[34]:

订单详情表中amount(价格)的平均值为: 45.343084145901045

  1. Pandas还提供了一个方法叫作describe,能够一次性得出数据框所有数值型特征的非空值数目、均值、四分位数、标准差。具体实现代码 和结果如代码 423所示。

代码 423 describe方法实现数值型数据描述性统计

In[35]:

print('订单详情表counts和amounts两列的描述性统计为:\n',

      detail[['counts','amounts']].describe())

Out[35]:

订单详情表counts和amounts两列的描述性统计为:

             counts      amounts

count  2769.000000  2769.000000

mean      1.111593    45.343084

std       0.626521    36.841316

min       1.000000     1.000000

25%       1.000000    25.000000

50%       1.000000    35.000000

75%       1.000000    56.000000

max      10.000000   178.000000

欢迎分享,转载请注明来源:内存溢出

原文地址:https://54852.com/langs/942976.html

(0)
打赏 微信扫一扫微信扫一扫 支付宝扫一扫支付宝扫一扫
上一篇 2022-05-18
下一篇2022-05-18

发表评论

登录后才能评论

评论列表(0条)

    保存