python数据分析

python数据分析,第1张

我用的是Visual Studio Code,直接创建了.ipynb后缀的文件,开始使用jupyber

pandas库引用
import pandas as pd

两种基本的数据结构:Series和DataFrame

(一)Series

Series对象效率挺高的,比如能直接将两个列表中的内容相加还是蛮方便的嘛

引用的方法很多,在此只简单列举传入列表、字典、n维数组

(1)传入列表

pd.Series([],index=[]),默认索引从0开始

添加索引

创建字典

传入n维数组

(二)DataFrame

DataFrame表格类型

传入字典pd.DataFrame({},columns=[],index=[]),行索引columns,列索引index

传入n维数组pd.DataFrame(np.array(),columns=[],index=[])

数据收集

读取csv文件

pd.read_csv(path, encoding='utf-8') 
数据清洗

1)查看基本情况

df.info()查看数据基本信息

2)处理缺失值

当各列的非空数据数量与总行数不同时,就可能存在缺失值

df.isna()查看缺失值,True存在,False不存在

df.dropna() 删除包含缺失值的整行数据

df.dropna(subset=[''])删除指定列中含有缺失值的行

3)处理重复值

df.duplicated()查找重复行,可以采用df[df.duplicated()]的方法显示得更加直观

df.drop_duplicates()删除重复出现的整行数据

4)处理异常值

df.describe() 显示数据的统计信息,返回count、mean、std、min、25%、50%、75%、max,分别代表频数统计、平均值、标准差、最小值、第一四分位数、中位数、第三四分位数以及最大值,e+n代表10的n次方

df[]抽取数据,eg.df['人数'<10]表示抽取人数小于10的数据

数据处理

eg.从日期中抽取月份信息

pd.to_datetime(arg,format)函数:将object数据类型转为dataetime数据类型,arg是要转换的数据,format是datetime的日期格式,eg“%Y-%m-%d”

获取这份数据的年、月、日的信息,可以通过 Series.dt.year、Series.dt.month 以及 Series.dt.day

import numpy as np
import pandas as pd
a=pd.Series(np.array([['1月','2022-1-1],['2月','2022-2-1']],index=['月份','日期'])
b=pd.to_datetime(a['日期'],format='%Y-%m-%d')
month=b.dt.month
print(month)

欢迎分享,转载请注明来源:内存溢出

原文地址:https://54852.com/langs/869853.html

(0)
打赏 微信扫一扫微信扫一扫 支付宝扫一扫支付宝扫一扫
上一篇 2022-05-13
下一篇2022-05-13

发表评论

登录后才能评论

评论列表(0条)

    保存