
我用的是Visual Studio Code,直接创建了.ipynb后缀的文件,开始使用jupyber
pandas库引用import pandas as pd
两种基本的数据结构:Series和DataFrame
(一)SeriesSeries对象效率挺高的,比如能直接将两个列表中的内容相加还是蛮方便的嘛
引用的方法很多,在此只简单列举传入列表、字典、n维数组
(1)传入列表
pd.Series([],index=[]),默认索引从0开始
添加索引
创建字典
传入n维数组
(二)DataFrameDataFrame表格类型
传入字典pd.DataFrame({},columns=[],index=[]),行索引columns,列索引index
数据收集传入n维数组pd.DataFrame(np.array(),columns=[],index=[])
读取csv文件
pd.read_csv(path, encoding='utf-8')
数据清洗
1)查看基本情况
df.info()查看数据基本信息
2)处理缺失值
当各列的非空数据数量与总行数不同时,就可能存在缺失值
df.isna()查看缺失值,True存在,False不存在
df.dropna() 删除包含缺失值的整行数据
df.dropna(subset=[''])删除指定列中含有缺失值的行
3)处理重复值
df.duplicated()查找重复行,可以采用df[df.duplicated()]的方法显示得更加直观
df.drop_duplicates()删除重复出现的整行数据
4)处理异常值
数据处理df.describe() 显示数据的统计信息,返回count、mean、std、min、25%、50%、75%、max,分别代表频数统计、平均值、标准差、最小值、第一四分位数、中位数、第三四分位数以及最大值,e+n代表10的n次方
df[
]抽取数据,eg.df['人数'<10]表示抽取人数小于10的数据
eg.从日期中抽取月份信息
pd.to_datetime(arg,format)函数:将object数据类型转为dataetime数据类型,arg是要转换的数据,format是datetime的日期格式,eg“%Y-%m-%d”
获取这份数据的年、月、日的信息,可以通过 Series.dt.year、Series.dt.month 以及 Series.dt.day
import numpy as np
import pandas as pd
a=pd.Series(np.array([['1月','2022-1-1],['2月','2022-2-1']],index=['月份','日期'])
b=pd.to_datetime(a['日期'],format='%Y-%m-%d')
month=b.dt.month
print(month)
欢迎分享,转载请注明来源:内存溢出
微信扫一扫
支付宝扫一扫
评论列表(0条)