python数据分析_python

我用的是Visual Studio Code，直接创建了.ipynb后缀的文件，开始使用jupyber

pandas库引用

import pandas as pd

两种基本的数据结构：Series和DataFrame

（一）Series

Series对象效率挺高的，比如能直接将两个列表中的内容相加还是蛮方便的嘛

引用的方法很多，在此只简单列举传入列表、字典、n维数组

（1）传入列表

pd.Series([],index=[])，默认索引从0开始

添加索引

创建字典

传入n维数组

（二）DataFrame

DataFrame表格类型

传入字典pd.DataFrame({},columns=[],index=[])，行索引columns，列索引index

传入n维数组pd.DataFrame(np.array(),columns=[],index=[])

数据收集

读取csv文件

pd.read_csv(path, encoding='utf-8')

数据清洗

1）查看基本情况

df.info（）查看数据基本信息

2）处理缺失值

当各列的非空数据数量与总行数不同时，就可能存在缺失值

df.isna()查看缺失值，True存在，False不存在

df.dropna() 删除包含缺失值的整行数据

df.dropna(subset=[''])删除指定列中含有缺失值的行

3）处理重复值

df.duplicated()查找重复行，可以采用df[df.duplicated()]的方法显示得更加直观

df.drop_duplicates()删除重复出现的整行数据

4）处理异常值

df.describe() 显示数据的统计信息，返回count、mean、std、min、25%、50%、75%、max，分别代表频数统计、平均值、标准差、最小值、第一四分位数、中位数、第三四分位数以及最大值，e+n代表10的n次方

df[]抽取数据，eg.df['人数'<10]表示抽取人数小于10的数据

数据处理

eg.从日期中抽取月份信息

pd.to_datetime(arg,format)函数：将object数据类型转为dataetime数据类型，arg是要转换的数据，format是datetime的日期格式，eg“%Y-%m-%d”

获取这份数据的年、月、日的信息，可以通过 Series.dt.year、Series.dt.month 以及 Series.dt.day

import numpy as np
import pandas as pd
a=pd.Series(np.array([['1月','2022-1-1],['2月','2022-2-1']],index=['月份','日期'])
b=pd.to_datetime(a['日期'],format='%Y-%m-%d')
month=b.dt.month
print(month)

欢迎分享，转载请注明来源：内存溢出

原文地址:https://54852.com/langs/869853.html

python数据分析

发表评论

评论列表（0条）