
pd.read_csv(
filepath_or_buffer: Union[str, pathlib.Path, IO[~AnyStr]],#文件路径或网址连接
sep=',', #分隔符
header='infer', #是否包含列头,指定第几行位表头
names=None, #设置列名称
columns=None, #获取想要的列数据
skiprows=None, #跳过前几行数据【重点】,跳过不需要的行索引
nrows=None, #只取前几行数据【重点】
na_values=None, #将值填充为NAN
keep_default_na=True, #True将空值填充为NaN,False不填充空值,为空字符串
na_filter=True, #True将空值填充为NaN,False不填充空值【可以提高读取速率】
dtype=None, #修改数据类型,dtype={'positionId': str,'companyId':str}
usecols=None, #根据指定列号读取,读第 1、3、5 列,第一列索引为0,usecols=[0,2,4]
index_col=None,
#指定索引列,默认为None的时候,pandas会自动将第一列作为索引,并额外添加一列.大多数使用index_col=0,直接将第一列作为索引,不额外添加列【重点】
na_values=None, #将NULL识别为空值,将值识别为空值
parse_dates=False, #指定某列读取为日期格式
chunksize=None,
#文件块的大小,每一次读几行,返回一个迭代对象,文件大时使用,读取的每一块用for循环获得【重点】
error_bad_lines=True, #当某行数据有问题,不报错,直接跳过,处理脏数据时使用
)
set_option:修改显示设置
pd.set_option()#参数
#pd.set_option是pandas中的参数
pd.set_option('display.max_columns', None) # 显示所有列
pd.set_option('display.max_columns', 5) #最多显示5列
pd.set_option('display.max_rows', None)# 显示所有行
pd.set_option('display.max_rows', 10)#最多显示10行
#显示小数位数
pd.set_option('display.float_format',lambda x: '%.2f'%x) #两位
#显示宽度
pd.set_option('display.width', 100)
pd.set_option('precision', 1) # 设置显示数值的精度
pd.set_option('display.max_colwidth',10)# 设置每列的最大宽度
pd.set_option('mode.chained_assignment',None) #忽略警告
pd.set_option('chop_threshold',20) #设置数值显示条件,小于20,显示0
pd.set_option('display.html.use_mathjax',True) #让dataframe中内容支持Latex显示(需要使用$$包住)
pd.set_option('plotting.backend','plotly') #修改pandas默认绘图引擎为plotly(需要提前安装好plotly)
pd.reset_option('all') #还原所有option设置
pd.reset_option('max_rows') #还原默认显示的行
pd.reset_option('max_columns')#还原默认显示的列
pd.reset_option('display') #还原全部显示设置
style:基于style个性化设置
data.style.hide_index() #隐藏索引列
data.style.set_precision(2) #将带有小数点的列精度调整为小数点后2位
data.style.set_na_rep('数据缺失') #标记缺失值,将缺失值标记为‘数据缺失’
data.style.highlight_null(null_color='skyblue') #将缺失值背景颜色高亮
data.style.highlight_max() #将 数值格式列的最大值进行高亮
data.style.highlight_min() #将 数值格式列的最小值进行高亮
data.style.highlight_max(color='#F77802').highlight_min(color='#26BE49') #同时高量最大值最小值
import seaborn as sns
cm=sns.light_palette('green',as_cmap=True)
data.style.background_gradient(cmap=cm) #渐变显示数值列,将数值格式的列使用渐变色(绿色)进行显示,以突出趋势
data.style.set_properties(subset=['salary'],**{'color':'red'})#修改字体颜色
data.style.set_properties(**{'fontsize':'13px','background-color':'#F8F8FF','text-align':'center'}) #修改背景颜色、对齐方式、字体大小
data.style.bar(subset=['salary'],color='skyblue') #指定列条形图
data.style.format({'createTime':lambda t:t.strftime('%Y年%m月%d日')})#日期格式化
pd.tO_csv(
na_rep, #填充缺失值
index=False, #取消索引
)
欢迎分享,转载请注明来源:内存溢出
微信扫一扫
支付宝扫一扫
评论列表(0条)