![python– 当设置parse_date = [‘column name’]时,pd.read_csv无法正确解析日期月份字段,第1张 python– 当设置parse_date = [‘column name’]时,pd.read_csv无法正确解析日期月份字段,第1张](/aiimages/python%E2%80%93+%E5%BD%93%E8%AE%BE%E7%BD%AEparse_date+%3D+%5B%E2%80%98column+name%E2%80%99%5D%E6%97%B6%2Cpd.read_csv%E6%97%A0%E6%B3%95%E6%AD%A3%E7%A1%AE%E8%A7%A3%E6%9E%90%E6%97%A5%E6%9C%9F%E6%9C%88%E4%BB%BD%E5%AD%97%E6%AE%B5.png)
我试图通过pandas.read_csv()的parse_dates解析几个日期时遇到了这个BUG.在下面的代码片段中,我试图解析格式为dd / mm / yy的日期,这导致我转换不正确.在某些情况下,日期字段被视为月份,反之亦然.
为了简单起见,在某些情况下,dd / mm / yy会转换为YYYY-DD-mm而不是yyyy-mm-dd.
情况1:
04/10/96 is parsed as 1996-04-10,which is wrong.案例2:
15/07/97 is parsed as 1997-07-15,which is correct.案例3:
10/12/97 is parsed as 1997-10-12,which is wrong.代码示例
import pandas as pddf = pd.read_csv('date_time.csv') print 'Data in csv:'print dfprint df['start_date'].dtypesprint '----------------------------------------------'df = pd.read_csv('date_time.csv',parse_dates = ['start_date'])print 'Data after parsing:'print dfprint df['start_date'].dtypes电流输出
----------------------Data in csv:---------------------- start_date0 04/10/961 15/07/972 10/12/973 06/03/994 //19945 /02/1967object----------------------Data after parsing:---------------------- start_date0 1996-04-101 1997-07-152 1997-10-123 1999-06-034 1994-01-015 1967-02-01datetime64[ns]预期产出
----------------------Data in csv:---------------------- start_date0 04/10/961 15/07/972 10/12/973 06/03/994 //19945 /02/1967object----------------------Data after parsing:---------------------- start_date0 1996-10-041 1997-07-152 1997-12-103 1999-03-064 1994-01-015 1967-02-01datetime64[ns]更多评论:
我可以使用date_parser或pandas.to_datetime()来指定日期的正确格式.但在我的情况下,我有几个日期字段,如[‘// 1997′,’/ 02/1967′]我需要转换[’01 / 01/1997′,’01/02/1967’]. parse_dates帮助我将这些类型的日期字段转换为预期的格式,而不会让我编写额外的代码行.
这有什么解决方案吗?
BUG link @GitHub:https://github.com/pydata/pandas/issues/13063最佳答案在版本pandas 0.18.0中,您可以添加参数dayfirst = True然后它可以工作:
import pandas as pdimport iotemp=u"""start_date04/10/9615/07/9710/12/9706/03/99//1994/02/1967"""#after testing replace io.StringIO(temp) to filenamedf = pd.read_csv(io.StringIO(temp),parse_dates = ['start_date'],dayfirst=True) start_date0 1996-10-041 1997-07-152 1997-12-103 1999-03-064 1994-01-015 1967-02-01另一种方案:
你可以用to_datetime解析不同的参数格式和错误=’coerce’然后combine_first:
date1 = pd.to_datetime(df['start_date'],format='%d/%m/%y',errors='coerce')print date10 1996-10-041 1997-07-152 1997-12-103 1999-03-064 NaT5 NaTname: start_date,dtype: datetime64[ns]date2 = pd.to_datetime(df['start_date'],format='/%m/%Y',errors='coerce')print date20 NaT1 NaT2 NaT3 NaT4 NaT5 1967-02-01name: start_date,dtype: datetime64[ns]date3 = pd.to_datetime(df['start_date'],format='//%Y',errors='coerce')print date30 NaT1 NaT2 NaT3 NaT4 1994-01-015 NaTname: start_date,dtype: datetime64[ns]print date1.combine_first(date2).combine_first(date3)0 1996-10-041 1997-07-152 1997-12-103 1999-03-064 1994-01-015 1967-02-01name: start_date,dtype: datetime64[ns] 总结 以上是内存溢出为你收集整理的python – 当设置parse_date = [‘column name’]时,pd.read_csv无法正确解析日期/月份字段全部内容,希望文章能够帮你解决python – 当设置parse_date = [‘column name’]时,pd.read_csv无法正确解析日期/月份字段所遇到的程序开发问题。
如果觉得内存溢出网站内容还不错,欢迎将内存溢出网站推荐给程序员好友。
欢迎分享,转载请注明来源:内存溢出
微信扫一扫
支付宝扫一扫
评论列表(0条)