【问题标题】:Python how to clean dirty date time stringsPython如何清理脏的日期时间字符串
【发布时间】:2023-04-01 18:43:01
【问题描述】:

我有一个数据框data = pd.DataFrame({'date':['25 ugust 2014','14 Auust 2014','27 ugust 2014','18 Marc 2015','03 Jue 2014']})

它当前是一个对象 dtype。我想将其转换为日期时间格式,但我无法这样做,因为月份中的字符串很脏。

data['date'] = pd.to_datetime(data['date'], format = '%d %B %Y')

清理这些数据以便我可以将其更改为日期格式的最佳和最快方法是什么? re.sub 合适吗?

【问题讨论】:

  • 您必须清除月份名称,然后使用您的代码
  • 通过正则表达式w+ (?) 提取月份名称,尝试找到与已知月份名称最近的Levenshtein 距离并替换它们...?

标签:
python
python-3.x
date