python自动提取文本中的时间(包含中文日期)

下面我会详细讲解如何使用Python自动提取文本中的时间，其中也会包含中文日期的处理办法。

如何自动提取文本中的时间

使用Python自动化提取文本中的时间可以分成以下几个步骤：

将文本中出现的时间字符串通过正则表达式或第三方库进行提取。
将提取出的时间字符串进行解析和格式化，得到标准的时间格式数据。
对于中文日期需要进行额外的处理，例如将“两天前”、“昨天”、“今天”等关键词转化为具体日期。

下面分别对这几个步骤进行详细的讲解。

步骤一：提取时间字符串

在Python中，我们可以使用正则表达式或第三方库进行时间字符串的提取。其中比较常用的有re库和dateutil库。

1. 使用re库提取时间字符串

通过使用re库中的findall方法可以快速提取出文本中所有符合时间格式的字符串。同时，通过引入datetime模块可以提供对于时间格式的基本验证。

以下代码是使用re库提取文本中的时间字符串的示例：

import re
import datetime

text = "2022-01-01 12:00:00, 2022-01-02 12:00:00, 2022-01-03 12:00:00"

date_pattern = "\d{4}-\d{2}-\d{2}\s\d{2}:\d{2}:\d{2}"
date_list = re.findall(date_pattern, text)

for date_str in date_list:
    try:
        date_obj = datetime.datetime.strptime(date_str, '%Y-%m-%d %H:%M:%S')
        print(date_obj)
    except ValueError:
        pass

这段代码中，首先定义了一个包含时间字符串的文本变量text。然后，使用正则表达式提取出所有符合时间格式的字符串，并保存到变量date_list中。最后，遍历date_list中的每个时间字符串，通过datetime.strptime方法将其转换为datatime类型并输出。

2. 使用dateutil库提取时间字符串

除了使用正则表达式，我们也可以使用dateutil库来提取时间字符串。dateutil库的好处在于它对于时间的识别更为准确。简单来说，dateutil库可以根据上下文自动识别不同的时间格式，从形式上更加优雅。

以下代码是使用dateutil库提取文本中的时间字符串的示例：

from dateutil import parser

text = "2022-01-01 12:00:00, 2022-01-02 12:00:00, 2022-01-03 12:00:00"

date_list = parser.parse(text, fuzzy=True)

for date_obj in date_list:
    print(date_obj)

这段代码中，我们导入了dateutil库中的parser模块。然后，使用parser.parse方法将文本中的所有时间字符串解析为datetime对象。

步骤二：解析时间字符串

在解析时间字符串时，我们需要注意文本中出现的不同时间格式。对于常见的时间格式，我们可以使用datetime库中的一些内置方法来解析和格式化。同时，在解析时间字符串时，我们也需要注意到字符串中的时区信息，以避免时区问题导致时间的错位。

以下是解析时间字符串的示例代码：

from dateutil import parser
import pytz

time_data = "2022-01-01 12:00:00"

# 解析时间字符串，生成datetime对象
date_obj = parser.parse(time_data)

# 将时间转化为指定时区
tz = pytz.timezone('Asia/Shanghai')
dt_with_tz = tz.localize(date_obj)

# 将时间格式化为指定字符串
fmt = '%Y-%m-%d %H:%M:%S %Z%z'
time_str = dt_with_tz.strftime(fmt)

print(time_str)

这段代码中，我们首先使用了dateutil库的parser模块将时间字符串解析为datetime对象。然后，使用pytz库将datetime对象转化为指定时区的datetime对象。最后，使用datetime对象的strftime方法将时间对象转化为指定格式的字符串。

步骤三：处理中文日期

对于中文日期，我们可以使用第三方库如chinese-calendar和lunarcalendar，或者自定义关键词映射表的方式来实现。

1. 使用chinese-calendar库

chinese-calendar库是一个针对中国农历和公历处理的库。我们可以使用这个库来自动将中文日期转化为标准日期。

以下是处理中文日期的示例代码：

from chinese_calendar import is_workday, is_holiday
from datetime import datetime
import jieba

text = "2022年3月4日下午7点"

# 将文本中的中文日期转化为datetime对象
date_str = ''.join(jieba.lcut(text, cut_all=True, HMM=False))
date_str = date_str.replace('年', '-').replace('月', '-').replace('日', '')
date_obj = datetime.strptime(date_str, '%Y-%m-%d %H:%M')

# 判断日期是否为工作日或者节假日
if is_workday(date_obj):
    print("是工作日")
elif is_holiday(date_obj):
    print("是节假日")
else:
    print("日期无法识别")

这段代码中，我们导入了chinese_calendar库中的is_workday和is_holiday方法。然后，使用jieba库将中文日期中的“年”、“月”、“日”字符进行分割，组成string类型时间变量date_str。最后，使用datetime类的strptime方法将date_str转化为datatime类型对象，并调用is_workday和is_holiday方法进行节假日判断。

2. 自定义关键词映射表

自定义关键词映射表是一种将中文日期转化为标准日期的另一种方式。我们可以手动定义一个关键词映射表，将常见的中文日期关键词对应到具体的日期上。

以下是自定义关键词映射表的示例代码：

import datetime

text = "两天前"

keymap = {
    "今天": 0,
    "昨天": 1,
    "前天": 2,
    "大前天": 3,
    "两天前": 2,
    "三天前": 3,
}

now = datetime.datetime.now()
delta = datetime.timedelta(days=keymap[text])
target_date = now - delta

print(target_date)

这段代码中，我们手动定义了一个关键词映射表keymap，将不同的中文日期关键词对应到具体的日期。然后，我们根据关键词将对应的天数计算出来，通过datetime.timedelta生成一个与当前时间指定天数相差的时间差delta，最后计算目标日期并输出。

总结

以上就是使用Python自动提取文本中的时间的完整攻略。在实际使用中，我们可以根据文本中时间格式的具体情况选择不同的提取方式，并对中文日期进行特殊处理。

另外，还需要注意到时区和节假日等问题，以保证处理后的时间数据的准确性。

本站文章如无特殊说明，均为本站原创，如若转载，请注明出处：python自动提取文本中的时间(包含中文日期) - Python技术站