Python如何提取HTML中文本到TXT
在Python中,我们可以使用BeautifulSoup库提取HTML中的文本,并将其保存到TXT文件中。以下是两种提取HTML中文本到TXT的方法。
方法1:使用BeautifulSoup
使用BeautifulSoup是一种常见的提取HTML中文本到TXT的方法。以下是示例代码:
from bs4 import BeautifulSoup
# 读取HTML文件
with open('example.html', 'r') as f:
html = f.read()
# 解析HTML文件
soup = BeautifulSoup(html, 'html.parser')
# 提取文本
text = soup.get_text()
# 保存文本
with open('example.txt', 'w') as f:
f.write(text)
在上面的示例中,我们使用BeautifulSoup库解析HTML文件,并使用get_text()方法提取文本。我们使用open()函数保存文本到TXT文件中。
方法2:使用正则表达式
使用正则表达式是一种更底层的提取HTML中文本到TXT的方法。以下是示例代码:
import re
# 读取HTML文件
with open('example.html', 'r') as f:
html = f.read()
# 提取文本
text = re.sub('<[^<]+?>', '', html)
# 保存文本
with open('example.txt', 'w') as f:
f.write(text)
在上面的示例中,我们使用正则表达式提取HTML文件中的文本。我们使用open()函数保存文本到TXT文件中。
示例1:使用BeautifulSoup提取HTML中文本到TXT
以下是使用BeautifulSoup提取HTML中文本到TXT的示例代码:
from bs4 import BeautifulSoup
# 读取HTML文件
with open('example.html', 'r') as f:
html = f.read()
# 解析HTML文件
soup = BeautifulSoup(html, 'html.parser')
# 提取文本
text = soup.get_text()
# 保存文本
with open('example.txt', 'w') as f:
f.write(text)
在上面的示例中,我们使用BeautifulSoup库解析HTML文件,并使用get_text()方法提取文本。我们使用open()函数保存文本到TXT文件中。
示例2:使用正则表达式提取HTML中文本到TXT
以下是使用正则表达式提取HTML中文本到TXT的示例代码:
import re
# 读取HTML文件
with open('example.html', 'r') as f:
html = f.read()
# 提取文本
text = re.sub('<[^<]+?>', '', html)
# 保存文本
with open('example.txt', 'w') as f:
f.write(text)
在上面的示例中,我们使用正则表达式提取HTML文件中的文本。我们使用open()函数保存文本到TXT文件中。
本站文章如无特殊说明,均为本站原创,如若转载,请注明出处:Python如何提取html中文本到txt - Python技术站