Python如何提取HTML中文本到TXT

在Python中，我们可以使用BeautifulSoup库提取HTML中的文本，并将其保存到TXT文件中。以下是两种提取HTML中文本到TXT的方法。

方法1：使用BeautifulSoup

使用BeautifulSoup是一种常见的提取HTML中文本到TXT的方法。以下是示例代码：

from bs4 import BeautifulSoup

# 读取HTML文件
with open('example.html', 'r') as f:
    html = f.read()

# 解析HTML文件
soup = BeautifulSoup(html, 'html.parser')

# 提取文本
text = soup.get_text()

# 保存文本
with open('example.txt', 'w') as f:
    f.write(text)

在上面的示例中，我们使用BeautifulSoup库解析HTML文件，并使用get_text()方法提取文本。我们使用open()函数保存文本到TXT文件中。

方法2：使用正则表达式

使用正则表达式是一种更底层的提取HTML中文本到TXT的方法。以下是示例代码：

import re

# 读取HTML文件
with open('example.html', 'r') as f:
    html = f.read()

# 提取文本
text = re.sub('<[^<]+?>', '', html)

# 保存文本
with open('example.txt', 'w') as f:
    f.write(text)

在上面的示例中，我们使用正则表达式提取HTML文件中的文本。我们使用open()函数保存文本到TXT文件中。

示例1：使用BeautifulSoup提取HTML中文本到TXT

以下是使用BeautifulSoup提取HTML中文本到TXT的示例代码：

from bs4 import BeautifulSoup

# 读取HTML文件
with open('example.html', 'r') as f:
    html = f.read()

# 解析HTML文件
soup = BeautifulSoup(html, 'html.parser')

# 提取文本
text = soup.get_text()

# 保存文本
with open('example.txt', 'w') as f:
    f.write(text)

在上面的示例中，我们使用BeautifulSoup库解析HTML文件，并使用get_text()方法提取文本。我们使用open()函数保存文本到TXT文件中。

示例2：使用正则表达式提取HTML中文本到TXT

以下是使用正则表达式提取HTML中文本到TXT的示例代码：

import re

# 读取HTML文件
with open('example.html', 'r') as f:
    html = f.read()

# 提取文本
text = re.sub('<[^<]+?>', '', html)

# 保存文本
with open('example.txt', 'w') as f:
    f.write(text)

在上面的示例中，我们使用正则表达式提取HTML文件中的文本。我们使用open()函数保存文本到TXT文件中。

本站文章如无特殊说明，均为本站原创，如若转载，请注明出处：Python如何提取html中文本到txt - Python技术站

Python如何提取html中文本到txt

Python如何提取HTML中文本到TXT

方法1：使用BeautifulSoup

方法2：使用正则表达式

示例1：使用BeautifulSoup提取HTML中文本到TXT

示例2：使用正则表达式提取HTML中文本到TXT

相关文章