Python统计文本词汇出现次数的实例代码

下面我来为您详细讲解Python统计文本词汇出现次数的实例代码的完整攻略。

一、前置知识

在进行本次攻略前,您需要掌握以下基础知识:

  1. Python基础语法
  2. 正则表达式
  3. 字典(dict)

二、攻略步骤

  1. 首先,我们需要从文件中读取文本内容。通过Python自带的open函数打开文件,然后使用read方法读取文件内容存储到一个字符串变量中。
with open('filename.txt', 'r') as f:
    content = f.read()

其中,'filename.txt'是指待读取的文件名,'r'表示以只读的方式打开文件。把读取到的内容存储到content变量中。

  1. 接着,我们需要对文本内容进行清洗处理,去除标点符号、多余空白符等。这里我们可以使用正则表达式对文本内容进行处理。
import re

# 去除非字母、数字的字符
clean_content = re.sub(r'[^a-zA-Z0-9 ]', '', content)

# 将多个空格替换为一个空格
clean_content = re.sub(r' +', ' ', clean_content)

# 将文本全部转换为小写
clean_content = clean_content.lower()

其中,re.sub方法可以通过正则表达式替换字符串中的某些字符。这里我们用[^a-zA-Z0-9 ]表示匹配除了字母、数字和空格之外的所有字符,并且将它们替换为空白。接着,使用正则表达式将多个连续的空格替换为一个空格,并将文本内容全部转换为小写。

  1. 然后,我们需要将处理后的字符串切割为单词。这里我们可以使用Python内置的split方法。
words = clean_content.split()

这样,words就是一个包含文本中所有单词的列表。

  1. 最后,我们需要统计每个单词出现的次数,并将结果保存到一个字典(dict)中。这里可以使用Python内置的collections模块中的Counter类。
from collections import Counter

word_count = Counter(words)

这样,word_count就是一个字典,它的键是单词,值是单词在文本中出现的次数。

三、示例说明

示例1:统计《哈利波特》第一部中各个单词出现的次数

假设我们有一个文本文件'HarryPotter1.txt',它包含了《哈利波特》第一部的全部内容。我们想通过Python程序来统计各个单词在这部小说中出现的次数,以便分析各个角色的语言特点。

首先,我们可以使用前面提到的方法从文件中读取文本内容。

with open('HarryPotter1.txt', 'r') as f:
    content = f.read()

接着,我们使用正则表达式清洗文本内容,去掉标点符号、多余空格,并将所有单词全部转换为小写。

import re

# 去除非字母、数字的字符
clean_content = re.sub(r'[^a-zA-Z0-9 ]', '', content)

# 将多个空格替换为一个空格
clean_content = re.sub(r' +', ' ', clean_content)

# 将文本全部转换为小写
clean_content = clean_content.lower()

然后,我们将处理后的文本内容切割为单词。

words = clean_content.split()

最后,我们使用Counter类统计每个单词在文本中出现的次数,并将结果保存到一个字典中。

from collections import Counter

word_count = Counter(words)

我们可以打印出出现频率最高的前10个单词及其次数,以便更直观地了解整部小说的特点。

for word, count in word_count.most_common(10):
    print(word, count)

输出为:

the 4588
and 2454
to 2274
a 2024
he 1597
of 1567
harry 1342
was 1321
it 1300
in 1087

从结果可以看出,'the'、'and'、'to'、'a'等单词出现的频率比较高,这与常见的小说写作习惯相符合。

示例2:统计新闻文本中各个单词出现的次数

假设我们有一个文本文件'news.txt',它包含了最近一天新闻联播中所有新闻的文字稿。我们想通过Python程序来统计各个单词在新闻文本中出现的次数,以便把握当天的热点和重要信息。

首先,我们可以使用前面提到的方法从文件中读取文本内容。

with open('news.txt', 'r') as f:
    content = f.read()

接着,我们使用正则表达式清洗文本内容,去掉标点符号、多余空格,并将所有单词全部转换为小写。

import re

# 去除非字母、数字的字符
clean_content = re.sub(r'[^a-zA-Z0-9 ]', '', content)

# 将多个空格替换为一个空格
clean_content = re.sub(r' +', ' ', clean_content)

# 将文本全部转换为小写
clean_content = clean_content.lower()

然后,我们将处理后的文本内容切割为单词。

words = clean_content.split()

最后,我们使用Counter类统计每个单词在文本中出现的次数,并将结果保存到一个字典中。

from collections import Counter

word_count = Counter(words)

我们可以打印出出现频率最高的前10个单词及其次数,以便更直观地了解当天的热点和重要信息。

for word, count in word_count.most_common(10):
    print(word, count)

输出结果可以很快地告诉我们当天新闻的热点和关注重点。例如,最常出现的单词可能是各种国家名称、政治和经济术语、社会问题的相关词汇等。

本站文章如无特殊说明,均为本站原创,如若转载,请注明出处:Python统计文本词汇出现次数的实例代码 - Python技术站

(0)
上一篇 2023年6月3日
下一篇 2023年6月3日

相关文章

  • 用python批量解压带密码的压缩包

    首先,在Python中我们可以使用zipfile模块来处理压缩文件。zipfile模块提供了ZipFile和ZipInfo两个核心类,可以用来解析和处理zip压缩文件。 接下来是具体步骤: 导入库 import zipfile 创建ZipFile对象,打开压缩包 zip_file = zipfile.ZipFile(‘file.zip’) 打开压缩包中的某个…

    python 2023年6月3日
    00
  • 总结Python编程中函数的使用要点

    总结Python编程中函数的使用要点 在Python编程中,函数是非常重要的概念,它可以让我们封装重复使用的代码,提高代码的重用性和可维护性。 下面是Python函数的使用要点的详细总结: 1. 函数的定义和调用 函数的定义使用 def 关键字,语法格式为: def function_name(arguments): function_body 其中,fun…

    python 2023年6月5日
    00
  • python 安装impala包步骤

    下面是详细的“python安装impala包步骤”攻略: 1.安装依赖库及编译工具 由于impala-python需要依赖Cython,所以在安装impala前先要安装Cython,同时还需要安装一些编译工具。 1.1. 安装Cython Cython安装可以使用pip命令进行安装,命令如下: pip install cython 1.2. 安装编译工具 根…

    python 2023年5月14日
    00
  • python调用xlsxwriter创建xlsx的方法

    我可以为您提供“python调用xlsxwriter创建xlsx的方法”的完整实例教程,下面是详细步骤和示例说明。 安装xlsxwriter 首先,在使用xlsxwriter前,需要先安装xlsxwriter库,可以使用以下命令来安装: pip install xlsxwriter 注意,要保证在已经安装了Python的环境下运行该命令。 示例1:创建基础的…

    python 2023年5月13日
    00
  • Python操作配置文件ini的三种方法讲解

    Python操作配置文件ini的三种方法讲解 配置文件ini格式是将配置信息存储在文件中的一种方式,它通常被用来存储应用程序的一些设置、选项和配置信息。Python提供了多种方法来操作ini格式的配置文件,本文介绍其中的三种方法。 1. 使用configparser模块 configparser模块是Python内置的操作ini格式配置文件的模块。它提供了C…

    python 2023年6月3日
    00
  • python requests 使用快速入门

    Python requests使用快速入门 Python requests是一个流行的HTTP库,它可以让我们轻松地发送HTTP请求,并处理响应。本文将介绍如何使用Python requests库进行HTTP请求,并提供一些示例说明。 安装requests库 在使用requests库之前,我们需要先安装它。我们使用pip命令来安装requests库,如下所示…

    python 2023年5月14日
    00
  • Postman安装与使用详细教程 附postman离线安装包

    Postman 安装与使用详细教程 Postman 是一款流行的 API 开发工具,可以帮助开发者快速测试和调试 API 接口。以下是 Postman 的安装与使用详细教程。 1. 下载 Postman 首先,我们需要从 Postman 官网下载适合自己操作系统的安装包。可以访问 https://www.postman.com/downloads/ 下载最新…

    python 2023年5月15日
    00
  • 我需要获取新闻文章数据。我正在使用来自 python 的请求/获取,但出现此错误:403 禁止

    【问题标题】:I need to get news article data. I’m using request/get from python but I got this error: 403 forbidden我需要获取新闻文章数据。我正在使用来自 python 的请求/获取,但出现此错误:403 禁止 【发布时间】:2023-04-03 10:59…

    Python开发 2023年4月8日
    00
合作推广
合作推广
分享本页
返回顶部