下面是Python利用多种方式来统计词频(单词个数)的完整攻略:
1. 读取文本文件
在进行词频统计之前,首先需要读取文本文件。通过Python内置的open()
函数可以实现。例如读取名为test.txt
的文本文件:
with open('test.txt', 'r', encoding='utf-8') as f:
text = f.read()
上述代码中,with
语句将文件打开并读取全部内容,存储在变量text
中。其中,encoding='utf-8'
选项是为了保证读取的文本为UTF-8编码。如果想忽略文件中的某些字符,可以在该语句中使用errors='ignore'
选项。
2. 利用字符串方法进行统计
Python内置的字符串方法split()
可以将字符串按照空格分割成一个单词列表,然后利用列表的count()
方法进行统计。示例代码如下:
words = text.split()
freq = {}
for word in words:
if word not in freq:
freq[word] = 0
freq[word] += 1
print(freq)
上述代码中,将文本字符串按照空格分割成单词列表,并使用freq
字典统计每个单词出现的个数。
3. 利用正则表达式进行统计
Python内置的re
模块可以方便地使用正则表达式进行字符串匹配。下面是一个示例代码,用于利用正则表达式进行词频统计:
import re
words = re.findall(r'\b\w+\b', text)
freq = {}
for word in words:
if word not in freq:
freq[word] = 0
freq[word] += 1
print(freq)
上述代码中,利用\b
匹配单词边界,\w+
匹配一个或者多个字母或数字组成的单词。然后使用freq
字典统计每个单词出现的个数。
总结
以上就是Python利用多种方式进行词频统计的方法了,通过使用字符串方法或正则表达式,我们可以比较方便地进行词频统计。在具体的应用场景中,我们可以根据实际需要选择最适合自己的方法。
本站文章如无特殊说明,均为本站原创,如若转载,请注明出处:python利用多种方式来统计词频(单词个数) - Python技术站