Python基础之停用词过滤详解
什么是停用词?
停用词指那些在文档中出现频率非常高,但对于文档的主题并没有贡献的词语,通常是一些虚词、代词、连词、介词等。
常见的停用词如:的、了、在、是、和等。
停用词过滤的作用
停用词在进行文本分析时是非常常见的,因为它们不但没有实际意义,还会占用计算机的大量计算资源。因此,需要进行停用词过滤,将这些无用的词语过滤掉,以提高分析的效率和准确率。
Python中的停用词过滤
1.利用Python中的NLTK库进行停用词过滤
NLTK是Python中自然语言处理的常用库,其中就包含了停用词数据,我们只需要调用它即可进行停用词过滤。
示例代码:
import nltk
from nltk.corpus import stopwords
# 下载停用词
nltk.download('stopwords')
# 加载英文停用词
stop_words = set(stopwords.words('english'))
# 待过滤的句子
text = 'This is an example sentence to demonstrate stop words filtration'
# 进行停用词过滤
filtered_text = ' '.join([word for word in text.split() if word.lower() not in stop_words])
print(filtered_text)
输出结果为:
example sentence demonstrate stop words filtration
2.利用Python中的gensim库进行停用词过滤
gensim是Python中一个用于文本处理的库,其中包含了对停用词的过滤功能。与NLTK库不同的是,gensim中的停用词是使用自定义的停用词进行过滤的。
示例代码:
from gensim.parsing.preprocessing import remove_stopwords
# 待过滤的句子
text = 'This is an example sentence to demonstrate stop words filtration'
# 自定义停用词
custom_stopwords = ['this', 'is', 'an', 'to']
# 进行停用词过滤
filtered_text = remove_stopwords(text, custom_stopwords)
print(filtered_text)
输出结果为:
example sentence demonstrate stop words filtration
结语
Python中的停用词过滤非常简单,只需要调用相关的库即可进行过滤。在实际的文本分析中,停用词过滤通常是预处理的第一步,也非常重要。
本站文章如无特殊说明,均为本站原创,如若转载,请注明出处:python基础之停用词过滤详解 - Python技术站