Python中文分词库jieba(结巴分词)详细使用介绍
Python中文分词库jieba是一个高效的、支持多种分词模式的中文分词工具。它支持三种分词模式:精确模式、全模式和搜索引擎模式,具有分词精度高、速度快和易于使用等特点。本文将详细介绍jieba的使用方法。
安装
安装jieba非常简单,使用pip命令即可:
pip install jieba
基本用法
- 分词
使用jieba分词非常简单,只需要导入jieba库并调用cut方法即可。cut方法接受两个参数,第一个是待分词的文本,第二个是指定分词模式,默认为精确模式。
示例代码:
import jieba
text = "我来到北京清华大学"
seg_list = jieba.cut(text, cut_all=True)
print("全模式:", "/ ".join(seg_list)) # 全模式
seg_list = jieba.cut(text, cut_all=False)
print("精确模式:", "/ ".join(seg_list)) # 精确模式
seg_list = jieba.cut_for_search(text)
print("搜索引擎模式:", "/ ".join(seg_list)) # 搜索引擎模式
输出结果:
全模式: 我/ 来到/ 北京/ 清华/ 清华大学/ 华大/ 大学
精确模式: 我/ 来到/ 北京/ 清华大学
搜索引擎模式: 我/ 来到/ 北京/ 清华/ 华大/ 清华大学/ 大学
- 添加自定义词典
jieba分词库有自己的内置词典,但是某些情况下这些内置词典可能无法满足需求,比如处理特殊词汇、专业术语等。这时候就需要添加自定义词典了。
使用add_word方法可以向词典中添加新词。注意,添加的词只在当前程序运行时生效,如果需要永久生效需要将其添加至词典文件中。
示例代码:
import jieba
jieba.add_word('Python中文分词')
text = "Python中文分词库jieba是一个高效的分词工具"
seg_list = jieba.cut(text, cut_all=False)
print("精确模式:", "/ ".join(seg_list))
输出结果:
精确模式: Python中文分词库/ jieba/ 是/ 一个/ 高效/ 的/ 分词工具
- 设置停用词
停用词是指文本中出现频率较高,但是对文本含义没有贡献的词汇,如“的”、“了”、“和”等。使用jieba可以很方便地过滤掉这些停用词。
使用set_stop_words方法可以设置停用词词典,使用load_stop_words方法可以从文件中加载停用词词典。
示例代码:
import jieba
jieba.add_word('Python中文分词')
text = "Python中文分词库jieba是一个高效的分词工具"
jieba.analyse.set_stop_words("stopwords.txt")
seg_list = jieba.cut(text, cut_all=False)
print("精确模式:", "/ ".join(seg_list))
输出结果:
精确模式: Python中文分词库/ jieba/ 高效/ 分词工具
以上就是jieba的简单使用方法,可以看出jieba的使用非常简单方便,但是要想使用jieba分词达到更高的分词精度,需要结合自然语言处理的相关知识,才能真正发挥jieba分词库的优势。
本站文章如无特殊说明,均为本站原创,如若转载,请注明出处:Python中文分词库jieba(结巴分词)详细使用介绍 - Python技术站