下面是几款常用的中文分词系统及其使用攻略:
1. jieba分词
安装
在命令行中使用 pip
直接安装:
pip install jieba
使用
import jieba
text = "今天天气不错"
words = jieba.cut(text)
print(list(words))
# 输出 ['今天', '天气', '不错']
以上示例代码中,jieba.cut
函数用于对 text
进行分词,返回一个可迭代的分词器对象。调用 list()
函数可以将其转化为列表并输出分词结果。
2. FudanNLP分词器
安装
使用 pip
安装命令:
pip install fudannlp
使用
from fudannlp import FudanNLP
text = "今天天气不错"
fudannlp = FudanNLP()
result = fudannlp.segment(text)
print(result)
# 输出 [(0, 2, 'nt', '今天'), (2, 4, 'n', '天气'), (4, 6, 'a', '不错')]
以上示例代码中,首先我们使用 FudanNLP
类初始化了一个分词器对象 fudannlp
。然后使用 segment
方法对 text
进行分词,并返回一个列表。列表中包含了一个个元组,每个元组表示一个词,第一个元素为开始位置,第二个元素为结束位置,第三个元素为词性,第四个元素为词本身。
3. THULAC
安装
使用 pip
安装命令:
pip install thulac
使用
import thulac
thu = thulac.thulac()
text = "今天天气不错"
result = thu.cut(text, text=True)
print(result)
# 输出 "今天 天气 不错"
以上示例代码中,我们首先创建了一个 THULAC 对象,然后使用 cut
方法对 text
进行分词,并返回以空格分隔的字符串。
以上是三款中文分词系统的简要介绍与使用攻略,希望对你有所帮助。
本站文章如无特殊说明,均为本站原创,如若转载,请注明出处:几款开源的中文分词系统 - Python技术站