Python中文分词库——jieba的用法

1.介绍

jieba是优秀的中文分词第三方库。由于中文文本之间每个汉字都是连续书写的,我们需要通过特定的手段来获得其中的每个单词,这种手段就叫分词。而jieba是Python计算生态中非常优秀的中文分词第三方库,需要通过安装来使用它。

jieba库提供了三种分词模式,但实际上要达到分词效果只要掌握一个函数就足够了,非常的简单有效。

安装第三方库需要使用pip工具,在命令行下运行安装命令(不是IDLE)。注意:需要将Python目录和其目录下的Scripts目录加到环境变量中。

使用命令pip install jieba安装第三方库,安装之后会提示successfully installed,告知是否安装成功。

分词原理:
简单来说,jieba库是通过中文词库的方式来识别分词的。它首先利用一个中文词库,通过词库计算汉字之间构成词语的关联概率,所以通过计算汉字之间的概率,就可以形成分词的结果。当然,除了jieba自带的中文词库,用户也可以向其中增加自定义的词组,从而使jieba的分词更接近某些具体领域的使用。

2.使用说明

jieba分词有三种模式:精确模式、全模式和搜索引擎模式。

简单说,精确模式就是把一段文本精确的切分成若干个中文单词,若干个中文单词之间经过组合就精确的还原为之前的文本,其中不存在冗余单词。精确模式是最常用的分词模式。

进一步jieba又提供了全模式,全模式是把一段中文文本中所有可能的词语都扫描出来,可能有一段文本它可以切分成不同的模式或者有不同的角度来切分变成不同的词语,那么jieba在全模式下把这样的不同的组合都挖掘出来,所以如果用全模式来进行分词,分词的信息组合起来并不是精确的原有文本,会有很多的冗余。

而搜索引擎模式更加智能,它是在精确模式的基础上对长词进行再次切分,将长的词语变成更短的词语,进而适合搜索引擎对短词语的索引和搜索,在一些特定场合用的比较多。

jieba库提供的常用函数:

  • jieba.lcut(s)

精确模式,能够对一个字符串精确地返回分词结果,而分词的结果使用列表形式来组织。例如:

>>> import jieba
>>> jieba.lcut("中国是一个伟大的国家")
Building prefix dict from the default dictionary ...
Dumping model to file cache C:\Users\ADMINI~1\AppData\Local\Temp\jieba.cache
Loading model cost 2.489 seconds.
Prefix dict has been built successfully.
['中国', '是', '一个', '伟大', '的', '国家']
  • jieba.lcut(s,cut_all=True)

全模式,能够返回一个列表类型的分词结果,但结果存在冗余。例如:

>>> import jieba #Python小白学习交流群:725638078
>>> jieba.lcut("中国是一个伟大的国家",cut_all=True)
['中国', '国是', '一个', '伟大', '的', '国家']

jieba.lcut_for_search(s)

搜索引擎模式,能够返回一个列表类型的分词结果,也存在冗余。例如:

>>> import jieba
>>> jieba.lcut_for_search("中华人民共和国是伟大的")
['中华', '华人', '人民', '共和', '共和国', '中华人民共和国', '是', '伟大', '的']
  • jieba.add_word(w)

向分词词库添加新词w

最重要的就是jieba.lcut(s)函数,完成精确的中文分词。

原文链接:https://www.cnblogs.com/xxpythonxx/p/17353158.html

本站文章如无特殊说明,均为本站原创,如若转载,请注明出处:Python中文分词库——jieba的用法 - Python技术站

(0)
上一篇 2023年4月25日
下一篇 2023年4月25日

相关文章

  • Python BeautifulSoup [解决方法] TypeError: list indices must be integers or slices, not str

    PythonBeautifulSoup[解决方法]TypeError:list indices must be integers or slices, not str 在使用Python的BeautifulSoup库进行网页解析时,有时会遇到TypeError:list indices must be integers or slices, not的错误。本…

    python 2023年5月13日
    00
  • 详解Python Counter对象的概率计算

    Python中的Counter对象是用于计数的数据结构,它可以轻松地对一个可迭代对象中的元素进行计数。Counter对象计数后会以字典的形式返回结果,其中键是元素,值是元素出现的次数。在计算概率的过程中,Counter对象可以很好地辅助我们进行统计。 下面是使用Python Counter对象计算概率的步骤: 对样本空间进行计数,得到一个Counter对象(…

    python-answer 2023年3月25日
    00
  • python函数的万能参数传参详解

    Python函数的万能参数传参详解 在Python中,函数的参数传递是非常灵活的,这是因为Python支持万能参数传递。 万能参数传递是指,在函数定义时,参数列表中可以包含特殊的参数格式,该参数格式可以接收任何数量或类型的参数。 Python中的函数的万能参数传递有两种类型:args 和 *kwargs。下面分别对这两种类型进行讲解。 一、*args 在Py…

    python 2023年6月5日
    00
  • Python入门教程之变量与数据类型

    Python入门教程之变量与数据类型 本文将介绍在使用Python编程时常用的变量和数据类型,包括数字类型、字符串类型、布尔类型和列表类型。在实际应用中,了解和使用这些数据类型可以提高代码编写效率和质量。 变量 在Python中,变量是一个标识符,可以用来存储数据。变量的命名规则和其他编程语言类似,要求具有描述性和可读性。 另外,在Python中定义变量时不…

    python 2023年5月13日
    00
  • Python Requests爬虫之求取关键词页面详解

    Python Requests爬虫之求取关键词页面详解 介绍 Python Requests库是一个常用的用于发送HTTP请求的库,可用于构建各种爬虫、自动化工具和Web应用。本攻略主要讲解如何使用Python Requests库进行关键词页面的爬取。 准备工作 在使用前我们需要先安装Python Requests库: pip install request…

    python 2023年5月14日
    00
  • Python爬虫谷歌Chrome F12抓包过程原理解析

    Python爬虫谷歌Chrome F12抓包过程原理解析 在爬虫开发中,有许多工具和技术能够用于数据的采集,其中,F12抓包技术是一种非常重要和实用的技术。通过F12抓包可以有效地分析目标网站的结构和数据获取方式,从而帮助开发者更好地优化自己的数据采集方案。 F12抓包原理解析 F12抓包是借助Chrome浏览器的开发者工具来实现的,其具体原理如下: 首先,…

    python 2023年5月14日
    00
  • python实战之德州扑克第三步-比较大小

    Python实战之德州扑克第三步 – 比较大小 德州扑克是世界上最流行和普及的扑克游戏之一。 在德州扑克中,决定胜负的主要因素是牌型和牌型大小。 牌型是根据玩家手牌和公共牌的组合而形成的分类,而牌型大小是基于同样牌型中的牌面数字大小判断的。 本教程将介绍如何使用Python编写程序,来判断德州扑克中不同玩家的手牌大小,并给出完整的比较大小算法。 比较大小算法…

    python 2023年5月18日
    00
  • Python 可迭代对象 iterable的具体使用

    针对 Python 可迭代对象 iterable 的具体使用,我为您整理了以下完整攻略: 1. 什么是可迭代对象 iterable 可迭代对象 iterable 是指能够提供一个迭代器 iterator 的对象,迭代器是一个带有 next() 方法并且返回一个迭代值的对象。通常,可迭代对象 iterable 包括 list、set、tuple、dict、st…

    python 2023年6月3日
    00
合作推广
合作推广
分享本页
返回顶部