Python中文分词库——jieba的用法

1.介绍

jieba是优秀的中文分词第三方库。由于中文文本之间每个汉字都是连续书写的,我们需要通过特定的手段来获得其中的每个单词,这种手段就叫分词。而jieba是Python计算生态中非常优秀的中文分词第三方库,需要通过安装来使用它。

jieba库提供了三种分词模式,但实际上要达到分词效果只要掌握一个函数就足够了,非常的简单有效。

安装第三方库需要使用pip工具,在命令行下运行安装命令(不是IDLE)。注意:需要将Python目录和其目录下的Scripts目录加到环境变量中。

使用命令pip install jieba安装第三方库,安装之后会提示successfully installed,告知是否安装成功。

分词原理:
简单来说,jieba库是通过中文词库的方式来识别分词的。它首先利用一个中文词库,通过词库计算汉字之间构成词语的关联概率,所以通过计算汉字之间的概率,就可以形成分词的结果。当然,除了jieba自带的中文词库,用户也可以向其中增加自定义的词组,从而使jieba的分词更接近某些具体领域的使用。

2.使用说明

jieba分词有三种模式:精确模式、全模式和搜索引擎模式。

简单说,精确模式就是把一段文本精确的切分成若干个中文单词,若干个中文单词之间经过组合就精确的还原为之前的文本,其中不存在冗余单词。精确模式是最常用的分词模式。

进一步jieba又提供了全模式,全模式是把一段中文文本中所有可能的词语都扫描出来,可能有一段文本它可以切分成不同的模式或者有不同的角度来切分变成不同的词语,那么jieba在全模式下把这样的不同的组合都挖掘出来,所以如果用全模式来进行分词,分词的信息组合起来并不是精确的原有文本,会有很多的冗余。

而搜索引擎模式更加智能,它是在精确模式的基础上对长词进行再次切分,将长的词语变成更短的词语,进而适合搜索引擎对短词语的索引和搜索,在一些特定场合用的比较多。

jieba库提供的常用函数:

  • jieba.lcut(s)

精确模式,能够对一个字符串精确地返回分词结果,而分词的结果使用列表形式来组织。例如:

>>> import jieba
>>> jieba.lcut("中国是一个伟大的国家")
Building prefix dict from the default dictionary ...
Dumping model to file cache C:\Users\ADMINI~1\AppData\Local\Temp\jieba.cache
Loading model cost 2.489 seconds.
Prefix dict has been built successfully.
['中国', '是', '一个', '伟大', '的', '国家']
  • jieba.lcut(s,cut_all=True)

全模式,能够返回一个列表类型的分词结果,但结果存在冗余。例如:

>>> import jieba #Python小白学习交流群:725638078
>>> jieba.lcut("中国是一个伟大的国家",cut_all=True)
['中国', '国是', '一个', '伟大', '的', '国家']

jieba.lcut_for_search(s)

搜索引擎模式,能够返回一个列表类型的分词结果,也存在冗余。例如:

>>> import jieba
>>> jieba.lcut_for_search("中华人民共和国是伟大的")
['中华', '华人', '人民', '共和', '共和国', '中华人民共和国', '是', '伟大', '的']
  • jieba.add_word(w)

向分词词库添加新词w

最重要的就是jieba.lcut(s)函数,完成精确的中文分词。

原文链接:https://www.cnblogs.com/xxpythonxx/p/17353158.html

本站文章如无特殊说明,均为本站原创,如若转载,请注明出处:Python中文分词库——jieba的用法 - Python技术站

(0)
上一篇 2023年4月25日
下一篇 2023年4月25日

相关文章

  • Python实现的数据结构与算法之快速排序详解

    下面是关于“Python实现的数据结构与算法之快速排序详解”的完整攻略。 1. 快速排序算法概述 快速排序是一种高效的排序算法,它的基本思想是通过分治的想将一个大问题解成多个小问题,后递归地解决这些小问题。快速排序的复杂度为O(nlogn),是一种非高的排序算法。 2 快速排序算法实现 下面使用Python实现快速排序的代码: def quick_sort(…

    python 2023年5月13日
    00
  • Python读取文件内容的三种常用方式及效率比较

    下面我将详细讲解“Python读取文件内容的三种常用方式及效率比较”的完整攻略。 1. 背景 在Python开发中,读取文件是比较常用的操作,但不同的读取方式会影响到程序的效率。因此在实际开发过程中需要对不同读取方式进行比较和选择,以达到最佳的读取效率。 本文将介绍Python中读取文件内容的三种常用方式,并通过测试比较它们的效率。 2. 三种常用方式 2.…

    python 2023年6月5日
    00
  • 利用Python对中国500强排行榜数据进行可视化分析

    下面是关于利用Python对中国500强排行榜数据进行可视化分析的完整实例教程。 1. 准备工作 首先,我们需要准备数据集。可以去 http://www.fortunechina.com/fortune500/c/2019-07/22/content_342080.htm 下载排行榜数据并保存为 CSV 格式。 接着,我们需要安装一些 Python 库,包括…

    python 2023年5月13日
    00
  • pip报错“ModuleNotFoundError: No module named ‘pip._vendor.requests.packages’”怎么处理?

    当使用pip安装Python包时,可能会遇到“ModuleNotFoundError: No module named ‘pip._vendor.requests.packages’”错误。这个错误通常是由以下原因之一引起的: pip版本过低:如果pip版本过低,则可能会出现此错误。在这种情况下,需要升级pip版本。 pip安装包损坏:如果pip安装包损坏,…

    python 2023年5月4日
    00
  • python GUI库图形界面开发之PyQt5 MDI(多文档窗口)QMidArea详细使用方法与实例

    下面我来详细讲解一下“Python GUI库图形界面开发之PyQt5 MDI(多文档窗口)QMidArea详细使用方法与实例”的完整攻略。 1. 什么是MDI(多文档窗口)? MDI是一种常见的用户界面模式,它支持在单个父窗口中打开多个文档窗口。每个文档窗口都可以使用自己的菜单和工具栏,同时共享父窗口的状态栏和其他共享元素。多文档窗口是一种非常方便的交互方式…

    python 2023年6月13日
    00
  • 使用正则表达式实现网页爬虫的思路详解

    以下是“使用正则表达式实现网页爬虫的思路详解”的完整攻略: 一、问题描述 网页爬虫是一种自动化程序,可以自动访问网页并提取其中的信息。正则表达式是一种强大的文本匹配工具,可以用于提取网页中的信息。本文将详细讲解如何使用正则表达式实现网页爬虫。 二、解决方案 2.1 网页爬虫的思路 网页爬虫的基本思路如下: 获取网页源代码 使用正则表达式提取所需信息 处理提取…

    python 2023年5月14日
    00
  • Python 函数简单易理解版

    Python 函数简单易理解版 什么是函数? 函数是一段代码,它可以用来完成特定的任务。如果我们在程序中需要多次完成相同或类似的任务,我们就可以将这些代码抽象出来,放在一个函数中,并在需要的时候调用该函数。这样做可以减少重复代码,提高代码的可重用性和可维护性。 函数通常由函数名、参数列表和函数体构成。参数列表指定了函数接受多少个参数,函数体是实现函数功能的代…

    python 2023年5月23日
    00
  • python程序实现BTC(比特币)挖矿的完整代码

    实现比特币挖矿的完整代码是一项复杂的任务。以下是一些步骤,可帮助您开始编写这种代码,并向您展示一些示例。 1. 了解比特币挖矿的基础知识 在编写比特币挖矿代码之前,您需要了解比特币挖矿的基础知识。比特币是一种基于区块链技术的加密货币。它的设计目的是通过参与挖矿来保障比特币交易的安全性和稳定性。比特币挖矿需要高性能计算机来解决复杂的数学难题,以获得比特币。 2…

    python 2023年6月3日
    00
合作推广
合作推广
分享本页
返回顶部