Python中文分词库——jieba的用法

yizhihongxing

1.介绍

jieba是优秀的中文分词第三方库。由于中文文本之间每个汉字都是连续书写的,我们需要通过特定的手段来获得其中的每个单词,这种手段就叫分词。而jieba是Python计算生态中非常优秀的中文分词第三方库,需要通过安装来使用它。

jieba库提供了三种分词模式,但实际上要达到分词效果只要掌握一个函数就足够了,非常的简单有效。

安装第三方库需要使用pip工具,在命令行下运行安装命令(不是IDLE)。注意:需要将Python目录和其目录下的Scripts目录加到环境变量中。

使用命令pip install jieba安装第三方库,安装之后会提示successfully installed,告知是否安装成功。

分词原理:
简单来说,jieba库是通过中文词库的方式来识别分词的。它首先利用一个中文词库,通过词库计算汉字之间构成词语的关联概率,所以通过计算汉字之间的概率,就可以形成分词的结果。当然,除了jieba自带的中文词库,用户也可以向其中增加自定义的词组,从而使jieba的分词更接近某些具体领域的使用。

2.使用说明

jieba分词有三种模式:精确模式、全模式和搜索引擎模式。

简单说,精确模式就是把一段文本精确的切分成若干个中文单词,若干个中文单词之间经过组合就精确的还原为之前的文本,其中不存在冗余单词。精确模式是最常用的分词模式。

进一步jieba又提供了全模式,全模式是把一段中文文本中所有可能的词语都扫描出来,可能有一段文本它可以切分成不同的模式或者有不同的角度来切分变成不同的词语,那么jieba在全模式下把这样的不同的组合都挖掘出来,所以如果用全模式来进行分词,分词的信息组合起来并不是精确的原有文本,会有很多的冗余。

而搜索引擎模式更加智能,它是在精确模式的基础上对长词进行再次切分,将长的词语变成更短的词语,进而适合搜索引擎对短词语的索引和搜索,在一些特定场合用的比较多。

jieba库提供的常用函数:

  • jieba.lcut(s)

精确模式,能够对一个字符串精确地返回分词结果,而分词的结果使用列表形式来组织。例如:

>>> import jieba
>>> jieba.lcut("中国是一个伟大的国家")
Building prefix dict from the default dictionary ...
Dumping model to file cache C:\Users\ADMINI~1\AppData\Local\Temp\jieba.cache
Loading model cost 2.489 seconds.
Prefix dict has been built successfully.
['中国', '是', '一个', '伟大', '的', '国家']
  • jieba.lcut(s,cut_all=True)

全模式,能够返回一个列表类型的分词结果,但结果存在冗余。例如:

>>> import jieba #Python小白学习交流群:725638078
>>> jieba.lcut("中国是一个伟大的国家",cut_all=True)
['中国', '国是', '一个', '伟大', '的', '国家']

jieba.lcut_for_search(s)

搜索引擎模式,能够返回一个列表类型的分词结果,也存在冗余。例如:

>>> import jieba
>>> jieba.lcut_for_search("中华人民共和国是伟大的")
['中华', '华人', '人民', '共和', '共和国', '中华人民共和国', '是', '伟大', '的']
  • jieba.add_word(w)

向分词词库添加新词w

最重要的就是jieba.lcut(s)函数,完成精确的中文分词。

原文链接:https://www.cnblogs.com/xxpythonxx/p/17353158.html

本站文章如无特殊说明,均为本站原创,如若转载,请注明出处:Python中文分词库——jieba的用法 - Python技术站

(0)
上一篇 2023年4月25日
下一篇 2023年4月25日

相关文章

  • Python如何将控制台输出另存为日志文件

    要将Python程序的控制台输出另存为日志文件,可以使用标准库中的logging模块。logging模块允许Python程序记录一些有用的信息,在程序运行时输出到控制台、文件、邮件等地方。下面将演示如何使用logging模块将控制台输出保存到日志文件中。 步骤1:导入logging模块 在Python程序中使用logging模块,第一步需要导入模块: imp…

    python 2023年6月3日
    00
  • Python入门教程(四十)Python的NumPy数组创建

    下面是Python入门教程(四十)Python的NumPy数组创建的完整攻略。 什么是NumPy数组 NumPy是用Python语言实现的科学计算包,它是Python科学计算的基础包之一,具有高效的多维数组处理能力。在数据分析、科学计算、机器学习、深度学习等领域中,NumPy已成为标配。 NumPy的核心是数组对象ndarray,也就是N-dimension…

    python 2023年5月14日
    00
  • Python 使用threading+Queue实现线程池示例

    让我来为你详细讲解如何使用 Python 的 threading 和 Queue 模块来实现线程池。 什么是线程池 线程池是一种提高程序性能和减少资源消耗的技术,它可以实现多个线程共享一个线程池中的资源,减少创建和销毁线程所带来的损耗。线程池的基本实现原理是:在程序启动时创建指定数量的线程,将任务添加到队列中,线程从队列中取出任务并执行,当任务执行完毕后再将…

    python 2023年5月19日
    00
  • Python中关于字符串对象的一些基础知识

    Python是一种高级编程语言,拥有很多与字符串处理相关的内置函数和方法。在Python中,字符串对象可被视为文本序列。字符串对象一旦创建,其内容是不可更改的,即为不可变对象。 字符串的创建 Python中的字符串可以通过单引号(’)、双引号(”)、三倍引号(”’或”””)来创建。例如: string1 = ‘Hello, World!’ string2 …

    python 2023年6月3日
    00
  • crontab 如果尚未运行,则运行 python 文件

    【问题标题】:crontab to run python file if not running alreadycrontab 如果尚未运行,则运行 python 文件 【发布时间】:2023-04-01 16:20:01 【问题描述】: 我只想通过 crontab 执行我的 python 文件,前提是它已关闭或尚未运行。我尝试在 cron 选项卡中添加以下…

    Python开发 2023年4月8日
    00
  • Python3 pyecharts生成Html文件柱状图及折线图代码实例

    Python的pyecharts是一个基于Echarts的Python可视化库,可以用于生成各种类型的图表。以下是Python3 pyecharts生成Html文件柱状图及折线图代码实例的详细攻略: 安装pyecharts 首先需要安装pyecharts库。可以使用pip命令进行安装: pip install pyecharts 生成柱状图 以下是一个生成柱…

    python 2023年5月14日
    00
  • 为什么说python适合写爬虫

    Python是一种易学易用的脚本语言,有着良好的可读性和可维护性,因此可以非常方便地用于编写网络爬虫。下面是我为什么说Python适合用于编写爬虫的详细攻略: 1. Python有丰富的爬虫库和框架 Python拥有大量的第三方库和框架,因此针对不同的爬虫需求可以选择适合的库来编写爬虫程序。例如: 网络请求库:Requests库是Python的一个HTTP库…

    python 2023年5月14日
    00
  • Python实现批量下载图片的方法

    下面就来详细讲解 Python 实现批量下载图片的方法的完整攻略。 1. 准备工作 在开始实现之前,我们需要安装必要的库,包括 requests 和 os,安装方法如下: pip install requests os 库是 python 自带的标准库,无需额外安装。 2. 获取图片地址列表 首先,我们需要获取需要下载的图片地址链接列表。这里提供两种方法: …

    python 2023年6月3日
    00
合作推广
合作推广
分享本页
返回顶部