开源：云寻觅中文分词 (Yunxunmi Chinese Word Segmentation) ，词汇440万，10万字文章分词并计算频率不超过1秒

2023年4月10日上午12:00 • 云计算

云寻觅中文分词 (Yunxunmi Chinese Word Segmentation) 指的是将一个汉字序列切成一个一个单独的词。云寻觅中文分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。中文分词也是搜索引擎最核心的技术包括(全文索引，检索，排序权重计算，文本分类，聚类)，因此，中文分词的准确性和高效性将直接决定一个搜索引擎的好坏，目前很多搜索引擎包括谷歌对中国各地的方言几乎无法识别，直接导致搜索结果漏洞百出，正是基于上述原因，本人不辞辛苦开发出云寻觅中文分词并开源，希望更多的有识之士从中受益。
云寻觅中文分词词库共有 5个,分别是
ciku860000.dat 共有86万左右的常用中文词汇
ciku1248500.dat 共有120万左右的常用中文词汇,包括互联网热门词汇
ciku1408964.dat 共有140万左右的常用中文词汇,包括互联网热门词汇,古今中外名人,常用地区
ciku2786019.dat 共有270万左右的常用中文词汇,包括互联网热门词汇,古今中外名人,全国各地及方言
ciku4000000.dat 共有400万左右的常用中文词汇,包括互联网热门词汇,古今中外名人,全国各地及方言,音乐,电影,各行业专有词,唐诗,宋词,元曲,四书,三字经,天文,地理, 军事,女优,文言文等中文词汇

程序在启动时会进行词库的加载,大约需要等待十几秒,之后就可以进行中文分词,程序默认采用的词库是 ciku2786019.dat,与云寻觅中文分词可执行程序在同一目录中,如果需要体验其它词库的中文分词效果,可替换云寻觅中文分词执行程序目录中的ciku.dat文件,重新启动程序即可!

云寻觅中文分词开发者小白救星 2013年于杭州有任何疑问或建议请联系QQGroup:204725117
云寻觅中文分词完全开源,可以任意使用无任何限制!

上述内容切分结果如下：
中文分词,11,词汇,10,云寻觅,8,中文,7,dat,7,常用,6,包括,6,共有,6,左右的,5,万,5,词库,4,热门,4,互联网,4,方言,3,古今中外,3,名人,3,及,2,开源,2,的,2,全国各地,2,ciku2786019,2,序列,2,搜索引擎,2,程序,2,重新,2,进行,2,文言文,1,可替换,1,的字,1,单独,1,ciku4000000,1,120,1,词序,1,因此,1,目录,1,执行程序,1,原因,1,一个一个,1,将直接,1,文本,1,可执行程序,1,在同一,1,有任何,1,按照一定,1,音乐,1,采用的,1,准确性,1,其它,1,天文,1,本人,1,和,1,ciku1248500,1,唐诗,1,目前,1,汉字,1,也是,1,QQGroup,1,好坏,1,时会,1,加载,1,86,1,决定,1,指的是,1,204725117,1,女优,1,更多的,1,几秒,1,各行业,1,列的,1,组合成,1,就是将,1,地区,1,140,1,过程,1,救星,1,无法识别,1,几乎,1,等待,1,分别是,1,地的,1,的词,1,有词,1,最核心,1,2013,1,搜索结果,1,四书,1,很多,1,或建议,1,引擎的,1,专,1,正,1,年,1,全文索引,1,聚类,1,完全,1,即可,1,上述,1,开发出,1,ciku1408964,1,与,1,Word,1,疑问,1,目录中,1,Yunxunmi,1,开发者,1,并,1,是,1,权重,1,请联系,1,一个,1,大约需要,1,元曲,1,Segmentation,1,400,1,ciku860000,1,小白,1,之后,1,谷歌,1,希望,1,文件,1,ciku,1,分词的,1,启动,1,各,1,Chinese,1,在,1,地理,1,体验,1,如果需要,1,宋词,1,效果,1,于,1,电影,1,从中受益,1,搜索,1,切成,1,使用,1,漏洞百出,1,默认,1,270,1,排序,1,检索,1,可以任意,1,无任何限制,1,十,1,有识之士,1,杭州,1,的规范,1,等,1,启动程序,1,军事,1,三字经,1,是基于,1,对中国,1,不辞辛苦,1,高效性,1,计算,1,分类,1,直接导致,1,的技术,1,就可以,1,中的,1,个,1,连续,1,5,1,将一个,1

云寻觅中文分词运行效果图如下：
开源：云寻觅中文分词 (Yunxunmi Chinese Word Segmentation) ，词汇440万，10万字文章分词并计算频率不超过1秒

下载地址：
云寻觅中文分词词库.rar
云寻觅中文分词代码.rar
云寻觅中文分词执行程序.rar

本站文章如无特殊说明，均为本站原创，如若转载，请注明出处：开源：云寻觅中文分词 (Yunxunmi Chinese Word Segmentation) ，词汇440万，10万字文章分词并计算频率不超过1秒 - Python技术站

云计算

0 0 打赏

微信扫一扫

支付宝扫一扫

闲谈“云计算”

上一篇 2023年4月10日

微软北京.NET俱乐部免费活动（2010年7月18日）–Visual Studio 2010 敏捷开发与云计算Azure

下一篇 2023年4月10日

Python读大数据txt

当我们面对大量数据的时候，传统上我们会选择使用关系型数据库（如MySQL、Oracle）去处理数据。然而在小规模、非商业情况下，使用关系型数据库有些“杀鸡焉用牛刀”。这时我们可以将原始数据存储为文本(txt)格式，便于进行数据的清洗、筛选和统计等操作。接下来是Python读取大数据txt的完整攻略： 1. 确认文件编码大数据文件往往会因为编码问题导致乱码。…

云计算 2023年5月18日
000
详解Python对某地区二手房房价数据分析

详解Python对某地区二手房房价数据分析背景介绍在现代社会中，房地产已成为人们重要的财富和生活方式。通过对某地区二手房房价数据分析，我们可以更好地把握市场趋势，投资策略和生活方式。本文将介绍如何使用Python对某地区二手房房价数据进行分析。数据获取首先，需要收集数据进行分析。有很多方式可以获取二手房数据，比如爬虫和第三方提供的数据，但是我们在这里…

云计算 2023年5月18日
000
python中get和post有什么区别

在Python中，GET和POST请求是两种常见的HTTP请求方式，主要的区别在于数据传输的方式和数据包大小的限制。 GET请求 GET请求是一种在URL中传输数据的请求方式。当使用GET请求时，数据会以一种可见的形式展现在URL中，因此GET请求比较适用于请求数据量比较少的情况。一般而言，GET请求的使用场景包括：从服务器请求某个资源；通过URL中的数…

云计算 2023年5月18日
000
云计算

云计算安全扩展要求-（一）概述

云计算安全扩展要求一、概述 1.云计算技术云计算是一种颠覆性的技术，不仅可以增强协作、提高敏捷性、可扩展性及可用性，还可以通过优化资源分配、提高计算效率来降低成本。云计算模式构想了一个全新的IT世界，其组件不仅可以迅速调配、置备、部署和回收，还可以迅速地扩充或缩减，以提供按需的、类似于效用计算的分配和消费模式。 NIST将云计算定义为：云计算是…

2023年4月9日
000
云计算浅谈

– 卢昌海 – 本文是应《科学画报》约稿而写的短文，本站版本包含了若干注释，并在若干人名和术语初次出现时注有英文。本文的发表稿经编辑修改后，标题及文字均有所变动 (标题改为了 “云计算——互联网上一朵美丽的 ‘云’”)，内容也略有删减。一. 引言我们这个时代是一个互联网的时代，但不知大家有没有注意过，与其它一些连网的东西——比如管道煤气——…

云计算 2023年4月9日
000
python安装与使用redis的方法

下面是详细讲解“Python安装与使用Redis的方法”的完整攻略。 Python安装 Windows平台前往Python官网下载Windows平台的安装包；双击安装包运行安装程序；在安装程序中选择“指定自定义安装路径”，并将Python添加至环境变量；点击“安装”按钮，等待安装完成。 Linux平台在终端中运行以下命令安装Python： sudo…

云计算 2023年5月18日
000
云计算

云计算与云存储：使用云服务器搭建一个情侣纪念Web服务器

做完了实验一，做完感觉这门还是蛮好玩的，而且第一实验就很有趣，搭建了一个可以在公网访问的纪念网站给女朋友秀了一下。写好实验报告后简单搬运，应该能给感兴趣的朋友带来帮助。创建阿里云主机进入阿里云官方网站（https://www.aliyun.com/），注册阿里相关账号并登录，充值100元即可使用按量计费，选择云服务器 ECS，按量计费，共享型x86,1v…

2023年4月10日
000
如何用Python编写一个电子考勤系统

下面我将为你详细讲解如何用Python编写一个电子考勤系统。 1. 系统架构设计首先，我们需要思考电子考勤系统的整体架构设计。电子考勤系统需要包括以下模块：登录模块：用于身份认证，一般使用用户名和密码进行登录。考勤模块：用于记录员工的考勤信息，可以通过手动录入或者使用一些自动识别技术。统计模块：用于对考勤记录进行统计和分析，生成报表以供管理人员查看。…

云计算 2023年5月18日
000

开源：云寻觅中文分词 (Yunxunmi Chinese Word Segmentation) ，词汇440万，10万字文章分词并计算频率不超过1秒

相关文章