数据清洗工具flashtext,效率直接提升了几十倍数

在平常的一些的小规模的数据的过滤、清洗过程中使用最多的就是正则表达式,但是随着数据规模的增大,正则表达式就显得有些心有余力不足了。

【阅读全文】

正则表达式在一个 10k 的词库中查找 15k 个关键词的时间差不多是 0.165 秒。但是对于 Flashtext 而言只需要 0.002 秒。因此,在这个问题上 Flashtext的速度大约比正则表达式快 82 倍。

file

从上面的示例图的性能对比中,可以发现随着我们需要处理的字符越来越多,正则表达式的处理速度几乎都是线性增加的。然而,Flashtext 几乎是一个常量。

1、准备flashtext环境

通过pip的方式来安装flashtext,或是其他的方式也是可以的,这里默认使用的是清华大学的镜像站。

pip install flashtext -i https://pypi.tuna.tsinghua.edu.cn/simple

在准备好flashtext环境以后,来看一下flashtext重要的使用过程,帮助我们能更好的完成数据清洗操作。

2、添加关键词

这里添加关键词时是通过单个关键词的来添加到关键词词库中,使用add_keyword函数来添加。第一次参数表示需要添加的关键词,第二个参数则表示为第一个关键词的别名,如果关键词被找到了则显示为别名的形式,若是没有使用第二个参数作为别名则还是显示原有的名称。

from flashtext import KeywordProcessor

# 初始化关键词库处理器

processor = KeywordProcessor()

# 常规方式添加关键词

processor.add_keyword('Python')

# 别名方式添加关键词

processor.add_keyword('Scala', 'Java')

这样分别使用两种方式已经将需要的关键词添加到词库处理器中了。

3、提取关键词

通过上一步添加关键词,现在词库处理器中已经存在有关键词的信息了,再使用extract_keywords将关键词提取出来即可。

# 在一个字符串中提取出关键词信息

found = processor.extract_keywords('I like Python and Scala.')

# 结果

print(found)

# ['Python', 'Java']

结果出来了,跟我们预想的是一样的,并Scala也显示为了Java。

4、替换关键词

替换关键词使用的是replace_keywords函数,前提是词库中拥有别名的词才能被替换,就像上面的Scala被显示成了的Java一样。

替换一个字符串中的Scala关键词,由于Scala对应的别名是Java,所以一个字符串中的Scala应该被替换为Java。

replaced = processor.replace_keywords('I like Scala.')

# 结果

print(replaced)

# I like Java.

# Scala 果真就被替换为了Java。

5、获取所有关键词

有些时候,在KeywordProcessor词库处理器中添加了哪些关键词可能自己都记不清楚了,这个时候可以使用get_all_keywords函数来获取当前的所有关键词。

all_keywords = processor.get_all_keywords()

# 结果

print(all_keywords)

# {'python': 'Python', 'scala': 'Java'}

6、批量的添加关键词

当关键词库需要更多的关键词的时候,可以通过列表或是字典的方式来进行批量的添加。对应的函数分别是add_keywords_from_list、add_keywords_from_dict函数。

# 初始化一个字典通过用来做批量添加

dict_ = {
    'java': ['java_ee', 'java_se', 'java_me'],
    'python': ['pandas', 'all']
}

# 通过字典的方式来批量添加关键词

processor.add_keywords_from_dict(dict_)

# 从批量添加的关键词中匹配关键词

result = processor.extract_keywords('looking for java_ee and pandas.')

# 结果

print(result)

# ['java', 'python']

# 通过列表的方式批量添加关键词

processor.add_keywords_from_list(['scala', 'python', 'scala', 'go'])

# 通过get_all_keywords查看一下所有关键词

all_keywords = processor.get_all_keywords()

# 结果

print(all_keywords)

# {'python': 'python', 'pandas': 'python', 'scala': 'scala', 'java_ee': 'java', 'java_se': 'java', 'java_me': 'java', 'all': 'python', 'go': 'go'}

发现所有的关键词已经添加到词库处理器中,并且重复的不会再次添加。

7、批量删除关键词

批量删除词库处理器中的关键词同样是有两种方式,一个是列表、另一个是字典。对应的函数分别是remove_keywords_from_list、remove_keywords_from_dict函数。

# 批量移除列表中的关键词

processor.remove_keywords_from_list(['python','java_ee','java_me'])

# 批量移除字典中的关键词

processor.remove_keywords_from_dict({'python': ['pandas','all']})

# 通过get_all_keywords查看一下所有关键词

all_keywords = processor.get_all_keywords()

# 结果

print(all_keywords)

# {'scala': 'scala', 'java_se': 'java', 'go': 'go'}

发现需要移除的关键词已经被全部移除了。

8、执行效率对比

为了更可观的展示效果,找了两个flashtext在搜索和替换关键词过程中的效率对比图可以一目了然。

flashtext、正则表达式搜索效率对比

file

flashtext、正则表达式搜索替换对比

file

【往期精彩】

file

一个help函数解决了python的所有文档信息查看...

python 自定义异常/raise关键字抛出异常

python 本地音乐播放器制作过程(附完整源码)

自动化工具:PyAutoGUI的鼠标与键盘控制,解放双手的利器!

来自程序猿的生日蛋糕你见过吗?

本站文章如无特殊说明,均为本站原创,如若转载,请注明出处:数据清洗工具flashtext,效率直接提升了几十倍数 - Python技术站

(0)
上一篇 2023年4月2日
下一篇 2023年4月2日

相关文章

  • python实现excel数据与mysql数据库互通有无

    【阅读全文】 python在制作一些小工具上本身就有着得天独厚的优势,大多数非标准库的应用只需要进行简单的安装即可使用。 比如:使用python将excel中的数据导入到mysql数据库表中,或是将mysql数据库表中的数据直接导出为excel都只需要简单的几行代码就可以完成,假如使用Java来做这件事强那可就有些复杂了呢。 话不多说,接下来直接进入正题..…

    2023年4月2日
    00
  • 如何将多张图片合成mp4视频格式,并加入背景音乐…

    【阅读全文】 实现的思路:将准备好的图片通过opencv读取出来,并将其设置好帧数等参数后合成为无声视频。最后通过moviepy编辑视频将背景音乐加入到视频中。 开始之前还是需要说明一下非标准库的来源,因为有些库的名称和需要导入模块的名称不一定就是一样的。 import os # python标准库,不需要安装,用于系统文件操作相关 import cv2 #…

    2023年4月2日
    00
  • 我使用pangu模块做了一个文本格式化小工具!

    其实使用pangu做文本格式标准化的业务代码在之前就实现了,主要能够将中文文本文档中的文字、标点符号等进行标准化。 阅读全文 但是为了方便起来我们这里使用了Qt5将其做成了一个可以操作的页面应用,这样不熟悉python的朋友就可以不用写代码直接双击运行使用就OK了。 为了使文本格式的美化过程不影响主线程的使用,特地采用QThread子线程来专门的运行文本文档…

    2023年4月2日
    00
  • 吐血整理python数据分析利器pandas的八个生命周期!

    这里从八个pandas的数据处理生命周期,整理汇总出pandas框架在整个数据处理过程中都是如何处理数据的。 【阅读全文】 也就是从pandas的数据表对象以及数据汇总、数据统计等等直到数据导出的八个处理过程来完成pandas使用的汇总处理。 首先,需要准备好将python非标准库导入进来,除了pandas之外一般伴随数据分析处理使用的还有numpy科学计算…

    Python开发 2023年4月2日
    00
  • 自动化工具:PyAutoGUI的鼠标与键盘控制,解放双手的利器

    PyAutoGUI是一个简单易用,跨平台的可以模拟键盘鼠标进行自动操作的python库。 【阅读全文】 使用pip的方式安装pyautogui模块 pip install pyautogui pyautogui在使用的时候有两个比较关键的隐患(程序在启动起来以后很难关闭)需要注意一下。一是鼠标出现在屏幕的最上方会出现报错,二是键盘的自动操作太快,所以需要先设…

    2023年4月2日
    00
  • 一个help函数解决了python的所有文档信息查看

    在python中的交互式命令行中提供了help函数来查询各个模块,或是公共函数,或是模块下的函数接口等都可以使用help函数来查看接口文档。 【阅读全文】 不过要查看这样的文档还是得有些英文功底的,包含函数、模块、变量的介绍都是通过英文来介绍的。 1、模块文档查看 打开控制台,这里使用的控制台工具是cmder,看起来比默认的cmd命令行好看的多。 比如说需要…

    2023年4月2日
    00
  • python多线程同步售票系统解决思路

    解决问题场景:假如剩余1000张电影票需要售卖,同时有10家电影App来售卖这1000张电影票。主要的逻辑实现过程是什么,要求使用python技术栈进行解题? 【阅读全文】 1、分析过程 分析:主要信息点是10家App平台同时售卖1000张电影票。此时,可以使用10个python线程来作为10家App平台,同时售卖必须保证电影票数量的同步,比如A平台卖出了一…

    2023年4月2日
    00
  • 懒人python操作,代码中永远只需要导入一个库

    Pyforest是一个开源的Python库,可以自动导入代码中使用到的Python库。 【阅读全文】 实话说,作为一个程序员还是得不停的学习呀。昨天晚上睡觉之前就在论坛上面溜达了一会儿,发现了有个叫pyforest的python非标准库可以自动导入代码中使用到的Python库,我竟然还不知道。 于是,迫不及待的测试了一下还真行,真是拯救了我们这些懒人。事情的…

    2023年4月2日
    00
合作推广
合作推广
分享本页
返回顶部