在Python中计算数据框中的单词[重复]

2023年4月8日上午1:51 • Python开发

yizhihongxing

【问题标题】：Counting Words in a Dataframe in Python [duplicate]在Python中计算数据框中的单词[重复]
【发布时间】：2023-04-03 11:12:01
【问题描述】：

我已使用 pandas 将 CSV 文件导入 Python。该文件由 3 列和 498 行组成。我只需要一个名为“描述”的列的字数。我通过将“描述”列转换为小写，删除英文停用词和拆分来清理文件。

输入：

    import pandas as pd

    df = pd.read_csv("capex_motscles.csv")

    from nltk.corpus import stopwords
    stop = stopwords.words('english') 

    Description3 = df['Description'].str.lower().apply(lambda x: 
    ''.join([word for word in str(x).split() if word not in (stop)]))

    print(Description3)

输出：

    0      crazy mind california medical service data base...
    1      california licensed producer recreational & medic...
    2      silicon valley data clients live beyond status...
    3      mycrazynotes inc. announces $144.6 million expans...
    4      leading provider sustainable energy company prod ...
    5      livefreecompany founded 2005, listed new york stock...

我从“print(Description3)”中提供了 5 行。我总共有 498 行，如前所述，我需要计算词频。
任何帮助将不胜感激，感谢您的宝贵时间！

【问题讨论】：

你标记了nltk，你试过了吗？
查看 collections.Counter — 数词的好方法
谢谢，我去柜台看看。我没有尝试 nltk，因为我仍然不精通 Python。但我也会调查一下。

标签：
python
python-3.x
pandas
nltk
stop-words

本站文章如无特殊说明，均为本站原创，如若转载，请注明出处：在Python中计算数据框中的单词[重复] - Python技术站

赞 (0)

微信扫一扫

微信扫一扫

支付宝扫一扫

支付宝扫一扫

csv文件行中每列的Python唯一值

上一篇 2023年4月8日

Python：从请求库转换为 urllib3

下一篇 2023年4月8日

Python实现批量压缩文件/文件夹zipfile的使用

下面是Python实现批量压缩文件/文件夹zipfile的使用的完整攻略。什么是zipfile zipfile是Python自带的标准库之一，用于进行ZIP文件的压缩和解压缩。我们可以使用zipfile库来打包多个文件或文件夹为单个ZIP文件，或者解压缩已经存在的ZIP文件。安装zipfile库由于zipfile是Python标准库之一，所以无需安装。…

python 2023年6月3日
000
使用Python和百度语音识别生成视频字幕的实现

使用Python和百度语音识别生成视频字幕的实现，可以分为以下几个步骤：安装百度AI SDK 通过PIP命令安装百度SDK，命令：pip install baidu-aip 创建百度语音识别对象 python from aip import AipSpeech APP_ID = ‘填写你的APP ID’ API_KEY = ‘填写你的API KEY’ SE…

python 2023年5月19日
000
python如何实现内容写在图片上

想要在图片上添加文字内容，需要使用Python中的Pillow库。Pillow是Python的一个图像处理库，可以使用它加载、处理和保存多种格式的图像文件，包括bmp、gif、jpg、png以及bmp等格式。具体操作流程如下：安装Pillow库首先需要确保安装了pip，然后执行下列命令即可完成Pillow的安装： pip install Pillow …

python 2023年5月18日
000
Python的加密模块之hashlib 与 base64详解及常用加密方法

Python的加密模块之hashlib与base64详解及常用加密方法什么是加密模块？加密模块是Python中用来实现加密的工具包，其主要包含以下几种类型：哈希（Hash）加密：将任意长度的消息压缩到某一固定长度，且不可逆。对称加密（Symmetric-Key）：通过同一个秘钥同时对明文和密文进行加密和解密，常用算法有AES、DES等。非对称加密（…

python 2023年5月20日
000
Python推导式简单示例【列表推导式、字典推导式与集合推导式】

Python推导式（Comprehension）是Python语言中的高级特性之一，可以简洁地表达出 for 循环语句创造的新容器。在Python中，主要有三种推导式，分别为列表推导式、字典推导式和集合推导式。本文将详细讲解这三种推导式的使用及示例说明。列表推导式列表推导式是Python中最常用的推导式，它可以用一个简洁的语句创建一个新列表。列表推导式的…

python 2023年5月13日
000
Python实现的栈（Stack）

下面我就来为你详细讲解一下Python实现的栈（Stack）的完整攻略。什么是栈（Stack）？在计算机科学中，栈（Stack）是一种数据结构，它按照“后进先出”的原则（Last In First Out，LIFO）存储数据，也就是说，后添加进来的元素先被取出。栈是一种非常重要的数据结构，在很多应用中都得到了广泛的应用。 Python实现的栈（Stack…

python 2023年5月19日
000
解决python ogr shp字段写入中文乱码的问题

解决python ogr shp字段写入中文乱码的问题，可以按照以下步骤进行操作：设置系统编码为utf-8 在Python中，字符串默认使用ASCII编码。为了避免中文出现乱码的问题，在进行编码转换时，需要将系统编码设置为utf-8。示例代码： import sys reload(sys) sys.setdefaultencoding(‘utf-8’) …

python 2023年5月20日
000
简单介绍Python虚拟环境及使用方法

Python虚拟环境是一种常用的Python开发工具，可以用于隔离不同项目的依赖关系，避免不同项目之间的依赖冲突。本文将详细讲解Python虚拟环境的概念、使用方法和示例。 Python虚拟环境的概念 Python虚拟环境是一种隔离Python环境的工具，可以在同一台机器上创建多个独立的Python环境，每个环境都有自己的Python解释器和依赖库。Pyth…

python 2023年5月15日
000

合作推广

合作推广

返回顶部