【发布时间】:2023-04-03 11:12:01
【问题描述】:
我已使用 pandas 将 CSV 文件导入 Python。该文件由 3 列和 498 行组成。我只需要一个名为“描述”的列的字数。我通过将“描述”列转换为小写,删除英文停用词和拆分来清理文件。
输入:
import pandas as pd
df = pd.read_csv("capex_motscles.csv")
from nltk.corpus import stopwords
stop = stopwords.words('english')
Description3 = df['Description'].str.lower().apply(lambda x:
''.join([word for word in str(x).split() if word not in (stop)]))
print(Description3)
输出:
0 crazy mind california medical service data base...
1 california licensed producer recreational & medic...
2 silicon valley data clients live beyond status...
3 mycrazynotes inc. announces $144.6 million expans...
4 leading provider sustainable energy company prod ...
5 livefreecompany founded 2005, listed new york stock...
我从“print(Description3)”中提供了 5 行。我总共有 498 行,如前所述,我需要计算词频。
任何帮助将不胜感激,感谢您的宝贵时间!
【问题讨论】:
-
你标记了
nltk
,你试过了吗? -
查看 collections.Counter — 数词的好方法
-
谢谢,我去柜台看看。我没有尝试 nltk,因为我仍然不精通 Python。但我也会调查一下。
标签:
python
python-3.x
pandas
nltk
stop-words
本站文章如无特殊说明,均为本站原创,如若转载,请注明出处:在Python中计算数据框中的单词[重复] - Python技术站