Python 中的加速生成器 -> 列表 -> CSV

2023年4月7日上午9:53 • Python开发

【问题标题】：Speed-up Generator -> List -> CSV in PythonPython 中的加速生成器 -> 列表 -> CSV
【发布时间】：2023-04-07 02:16:02
【问题描述】：

我需要优化写入从 Elastic Search 中提取的 CSV 文件数据的过程，其中 elasticsearch.helpers.scan 使用 json/dict 数据构建生成器函数。

results = elasticsearch.helpers.scan(es, query=body, index=index)
with io.open(csv_file_name, "w", encoding="utf-8", newline="") as csv_file:
    writer = csv.DictWriter(csv_file, fieldnames=column_names, delimiter=';')
    writer.writeheader()
    writer.writerows([document['_source'] for document in results])

我计时了，发现罪魁祸首是：
"[document['_source'] for document in results]"

需要很长时间才能通过生成器将其解压缩成列表，以便可以将其写入 CSV。 10k 条记录大约需要 30 秒，这可能需要几个小时，因为在某些情况下，我必须处理数百万条记录（每条记录接近 70 列/特征）。

有没有更有效的方法？我尝试了不同的方法来迭代数据（例如在生成器上使用“For”和“next”），但没有明显更好的结果。

我应该以不同的方式从弹性搜索中提取数据吗？（除了返回生成器函数的扫描助手）

谢谢！

【问题讨论】：

标签：
python
csv
elasticsearch
optimization
generator

本站文章如无特殊说明，均为本站原创，如若转载，请注明出处：Python 中的加速生成器 -> 列表 -> CSV - Python技术站

赞 (0)

微信扫一扫

微信扫一扫

支付宝扫一扫

支付宝扫一扫

如何使用 Python 从已知私钥生成以太坊公钥

上一篇 2023年4月7日

python 舀取和递归

下一篇 2023年4月7日

Python3使用xml.dom.minidom和xml.etree模块儿解析xml文件封装函数的方法

Python3使用xml.dom.minidom和xml.etree模块解析xml文件封装函数的方法在Python中，我们可以使用xml.dom.minidom和xml.etree模块来解析XML文件。本文将详细介绍如何使用这两个模块来解析XML文件，并封装成函数。使用xml.dom.minidom模块解析XML文件 xml.dom.minidom模块是…

python 2023年5月15日
000
Python中os.path用法分析

Python中os.path用法分析在Python的标准库os模块中，通过os.path子模块可以对文件路径或目录进行操作。os.path提供了一些常用的方法用于操作目录，例如获取目录名、获取文件路径、判断路径是否存在等等。下文将对os.path进行详细的讲解。 os.path模块简介 os.path模块是Python的内置模块，提供了一些常用的方法用以处…

python 2023年6月2日
000
python遍历文件目录、批量处理同类文件

当我们需要处理大量的文件时，手动处理会变得非常繁琐和耗时。而使用Python遍历文件目录和批量处理同类文件，可以大量提高处理效率，提高工作效能。下面将给出详细的攻略。 1. 遍历文件目录使用os模块遍历文件目录使用os模块可以实现遍历文件目录的功能，os模块是Python内置的提供访问操作系统功能的模块，可以操作文件、文件夹和进程等。首先看下列使用os…

python 2023年6月5日
000
Pandas数据分析之pandas数据透视表和交叉表

Pandas数据分析之pandas数据透视表和交叉表 Pandas 是一个具有高效数据操作和数据分析能力的 Python 库。本文将介绍 Pandas 中的数据透视表和交叉表，以及如何在实际项目中使用它们。什么是数据透视表？数据透视表是一种在 Excel 中极为常见的数据分析技术，它可以将原始数据以任意维度进行聚合，并展示在一个新的表格中。在 Panda…

python 2023年5月13日
000
Python处理CSV文件真的很慢

【问题标题】：Python processing CSV file really slowPython处理CSV文件真的很慢【发布时间】：2023-04-06 04:13:02 【问题描述】：所以我试图打开一个 CSV 文件，读取它的字段并在此基础上修复一些其他字段，然后将该数据保存回 csv。我的问题是 CSV 文件有 200 万行。加快速度的最佳方法…

Python开发 2023年4月7日
000
python try 异常处理(史上最全）

Python Try-Except 异常处理指南 Python 中的异常处理是一种用于处理程序出现错误和异常情况的技术。在开发过程中，程序出现错误是一种必然情况，通过合理的异常处理，能够使我们的程序更加稳定和健壮。本文将介绍 Python 中关于异常处理的知识点。异常概述异常是指在程序运行时发生的错误，例如访问不存在的变量、除数为零、调用不存在的方法等。…

python 2023年5月13日
000
Python Requests 基本使用及Requests与 urllib 区别

以下是关于Python Requests基本使用及Requests与urllib区别的攻略： Python Requests基本使用及Requests与urllib区别在Python中，Requests是一个流行的库，可以用于向Web发送HTTP请求和接响应。与urllib库相比，Requests库更加简单易用。以下是Python Requests基本使用…

python 2023年5月14日
000
基于Python实现从头搭建一个在线聊天室框架

下面是详细讲解“基于Python实现从头搭建一个在线聊天室框架”的完整攻略： 1. 确定聊天室框架的基本要素和功能在开始搭建聊天室框架之前，需要先确定聊天室框架的基本要素和功能，例如：聊天室的名称和描述；用户登录机制；聊天室的房间和房间内的聊天内容；用户之间的私聊和群聊功能；在线用户列表和用户的状态（在线/离线）显示；聊天记录的保存和载入功能。…

python 2023年6月3日
000

合作推广

合作推广

返回顶部