在 python 3.4.7 的 pool.map 函数中添加额外的随机参数作为参数

2023年4月7日上午10:01 • Python开发

yizhihongxing

【问题标题】：Adding additional random parameter as an argument in pool.map function in python 3.4.7在 python 3.4.7 的 pool.map 函数中添加额外的随机参数作为参数
【发布时间】：2023-04-06 07:02:01
【问题描述】：

我想在大型数据集上使用多重处理来查找两列的乘积，并使用参数中的给定参数过滤数据集。我构建了一个测试集，但我无法让多处理在这个集上工作。

首先，我试图在parallelize_dataframe 函数中划分数据集，然后在subset_col 函数中应用乘法函数和过滤函数。稍后我将完整的数据集附加回 parallelize_dataframe。

import numpy as np
import pandas as pd
from multiprocessing import Pool
from multiprocessing import Lock

df = pd.DataFrame({'col1': [1, 0, 1, 1, 1, 0, 0, 1, 0, 1],
                'col2': ['aa', 'aa', 'aa', 'bb', 'bb', 'bb', 'bb', 'cc', 'cc', 'cc'],
                'col3': [1, 2, 3, 4, 5, 6, 7, 8, 9, 10],
                'col4': [21, 22, 23, 24, 25, 26, 27, 28, 29, 30]})



def subset_col(df, p):
    print("Working with number: " + str(p))
    df[col5] = df[col3]*df[col4]
    df= df[df['col1'] == p]


def parallelize_dataframe(df, p, func, n_cores=80):
    df_split = np.array_split(df, n_cores)
    pool = Pool(n_cores)
    df = pd.concat(pool.map(func, df_split, p))
    pool.close()
    pool.join()
    return df


df3 = parallelize_dataframe(df,1,subset_col)

结果应该是 col3 和 col4 的乘积，其中 col1 用一个值过滤。但我总是收到一条错误消息：

File "<stdin>", line 1, in <module>
File "<stdin>", line 4, in parallelize_dataframe
struct.error: 'i' format requires -2147483648 <= number <= 2147483647

但是，如果我从所有功能中删除过滤器“p”，它就可以正常工作。有人可以帮我调试一下吗？

【问题讨论】：

标签：
python
pandas
numpy
python-multiprocessing
multiprocess

本站文章如无特殊说明，均为本站原创，如若转载，请注明出处：在 python 3.4.7 的 pool.map 函数中添加额外的随机参数作为参数 - Python技术站

赞 (0)

微信扫一扫

微信扫一扫

支付宝扫一扫

支付宝扫一扫

重新排序矩阵元素以反映朴素python中的列和行聚类

上一篇 2023年4月7日

无法在 Python 中打开 HDF5 文件

下一篇 2023年4月7日

Python 实现字符串中指定位置插入一个字符

要在字符串中插入一个字符，可以使用Python中的字符串切片和拼接操作。以下是实现此过程的详细步骤： 1.先定义一个字符串变量 original_string = "hello world" 2.使用切片操作提取出字符串的前半部分和后半部分，再使用+运算符将插入字符连接在字符串中间 inserted_char = "-&quot…

python 2023年6月5日
000
python使用glob检索文件的操作

当我们需要在一个文件夹中检索某些类型的文件时，python的glob模块就可以很好地完成这个任务。这个模块提供了一个类似正则表达式的接口来匹配文件名，但它比正则表达式更简单易用。以下是使用glob模块检索文件的方法： 1. 导入glob模块 import glob 2. 基本用法：使用glob.glob()函数对符合条件的文件进行筛选 my_files =…

python 2023年6月3日
000
Python爬虫学习之翻译小程序

Python爬虫学习之翻译小程序攻略本攻略将介绍如何使用Python编写一个简单的翻译小程序，主要分为以下步骤：确定翻译网站和网页结构安装必要的Python库编写Python代码实现翻译功能完善程序并进行测试 1. 确定翻译网站和网页结构在编写翻译程序之前，需要确定使用的翻译网站和该网站的网页结构。本攻略将使用有道翻译作为翻译网站，并以Chrom…

python 2023年5月23日
000
pandas实现datetime64与unix时间戳互转

Pandas是Python数据分析库中的一个重要组件，可用于数据清洗、格式化、时间序列等操作。其中，pandas的datetime64是一种时间戳数据类型，它的单位为纳秒，可支持高精度的时间计算，而Unix时间戳是Unix操作系统中所采用的时间表示方式，以1970年1月1日00:00:00为基准，以秒数表示时间。在实际应用中，我们可能需要将datetime…

python 2023年6月2日
000
python两个list[]相加的实现方法

以下是详细讲解“Python两个list相加的实现方法”的完整攻略。在Python中，可以使用”+”运算符或extend()方法将两个list相加。本文将介绍这两种方法的实现方式。方法一：使用”+”运算符可以使用”+”运算符将两个list相加。例如： lst1 = [1, 2, 3] lst2 = [4, 5, 6] lst3 = lst1 + lst…

python 2023年5月13日
000
Django中的forms组件实例详解

Django中的forms组件实例详解在Django中，forms组件是用于处理表单数据的工具。本文将详细讲解Django中的forms组件，包括forms组件的概念、forms组件的使用方法、forms组件的验证等内容。 forms组件的概念在Django中，forms组件是用于处理表单数据的工具。它可以帮助我们创建表单、验证表单数据、处理表单数据等操…

python 2023年5月15日
000
Python+eval函数实现动态地计算数学表达式详解

我们来详细讲解一下“Python+eval函数实现动态地计算数学表达式”的实现过程。主要步骤包括定义表达式、输入表达式、解析和计算表达式。定义表达式首先，我们需要定义一个数学表达式，这里我们以简单的加、减、乘、除为例子，如下所示： expression = ‘1 + 2 * 3 – 4 / 2’ 其中1、2、3、4为表达式中的数字，”+”、”-“、”*”…

python 2023年6月3日
000
Python for循环生成列表的实例

Python for循环生成列表的实例在Python中，我们可以使用for循环来生成列表。这种方法可以让我们更加灵活地控制列表的生成过程，而满足不同的需求。本攻略将详细介绍如何使用for循环生成列表，并提供两个例说明。生成列表我们可以使用for循环生成数字列表。以下是一个示例代码，演示如何使用for循环生成数字列表： # 生成列表 my_list = …

python 2023年5月13日
001

合作推广

合作推广

返回顶部