pyspark.sql.DataFrame与pandas.DataFrame之间的相互转换实例

pyspark和pandas都是处理数据的优秀工具。pyspark主要用于分布式数据处理，而pandas主要用于单机数据处理。pyspark.sql.DataFrame和pandas.DataFrame是两种数据结构，它们都可以用于数据的处理和分析，但是在不同场景下需要进行数据的转换。下面介绍pyspark.sql.DataFrame和pandas.DataFrame之间相互转换的实例。

pandas.DataFrame转换为pyspark.sql.DataFrame

当我们需要使用pyspark对数据进行分布式处理时，我们需要将本地环境下的数据转换为pyspark.sql.DataFrame格式，下面是一个pandas.DataFrame转换为pyspark.sql.DataFrame的示例：

import pandas as pd
from pyspark.sql import SparkSession

# 创建一个pandas数据框
pdf = pd.DataFrame({
    'name': ['Alice', 'Bob', 'Charlie'],
    'age': [25, 30, 35],
    'gender': ['female', 'male', 'male']
})

# 创建spark会话
spark = SparkSession.builder.appName("Pandas to Spark").getOrCreate()

# 将pandas数据框转换为spark数据框
sdf = spark.createDataFrame(pdf)

# 打印spark数据框
sdf.show()

运行结果如下：

+-------+---+------+
|   name|age|gender|
+-------+---+------+
|  Alice| 25|female|
|    Bob| 30|  male|
|Charlie| 35|  male|
+-------+---+------+

pyspark.sql.DataFrame转换为pandas.DataFrame

当我们需要在本地环境中对数据进行单机处理时，我们需要将pyspark.sql.DataFrame格式的数据转换为pandas.DataFrame格式，下面是一个pyspark.sql.DataFrame转换为pandas.DataFrame的示例：

import pandas as pd
from pyspark.sql import SparkSession

# 创建一个spark数据框
spark = SparkSession.builder.appName("Spark to Pandas").getOrCreate()
sdf = spark.createDataFrame([("Alice", 25, "female"), ("Bob", 30, "male"), ("Charlie", 35, "male")], ["name", "age", "gender"])

# 将spark数据框转换为pandas数据框
pdf = sdf.toPandas()

# 打印pandas数据框
print(pdf)

运行结果如下：

      name  age  gender
0    Alice   25  female
1      Bob   30    male
2  Charlie   35    male

以上是pyspark.sql.DataFrame和pandas.DataFrame之间相互转换的实例，可以看到，这两个数据结构虽然在不同的处理环境中使用，但是它们的数据格式是一致的，因此在相互转换时，只需要使用pandas.DataFrame和pyspark.sql.DataFrame提供的转换函数，即可快速完成数据格式的转换。

本站文章如无特殊说明，均为本站原创，如若转载，请注明出处：pyspark.sql.DataFrame与pandas.DataFrame之间的相互转换实例 - Python技术站

pyspark.sql.DataFrame与pandas.DataFrame之间的相互转换实例

pandas.DataFrame转换为pyspark.sql.DataFrame

pyspark.sql.DataFrame转换为pandas.DataFrame

相关文章