在python中使用pyspark读写Hive数据操作

在Python中使用PySpark读写Hive数据需要进行以下步骤：

安装PySpark

在终端中运行以下命令进行安装：

pip install pyspark

创建SparkSession对象

在Python中，使用Spark操作的入口点是SparkSession对象。在代码中创建SparkSession对象的代码如下：

from pyspark.sql import SparkSession

spark = SparkSession.builder.appName("HiveExample").enableHiveSupport().getOrCreate()

代码中，首先导入SparkSession类，然后使用builder()方法创建SparkSession对象，并指定应用程序名称为"HiveExample"，同时使用enableHiveSupport()方法启用对Hive的支持。

读取Hive表数据

使用SparkSession对象中的read()方法读取Hive表中的数据。代码如下：

# 读取Hive表中的数据
hiveDF = spark.read.table("hive_table_name")

# 查看DataFrame中的数据
hiveDF.show()

代码中，调用read()方法读取名为"hive_table_name"的Hive表中的数据，并将结果保存在DataFrame对象"hiveDF"中。使用show()方法查看DataFrame对象"hiveDF"中的数据。

写入数据到Hive表

使用DataFrame对象中的write()方法将数据写入Hive表中。代码如下：

# 将DataFrame中的数据写入到Hive表中
hiveDF.write.mode("overwrite").saveAsTable("new_hive_table_name")

代码中，调用write()方法将DataFrame中的数据保存到名为"new_hive_table_name"的Hive表中。在写入之前，使用mode()方法指定模式为"overwrite"，表示在写入数据时，如果该表已经存在，则覆盖已有数据。

示例一：读取Hive表中的数据

以下是读取Hive表中的数据的完整代码：

from pyspark.sql import SparkSession

# 创建SparkSession对象
spark = SparkSession.builder.appName("HiveExample").enableHiveSupport().getOrCreate()

# 读取Hive表中的数据
hiveDF = spark.read.table("new_hive_table_name")

# 查看DataFrame中的数据
hiveDF.show()

示例二：将数据写入Hive表中

以下是将数据写入Hive表中的完整代码：

from pyspark.sql import SparkSession

# 创建SparkSession对象
spark = SparkSession.builder.appName("HiveExample").enableHiveSupport().getOrCreate()

# 创建DataFrame对象
data = [("Alice", 25), ("Bob", 30), ("Charlie", 35)]
df = spark.createDataFrame(data, ["name", "age"])

# 将DataFrame中的数据写入到Hive表中
df.write.mode("overwrite").saveAsTable("new_hive_table_name")

代码中，首先使用spark.createDataFrame()方法创建DataFrame对象"df"，并指定数据和列名。然后，使用write()方法将DataFrame中的数据保存到名为"new_hive_table_name"的Hive表中。在写入之前，使用mode()方法指定模式为"overwrite"，表示在写入数据时，如果该表已经存在，则覆盖已有数据。

本站文章如无特殊说明，均为本站原创，如若转载，请注明出处：在python中使用pyspark读写Hive数据操作 - Python技术站

在python中使用pyspark读写Hive数据操作

相关文章