Spark SQL配置及使用教程

2023年6月2日下午3:18 • Java

Spark SQL配置及使用教程

什么是Spark SQL？

Spark SQL是运行在Apache Spark之上的模块，它提供结构化数据处理的能力，可以让用户使用SQL语句或DataFrame API处理结构化数据，同时可以与其他Spark模块集成使用。

Spark SQL的配置

1. 坐标依赖配置

<dependency> 
  <groupId>org.apache.spark</groupId> 
  <artifactId>spark-core_2.11</artifactId> 
  <version>2.4.0</version> 
</dependency> 

<dependency> 
  <groupId>org.apache.spark</groupId> 
  <artifactId>spark-sql_2.11</artifactId> 
  <version>2.4.0</version> 
</dependency>

注：修改version版本号即可使用指定版本的Spark集群。

2. SparkConf配置

SparkConf sparkConf = new SparkConf()
                        .setAppName("appName")
                        .setMaster("local");

JavaSparkContext sc = new JavaSparkContext(sparkConf);

SparkSession spark = SparkSession
              .builder()
              .appName("appName")
              .config("spark.some.config.option", "some-value")
              .getOrCreate();

3. SparkSession与Hive配置

SparkSession spark = SparkSession.builder()
                .appName("appName")
                .config("spark.sql.warehouse.dir", "/user/hive/warehouse")
                .config("hive.metastore.uris", "thrift://localhost:9083")
                .enableHiveSupport()
                .getOrCreate();

Spark SQL的使用

1. 创建DataFrame

List<Tuple2<Integer, String>> data = Arrays.asList(
     new Tuple2<Integer, String>(1, "Alice"),
     new Tuple2<Integer, String>(2, "Bob"),
     new Tuple2<Integer, String>(3, "Charlie"));

JavaRDD<Tuple2<Integer, String>> rdd = jsc.parallelize(data);
StructType schema = new StructType(new StructField[]{
        new StructField("id", DataTypes.IntegerType, false, Metadata.empty()),
        new StructField("name", DataTypes.StringType, false, Metadata.empty())
});

Dataset<Row> df = spark.createDataFrame(rdd, schema);

2. DataFrame API操作

df.filter(col("id").gt(1)).show();
df.select(col("name")).show();

3. Spark SQL操作

df.createOrReplaceTempView("people");
Dataset<Row> sqlDF = spark.sql("SELECT name FROM people WHERE id > 1");
sqlDF.show();

示例说明

示例1

在本地运行Spark SQL程序：

package com.spark.example;

import org.apache.spark.sql.Dataset;
import org.apache.spark.sql.Row;
import org.apache.spark.sql.SparkSession;

public class App {
    public static void main(String[] args) {
        SparkSession spark = SparkSession.builder()
                .appName("SparkSQLExample")
                .config("spark.some.config.option", "some-value")
                .getOrCreate();

        // spark 读取csv文件
        String csvPath = "/Users/xxx/Downloads/test.csv";
        Dataset<Row> df = spark.read().format("csv")
                .option("header", "true")
                .option("inferSchema", "true")
                .load(csvPath);

        df.show();
        spark.stop();
    }
}

示例2

在Hive建立一张表，使用Spark SQL查询Hive表：

package com.spark.example;

import org.apache.spark.sql.Dataset;
import org.apache.spark.sql.Row;
import org.apache.spark.sql.SparkSession;

public class App {
    public static void main(String[] args) {
        SparkSession spark = SparkSession.builder()
                .appName("SparkSQLExample")
                .config("spark.sql.warehouse.dir", "/user/hive/warehouse")
                .config("hive.metastore.uris", "thrift://localhost:9083")
                .enableHiveSupport()
                .getOrCreate();

        // 创建Hive表
        spark.sql("CREATE TABLE IF NOT EXISTS persons (id int, name string) row format delimited fields terminated by ',' stored as textfile location '/user/hive/warehouse/persons'");

        // 查看Hive表内容
        Dataset<Row> result = spark.sql("SELECT * FROM persons");
        result.show();

        spark.stop();
    }
}

本站文章如无特殊说明，均为本站原创，如若转载，请注明出处：Spark SQL配置及使用教程 - Python技术站

赞 (0)

微信扫一扫

微信扫一扫

支付宝扫一扫

支付宝扫一扫

Java 中EasyExcel的使用方式

上一篇 2023年6月2日

Springboot – Fat Jar示例详解

下一篇 2023年6月2日

Springboot+mybatis plus找不到mapper.xml的问题解决

问题描述：使用Springboot和mybatis plus开发过程中，出现了找不到mapper.xml的错误，导致无法正常进行数据库操作。问题原因：在Springboot中使用mybatis plus进行数据访问时，需要将.xml文件放在classpath根目录下或者mapper接口所在的包下。而有时候我们的项目结构并不是标准的Maven或Gradl…

Java 2023年5月26日
000
Java如何实现通过键盘输入一个数组

Java 可以通过 Scanner 类实现键盘输入一个数组。具体步骤如下：引入 Scanner 类需要使用 java.util 包中的 Scanner 类，因此需要在程序开头声明引入这个包。 import java.util.Scanner; 定义 Scanner 对象在程序中定义一个 Scanner 对象用于读取键盘输入： Scanner sc =…

Java 2023年5月26日
000
JavaWeb简单用户登录注册实例代码(有验证码)

下面来详细讲解“JavaWeb简单用户登录注册实例代码(有验证码)”的完整攻略。 1. 需求分析在开始编写代码前，首先需要明确需求。这个JavaWeb实例主要实现以下功能：用户注册：包括用户名、密码、确认密码以及验证码；用户登录：包括用户名、密码以及验证码的校验；验证码：生成随机数，用户填写后验证； 2. 技术栈这个JavaWeb实例的技术栈主要包…

Java 2023年6月15日
000
Java使用pulsar-flink-connector读取pulsar catalog元数据代码剖析

Java使用Pulsar-Flink-Connector读取Pulsar Catalog元数据代码剖析简介 Pulsar-Flink-Connector是Flint消费者应用程序和Pulsar之间的桥梁。其提供了灵活且易于使用的API，使得Flint应用程序能够轻松连接和消费Pulsar消息流。本文将详细介绍如何使用Java语言的Pulsar-Flink-…

Java 2023年6月2日
000
编程10000问

“编程10000问”完整攻略欢迎来到“编程10000问”攻略页面。在这里，我们将为您提供使用“编程10000问”网站的详细说明。什么是“编程10000问”？ “编程10000问”是一个面向初、中级程序员的在线学习平台，旨在帮助程序员解决常见的编程问题和难点，提升编程技能。如何使用“编程10000问”？ 1. 注册和登录首先，你需要注册一个账号。点击首…

Java 2023年6月15日
000
spring设置拦截器代码实例

下面我将为你详细讲解”Spring设置拦截器代码实例”的完整攻略，包括以下内容：什么是拦截器 Spring中的拦截器设置Spring拦截器的步骤两个代码示例 1. 什么是拦截器拦截器（Interceptor）是一种AOP（面向切面编程）思想的应用，它是用来处理请求的，类似于Servlet中的过滤器（Filter）。拦截器可以在一个请求时的preHan…

Java 2023年5月19日
000
Spring配置动态数据源实现读写分离的方法

下面是Spring配置动态数据源实现读写分离的方法的完整攻略。什么是动态数据源？动态数据源是指可以在应用程序运行时动态地切换不同的数据源，以便满足应用程序的需求。在实际应用程序中，常见的用途是实现数据库读写分离，将读操作分配到只读数据库，将写操作分配到主数据库。实现步骤引入依赖在 pom.xml 中添加以下依赖： <dependency&gt…

Java 2023年5月20日
000
Java日常练习题,每天进步一点点(2)

下面我来详细讲解一下“Java日常练习题,每天进步一点点(2)”的完整攻略。 1. 确定练习题类型第一步，需要先确定练习题类型。根据题目要求和难度来确定需要练习什么类型的题目，比如说数据结构、算法、面向对象编程等。不同类型的题目需要掌握不同的知识点和解法，因此在选择练习题时需要慎重考虑。 2. 分析题目需求和边界条件第二步，需要详细分析题目要求和边界条件…

Java 2023年5月26日
000

合作推广

合作推广

返回顶部