Spark在Windows下的环境搭建方法
1. 安装Java
安装Spark之前需要先安装Java环境,可以在官网上下载并安装最新版的Java。安装完成后,在命令行中输入以下命令,检查是否安装成功:
java -version
2. 安装Hadoop
Spark需要依赖Hadoop,因此需要先安装Hadoop。可以在官网上下载最新版的Hadoop二进制文件,解压后将文件夹移动到合适的位置,如C:\hadoop\
,并在环境变量中添加HADOOP_HOME和PATH。添加完成后,在命令行输入以下命令,检查是否安装成功:
hadoop version
3. 下载Spark
在官网上下载最新版的Spark二进制文件,解压后将文件夹移动到合适的位置,如C:\spark\
。
4. 配置环境变量
在环境变量中添加SPARK_HOME和PATH,将SPARK_HOME设为Spark解压后文件夹所在的路径,如C:\spark\
。添加完成后,在命令行输入以下命令,检查是否安装成功:
spark-shell
5. 配置Spark和Hadoop的连接
在Spark解压后文件夹中找到conf
文件夹,将其中的spark-env.sh.template
复制一份并改名为spark-env.sh
,打开文件并添加以下配置:
export HADOOP_HOME=C:\hadoop
export SPARK_DIST_CLASSPATH=%HADOOP_HOME%\bin\winutils.exe
示例一:从文件中读取数据
在命令行中进入Spark解压后文件夹中的bin
文件夹,运行以下命令启动Spark:
spark-shell
在Spark的交互式环境中输入以下代码:
val data = sc.textFile("file:///C:/data.txt")
data.count()
其中file:///C:/data.txt
是要读取的文件路径。执行代码后,会输出文件中行数的统计结果。
示例二:使用Spark SQL查询数据
在Spark的交互式环境中输入以下代码:
import org.apache.spark.sql.SparkSession
val spark = SparkSession.builder().appName("example").master("local[*]").getOrCreate()
val df = spark.read.json("file:///C:/data.json")
df.createOrReplaceTempView("people")
val result = spark.sql("SELECT * FROM people WHERE age >= 18")
result.show()
其中file:///C:/data.json
是要读取的文件路径。执行代码后,会查询出年龄大于等于18岁的所有人的信息,并显示查询结果。
注意:要运行Spark SQL,需要在Spark的配置文件conf
文件夹中找到spark-defaults.conf
文件,并添加以下配置:
spark.sql.warehouse.dir=file:///C:/spark-warehouse
本站文章如无特殊说明,均为本站原创,如若转载,请注明出处:Spark在Windows下的环境搭建方法 - Python技术站