Linux下远程连接Jupyter+pyspark部署教程

下面是“Linux下远程连接Jupyter+pyspark部署教程”的完整攻略：

1. 安装Java环境

在Linux系统上进行Jupyter和pyspark的部署，需要先安装Java环境。可以使用以下命令进行安装：

sudo apt-get update
sudo apt-get install default-jdk

2. 安装Python环境和Jupyter

使用以下命令安装Python和Jupyter：

sudo apt-get install python3
sudo apt-get install python3-pip
sudo pip install jupyter

3. 安装pyspark

使用以下命令安装pyspark：

sudo pip install pyspark

4. 配置环境变量

将Java和pyspark的安装路径添加到环境变量中，以便能够在Jupyter中使用它们。打开/etc/environment文件，添加以下两行：

JAVA_HOME="/usr/lib/jvm/default-java"
export JAVA_HOME

SPARK_HOME="/path/to/pyspark"
export SPARK_HOME

注意将上面的/path/to/pyspark替换为你实际的路径。

保存文件后，执行以下命令使配置生效：

source /etc/environment

5. 启动Jupyter

输入以下命令启动Jupyter：

jupyter notebook

然后访问http://服务器IP地址:8888即可看到Jupyter的界面。

6. 配置Jupyter连接pyspark

打开Jupyter，创建一个新的Notebook。输入以下Python代码，连接Spark：

import os
import sys

# 指定环境变量
os.environ["SPARK_HOME"] = "/path/to/pyspark"
os.environ["PYSPARK_PYTHON"] = "/usr/bin/python3"

try:
    from pyspark import SparkContext
    from pyspark.sql import SparkSession
except ImportError as e:
    print("Error importing PySpark modules", e)
    sys.exit(1)

# 新建一个Spark Session
spark = SparkSession.builder \
    .appName("test") \
    .master("local") \
    .getOrCreate()

将上面的/path/to/pyspark替换为你实际的路径。

保存代码后，你就可以使用Jupyter连接pyspark了。

示例1：使用pyspark进行数据清洗和分析

下面是一个示例代码，使用pyspark进行数据清洗和分析：

# 读取数据文件
df = spark.read.csv("path/to/file.csv", header=True)

# 数据清洗
df2 = df.dropna()
df3 = df2.filter(df2["age"] >= 18)

# 数据分析
from pyspark.sql.functions import mean, stddev, col
summary = df3.select(mean("age"), stddev("age")).first()
averageAge = summary[0]
stdDevAge = summary[1]
df4 = df3.withColumn("age_diff", col("age") - averageAge)

将上面的path/to/file.csv替换为你实际的数据文件路径。

示例2：使用pyspark进行机器学习

下面是一个示例代码，使用pyspark进行机器学习：

# 读取数据文件
df = spark.read.csv("path/to/file.csv", header=True)

# 特征工程
from pyspark.ml.feature import StringIndexer, VectorAssembler
genderIndexer = StringIndexer(inputCol="gender", outputCol="genderIndexed")
assembler = VectorAssembler(inputCols=["height", "weight", "genderIndexed"], outputCol="features")
data = assembler.transform(genderIndexer.fit(df).transform(df))

# 创建模型
from pyspark.ml.classification import LogisticRegression
lr = LogisticRegression(featuresCol="features", labelCol="label")
model = lr.fit(data)

# 使用模型进行预测
from pyspark.sql.functions import udf
from pyspark.sql.types import DoubleType
predictor = udf(lambda features: float(model.predict(features)), DoubleType())
predicted = data.withColumn("prediction", predictor(col("features")))