【问题标题】:Versions of Python & Spark to work with VS Code Notebooks与 VSCode Notebooks 配合使用的 Python 和 Spark 版本
【发布时间】:2023-04-04 17:59:02
【问题描述】:

我正在为 AWS Glue 开发脚本,并尝试尽可能接近他们的规范 here 模拟开发环境。由于运行 Notebook 服务器/开发端点的成本有点高,因此我将所有内容都设置在本地机器上,并在 VS Code Notebook 上开发脚本,因为它很有用。

由于安装的 Python 和 Spark 之间的版本不兼容,Notebook 设置存在一些问题。

  • 对于Python,我经历了一段艰难的时间来清理,现在它的版本是3.8.3
  • 对于 Spark,我在 2.4.3 版本中使用手动方法,因为我计划稍后同时使用 Scala。我安装了findspark 包以按预期加载该版本。

而且它不起作用!错误是TypeError: an integer is required (got type bytes)

我四处搜索,有人说要使用pyenv 降级到 Python 3.7,我安装了 3.7.7 但仍然有同样的错误

作为最后的手段,我尝试了pip install pyspark。它是 Spark 3.0.0,工作正常,但不如预期。

希望有人有这方面的经验

【问题讨论】:

    标签:
    amazon-web-services
    apache-spark
    pyspark
    aws-glue