设置 IDE#

PyCharm#

本节介绍如何在 PyCharm 上设置 PySpark。它逐步指导从 GitHub 下载源代码并成功运行测试代码的过程。

首先,使用 git URL 从 GitHub 下载 Spark 源代码。您可以使用如下所示的 git clone 命令简单地下载源代码。如果您想从任何 Fork 的仓库而非 Spark 原始仓库下载代码,请适当更改 URL。

git clone https://github.com/apache/spark.git

下载完成后,进入 spark 目录并构建包。SBT 构建通常比 Maven 快得多。有关构建的更多详细信息已在此处 此处记录。

build/sbt package

构建完成后,运行 PyCharm 并选择路径 spark/python

Select the Spark path

让我们在 PyCharm 中转到路径 python/pyspark/tests 并尝试运行任何测试,例如 test_join.py。您可能会看到 KeyError: 'SPARK_HOME',因为环境变量尚未设置。

前往 **运行 -> 编辑配置**,并按如下所示设置环境变量。请务必为 SPARK_HOME 指定您自己的路径,而不是 /.../spark。完成变量设置后,点击 **确定** 以应用更改。

Setting up SPARK_HOME

一旦 SPARK_HOME 设置正确,您将能够如下所示正常运行测试

Running tests properly