设置 IDE

PyCharm

本节介绍如何在 PyCharm 上设置 PySpark。它一步一步地指导您从 GitHub 下载源代码并成功运行测试代码的过程。

首先,使用 git url 从 GitHub 下载 Spark 源代码。您可以通过简单地使用 git clone 命令来下载源代码,如下所示。如果您想从任何派生的存储库而不是 Spark 原始存储库下载代码,请正确更改 url。

git clone https://github.com/apache/spark.git

下载完成后,进入 spark 目录并构建软件包。 SBT 构建通常比 Maven 快得多。有关构建的更多详细信息,请参见 此处 的文档。

build/sbt package

构建完成后,运行 PyCharm 并选择路径 spark/python

Select the Spark path

让我们转到 PyCharm 中的 python/pyspark/tests 路径,并尝试运行任何测试,例如 test_join.py。您可能会看到 KeyError: 'SPARK_HOME',因为环境变量尚未设置。

转到 运行 -> 编辑配置 ,并设置环境变量,如下所示。请务必为 SPARK_HOME 指定您自己的路径,而不是 /.../spark。完成变量后,单击“确定”以应用更改。

Setting up SPARK_HOME

正确设置 SPARK_HOME 后,您将能够正确运行测试,如下所示

Running tests properly