构建 Spark

构建 Apache Spark
运行测试
在仅支持 IPv6 的环境中构建和测试
使用用户定义的 protoc 进行构建

构建 Apache Spark

Apache Maven

基于 Maven 的构建是 Apache Spark 的参考构建方式。使用 Maven 构建 Spark 需要 Maven 3.9.9 和 Java 17/21。Spark 需要 Scala 2.13；对 Scala 2.12 的支持已在 Spark 4.0.0 中移除。

设置 Maven 的内存使用

你需要通过设置 MAVEN_OPTS 来配置 Maven 使用比平时更多的内存

export MAVEN_OPTS="-Xss64m -Xmx2g -XX:ReservedCodeCacheSize=1g"

（ReservedCodeCacheSize 设置是可选的，但建议设置。）如果你不将这些参数添加到 MAVEN_OPTS 中，你可能会看到如下错误和警告

[INFO] Compiling 203 Scala sources and 9 Java sources to /Users/me/Development/spark/core/target/scala-2.13/classes...
[ERROR] Java heap space -> [Help 1]

你可以通过如前所述设置 MAVEN_OPTS 变量来解决这些问题。

注意

如果使用 build/mvn 且未设置 MAVEN_OPTS，脚本将自动把上述选项添加到 MAVEN_OPTS 环境变量中。
Spark 构建的 test 阶段将自动把这些选项添加到 MAVEN_OPTS 中，即使不使用 build/mvn。

build/mvn

Spark 现在自带了一个独立的 Maven 安装，以方便从源代码构建和部署位于 build/ 目录下的 Spark。该脚本将自动在 build/ 目录下本地下载并设置所有必要的构建要求（Maven、Scala）。如果已存在任何 mvn 二进制文件，它将尊重其存在，但无论如何都会下载自己的 Scala 副本，以确保满足正确的版本要求。build/mvn 的执行充当了对 mvn 调用的透传，从而可以轻松地从以前的构建方法过渡。例如，可以按如下方式构建 Spark 版本

./build/mvn -DskipTests clean package

其他构建示例可在下面找到。

构建可运行分发版

要创建与 Spark 下载页面分发的类似，且可直接运行的 Spark 分发版，请在项目根目录中使用 ./dev/make-distribution.sh。它可以像直接的 Maven 构建一样通过 Maven 配置文件设置等进行配置。例如

./dev/make-distribution.sh --name custom-spark --pip --r --tgz -Psparkr -Phive -Phive-thriftserver -Pyarn -Pkubernetes

这将构建 Spark 分发版以及 Python pip 和 R 包。有关更多用法信息，请运行 ./dev/make-distribution.sh --help

指定 Hadoop 版本并启用 YARN

你可以通过 hadoop.version 属性启用 yarn 配置文件并指定要编译的 Hadoop 确切版本。

示例

./build/mvn -Pyarn -Dhadoop.version=3.4.1 -DskipTests clean package

构建带 Hive 和 JDBC 支持的版本

要为 Spark SQL 启用 Hive 集成及其 JDBC 服务器和 CLI，请将 -Phive 和 -Phive-thriftserver 配置文件添加到现有构建选项中。默认情况下，Spark 将使用 Hive 2.3.10 进行构建。

# With Hive 2.3.10 support
./build/mvn -Pyarn -Phive -Phive-thriftserver -DskipTests clean package

为 YARN 打包时不包含 Hadoop 依赖

默认情况下，mvn package 生成的 assembly 目录将包含 Spark 的所有依赖项，包括 Hadoop 及其一些生态系统项目。在 YARN 部署中，这会导致这些项目的多个版本出现在 executor 类路径上：Spark assembly 中打包的版本和每个节点上与 yarn.application.classpath 一起包含的版本。hadoop-provided 配置文件构建 assembly 时不包含 Hadoop 生态系统项目，例如 ZooKeeper 和 Hadoop 本身。

构建带 Kubernetes 支持的版本

./build/mvn -Pkubernetes -DskipTests clean package

单独构建子模块

可以使用 mvn -pl 选项构建 Spark 子模块。

例如，你可以使用以下命令构建 Spark Streaming 模块

./build/mvn -pl :spark-streaming_2.13 clean install

其中 spark-streaming_2.13 是 streaming/pom.xml 文件中定义的 artifactId。

构建带 JVM Profile 支持的版本

./build/mvn -Pjvm-profiler -DskipTests clean package

注意：jvm-profiler 配置文件构建 assembly 时不包含依赖项 ap-loader，你可以从 Maven 中央仓库手动下载它，并与 spark-profiler_2.13 一起使用。

持续编译

我们使用支持增量和持续编译的 scala-maven-plugin。例如

./build/mvn scala:cc

应该运行持续编译（即等待更改）。然而，这尚未经过广泛测试。有几点需要注意

它只扫描路径 src/main 和 src/test（参见文档），因此它只适用于具有该结构的某些子模块。
你通常需要从项目根目录运行 mvn install，以便在特定子模块中进行编译；这是因为依赖于其他子模块的子模块通过 spark-parent 模块进行依赖。

因此，运行 core 子模块持续编译的完整流程可能更像

$ ./build/mvn install
$ cd core
$ ../build/mvn scala:cc

使用 SBT 构建

Maven 是推荐用于打包 Spark 的官方构建工具，并且是参考构建方式。但 SBT 支持日常开发，因为它可以提供更快的迭代编译。更高级的开发者可能希望使用 SBT。

SBT 构建源自 Maven POM 文件，因此可以设置相同的 Maven 配置文件和变量来控制 SBT 构建。例如

./build/sbt package

为了避免每次需要重新编译时启动 SBT 的开销，你可以通过运行 build/sbt 以交互模式启动 SBT，然后在命令提示符下运行所有构建命令。

设置 SBT 的内存使用

在项目根目录下的 .jvmopts 中配置 SBT 的 JVM 选项，例如

-Xmx2g
-XX:ReservedCodeCacheSize=1g

关于这两个选项的含义，请仔细阅读设置 Maven 内存使用部分。

加速编译

经常编译 Spark 的开发者可能希望加快编译速度；例如，通过避免重新编译 assembly JAR（对于使用 SBT 构建的开发者而言）。有关如何执行此操作的更多信息，请参阅有用开发者工具页面。

加密文件系统

当在加密文件系统上构建时（例如，如果你的主目录已加密），Spark 构建可能会因“文件名过长”错误而失败。作为解决方法，请在项目 pom.xml 中 scala-maven-plugin 的配置参数中添加以下内容

<arg>-Xmax-classfile-name</arg>
<arg>128</arg>

并在 project/SparkBuild.scala 中添加

scalacOptions in Compile ++= Seq("-Xmax-classfile-name", "128"),

到 sharedSettings val 中。如果你不确定在哪里添加这些行，也可以参阅此 PR。

IntelliJ IDEA 或 Eclipse

有关设置 IntelliJ IDEA 或 Eclipse 进行 Spark 开发以及故障排除的帮助，请参阅有用开发者工具页面。

运行测试

测试默认通过 ScalaTest Maven 插件运行。请注意，测试不应以 root 或管理员用户身份运行。

以下是运行测试的命令示例

./build/mvn test

使用 SBT 测试

以下是运行测试的命令示例

./build/sbt test

运行单个测试

有关如何运行单个测试的信息，请参阅有用开发者工具页面。

可 pip 安装的 PySpark

如果你正在构建 Spark 以在 Python 环境中使用并希望通过 pip 进行安装，你需要首先按照上述说明构建 Spark JAR。然后，你可以构建一个适合 setup.py 和可 pip 安装的 sdist 包。

cd python; python packaging/classic/setup.py sdist

注意：由于打包要求，你不能直接从 Python 目录进行 pip 安装，而必须首先按照上述说明构建 sdist 包。

或者，你也可以使用 --pip 选项运行 make-distribution.sh。

使用 Maven 或 SBT 进行 PySpark 测试

如果你正在构建 PySpark 并希望运行 PySpark 测试，你需要构建支持 Hive 的 Spark。

./build/mvn -DskipTests clean package -Phive
./python/run-tests

如果你正在使用 SBT 构建 PySpark 并希望运行 PySpark 测试，你需要构建支持 Hive 的 Spark，并且还要构建测试组件。

./build/sbt -Phive clean package
./build/sbt test:compile
./python/run-tests

run-tests 脚本也可以限制为特定的 Python 版本或特定的模块

./python/run-tests --python-executables=python --modules=pyspark-sql

运行 R 测试（已弃用）

要运行 SparkR 测试，你需要首先安装 knitr、rmarkdown、testthat、e1071 和 survival 包。

Rscript -e "install.packages(c('knitr', 'rmarkdown', 'devtools', 'testthat', 'e1071', 'survival'), repos='https://cloud.r-project.org/')"

你可以使用以下命令仅运行 SparkR 测试

./R/run-tests.sh

运行基于 Docker 的集成测试套件

为了运行 Docker 集成测试，你必须在你的机器上安装 docker 引擎。安装说明可以在Docker 网站上找到。安装后，如果 docker 服务尚未运行，则需要启动它。在 Linux 上，这可以通过 sudo service docker start 来完成。

./build/mvn install -DskipTests
./build/mvn test -Pdocker-integration-tests -pl :spark-docker-integration-tests_2.13

或

./build/sbt docker-integration-tests/test

在仅支持 IPv6 的环境中构建和测试

使用 Apache Spark GitBox URL，因为 GitHub 尚不支持 IPv6。

https://gitbox.apache.org/repos/asf/spark.git

要在仅支持 IPv6 的环境中构建和运行测试，需要以下配置。

export SPARK_LOCAL_HOSTNAME="your-IPv6-address" # e.g. '[2600:1700:232e:3de0:...]'
export DEFAULT_ARTIFACT_REPOSITORY=https://ipv6.repo1.maven.org/maven2/
export MAVEN_OPTS="-Djava.net.preferIPv6Addresses=true"
export SBT_OPTS="-Djava.net.preferIPv6Addresses=true"
export SERIAL_SBT_TESTS=1

使用用户定义的 `protoc` 进行构建

当用户无法在编译环境中使用官方的 protoc 二进制文件来构建 core 模块时，例如在 CentOS 6 或 CentOS 7 上编译 core 模块，这些系统的默认 glibc 版本低于 2.14，我们可以尝试通过指定用户定义的 protoc 二进制文件进行编译和测试，如下所示

export SPARK_PROTOC_EXEC_PATH=/path-to-protoc-exe
./build/mvn -Puser-defined-protoc -DskipDefaultProtoc clean package

或

export SPARK_PROTOC_EXEC_PATH=/path-to-protoc-exe
./build/sbt -Puser-defined-protoc clean package

用户定义的 protoc 二进制文件可以在用户的编译环境中通过源代码编译生成，有关编译步骤，请参阅 protobuf。