下载

从项目网站的下载页面获取 Spark。本文档适用于 Spark 3.5.5 版本。 Spark 使用 Hadoop 的客户端库来处理 HDFS 和 YARN。下载包是为一些流行的 Hadoop 版本预先打包的。用户也可以下载“Hadoop free”二进制文件，并通过增强 Spark 的 classpath，使用任何 Hadoop 版本运行 Spark。 Scala 和 Java 用户可以使用 Maven 坐标将其包含在项目中，Python 用户可以从 PyPI 安装 Spark。

如果您想从源代码构建 Spark，请访问构建 Spark。

Spark 可以在 Windows 和类 UNIX 系统（例如 Linux、Mac OS）上运行，并且应该可以在运行受支持的 Java 版本的任何平台上运行。这应包括 x86_64 和 ARM64 上的 JVM。在单台机器上本地运行很容易 — 您只需要在您的系统 PATH 中安装 java，或者将 JAVA_HOME 环境变量指向 Java 安装目录。

Spark 在 Java 8/11/17、Scala 2.12/2.13、Python 3.8+ 和 R 3.5+ 上运行。自 Spark 3.5.0 起，已弃用低于 8u371 版本的 Java 8 支持。使用 Scala API 时，应用程序必须使用与 Spark 编译时使用的相同版本的 Scala。例如，当使用 Scala 2.13 时，请使用为 2.13 编译的 Spark，并为 Scala 2.13 编译代码/应用程序。

对于 Java 11，需要设置 -Dio.netty.tryReflectionSetAccessible=true 用于 Apache Arrow 库。这可以防止当 Apache Arrow 在内部使用 Netty 时出现 java.lang.UnsupportedOperationException: sun.misc.Unsafe or java.nio.DirectByteBuffer.(long, int) not available 错误。

运行示例和 Shell

Spark 附带了几个示例程序。 Python、Scala、Java 和 R 示例位于 examples/src/main 目录中。

要在 Python 解释器中以交互方式运行 Spark，请使用 bin/pyspark

./bin/pyspark --master "local[2]"

Python 中提供了示例应用程序。例如

./bin/spark-submit examples/src/main/python/pi.py 10

要运行 Scala 或 Java 示例程序之一，请在顶层 Spark 目录中使用 bin/run-example <class> [params]。（在后台，这会调用更通用的 spark-submit 脚本来启动应用程序）。例如，

./bin/run-example SparkPi 10

您还可以通过 Scala shell 的修改版本以交互方式运行 Spark。这是学习框架的好方法。

./bin/spark-shell --master "local[2]"

--master 选项指定分布式集群的主 URL，或 local 以使用一个线程在本地运行，或 local[N] 以使用 N 个线程在本地运行。您应该首先使用 local 进行测试。有关选项的完整列表，请使用 --help 选项运行 Spark shell。

自 1.4 版本以来，Spark 提供了 R API（仅包含 DataFrame API）。要在 R 解释器中以交互方式运行 Spark，请使用 bin/sparkR

./bin/sparkR --master "local[2]"

R 中也提供了示例应用程序。例如

./bin/spark-submit examples/src/main/r/dataframe.R

使用 Spark Connect 在任何地方运行 Spark 客户端应用程序

Spark Connect 是 Spark 3.4 中引入的一种新的客户端-服务器架构，它解耦了 Spark 客户端应用程序并允许远程连接到 Spark 集群。客户端和服务器之间的分离允许从任何地方利用 Spark 及其开放的生态系统，并嵌入到任何应用程序中。在 Spark 3.4 中，Spark Connect 为 PySpark 提供 DataFrame API 覆盖，并在 Scala 中提供 DataFrame/Dataset API 支持。

要了解有关 Spark Connect 及其使用方法的更多信息，请参阅 Spark Connect 概述。

在集群上启动

Spark 集群模式概述解释了在集群上运行的关键概念。 Spark 可以独立运行，也可以在多个现有集群管理器上运行。目前，它提供了以下几种部署选项

Standalone 部署模式：在私有集群上部署 Spark 的最简单方法
Apache Mesos (已弃用)
Hadoop YARN
Kubernetes

下一步去哪里

编程指南

快速入门：Spark API 的快速介绍；从这里开始！
RDD 编程指南：Spark 基础知识概述 - RDD（核心但旧的 API）、累加器和广播变量
Spark SQL、Datasets 和 DataFrames：使用关系查询处理结构化数据（比 RDD 更新的 API）
结构化流处理：使用关系查询处理结构化数据流（使用 Datasets 和 DataFrames，比 DStreams 更新的 API）
Spark Streaming：使用 DStreams 处理数据流（旧的 API）
MLlib：应用机器学习算法
GraphX：处理图
SparkR：在 R 中使用 Spark 处理数据
PySpark：在 Python 中使用 Spark 处理数据
Spark SQL CLI：使用命令行上的 SQL 处理数据

API 文档

部署指南

集群概述：在集群上运行时，概念和组件的概述
提交应用程序：打包和部署应用程序
部署模式
- Amazon EC2：允许您在大约 5 分钟内在 EC2 上启动集群的脚本
- Standalone 部署模式：快速启动独立的集群，无需第三方集群管理器
- Mesos：使用 Apache Mesos 部署私有集群
- YARN：在 Hadoop NextGen (YARN) 之上部署 Spark
- Kubernetes：在 Kubernetes 之上部署 Spark

其他文档

配置：通过其配置系统自定义 Spark
监控：跟踪应用程序的行为
调优指南：优化性能和内存使用的最佳实践
作业调度：在 Spark 应用程序之间和内部调度资源
安全：Spark 安全支持
硬件配置：集群硬件建议
与其他存储系统集成
- 云基础设施
- OpenStack Swift
迁移指南：Spark 组件的迁移指南
构建 Spark：使用 Maven 系统构建 Spark
参与 Spark 贡献
第三方项目：相关的第三方 Spark 项目

外部资源

Spark 主页
Spark 社区资源，包括本地聚会
StackOverflow 标签 apache-spark
邮件列表：在此处询问有关 Spark 的问题
AMP Camps：UC Berkeley 的一系列培训营，其中包含关于 Spark、Spark Streaming、Mesos 等的讲座和练习。视频，可在线免费获得。
代码示例：更多示例也可在 Spark 的 examples 子文件夹中找到（Scala，Java，Python，R）

Apache Spark - 大规模数据分析的统一引擎

下载

运行示例和 Shell

使用 Spark Connect 在任何地方运行 Spark 客户端应用程序

在集群上启动

下一步去哪里