快速入门:Spark Connect¶
Spark Connect 为 Spark 引入了解耦的客户端-服务器架构,该架构允许使用 DataFrame API 远程连接到 Spark 集群。
本笔记本将逐步展示如何使用 Spark Connect 构建任何需要利用 Spark 强大功能来处理数据的应用程序。
Spark Connect 包括客户端和服务器组件,我们将向您展示如何设置和使用这两个组件。
使用 Spark Connect 启动 Spark 服务器¶
要启动支持 Spark Connect 会话的 Spark,请运行 start-connect-server.sh
脚本。
[1]:
%%bash
source ~/.profile # Make sure environment variables are loaded.
$HOME/sbin/start-connect-server.sh --packages org.apache.spark:spark-connect_2.12:$SPARK_VERSION
连接到 Spark Connect 服务器¶
现在 Spark 服务器正在运行,我们可以使用 Spark Connect 远程连接到它。 我们通过在客户端(应用程序运行的地方)上创建远程 Spark 会话来实现这一点。 在此之前,我们需要确保停止现有的常规 Spark 会话,因为它不能与我们即将创建的远程 Spark Connect 会话共存。
[2]:
from pyspark.sql import SparkSession
SparkSession.builder.master("local[*]").getOrCreate().stop()
我们上面用来启动服务器的命令将 Spark 配置为以 localhost:15002
运行。 所以现在我们可以使用以下命令在客户端上创建远程 Spark 会话。
[3]:
spark = SparkSession.builder.remote("sc://localhost:15002").getOrCreate()
创建 DataFrame¶
成功创建远程 Spark 会话后,它可以像常规 Spark 会话一样使用。 因此,您可以使用以下命令创建 DataFrame。
[4]:
from datetime import datetime, date
from pyspark.sql import Row
df = spark.createDataFrame([
Row(a=1, b=2., c='string1', d=date(2000, 1, 1), e=datetime(2000, 1, 1, 12, 0)),
Row(a=2, b=3., c='string2', d=date(2000, 2, 1), e=datetime(2000, 1, 2, 12, 0)),
Row(a=4, b=5., c='string3', d=date(2000, 3, 1), e=datetime(2000, 1, 3, 12, 0))
])
df.show()
+---+---+-------+----------+-------------------+
| a| b| c| d| e|
+---+---+-------+----------+-------------------+
| 1|2.0|string1|2000-01-01|2000-01-01 12:00:00|
| 2|3.0|string2|2000-02-01|2000-01-02 12:00:00|
| 4|5.0|string3|2000-03-01|2000-01-03 12:00:00|
+---+---+-------+----------+-------------------+
有关 DataFrame API 的更多详细用法,请参见 快速入门页面 上的 “Live Notebook: DataFrame”。