Spark 3.2.0 发布

Apache Spark 3.2.0 是 3.x 系列的第三个版本。在开源社区的巨大贡献下，此版本解决了超过 1,700 个 Jira 问题。

在此版本中，Spark 支持 Spark 上的 Pandas API 层。Pandas 用户可以通过一行代码更改在 Spark 上扩展其应用程序。其他主要更新包括 RocksDB StateStore 支持、会话窗口支持、基于推送的 Shuffle 支持、ANSI SQL INTERVAL 类型、默认启用自适应查询执行 (AQE) 和 ANSI SQL 模式通用可用性 (GA)。

要下载 Apache Spark 3.2.0，请访问下载页面。您可以查阅 JIRA 获取详细更改。我们在这里整理了一份高级别更改列表，按主要模块分组。

亮点
核心和 Spark SQL
结构化流
PySpark
MLlib
SparkR
GraphX
弃用和移除
已知问题
致谢

亮点

支持 PySpark 上的 Pandas API 层 (SPARK-34849)
默认启用自适应查询执行 (SPARK-33679)
支持基于推送的 Shuffle 以提高 Shuffle 效率 (SPARK-30602)
添加 RocksDB StateStore 实现 (SPARK-34198)
基于事件时间的会话化（会话窗口） (SPARK-10816)
ANSI SQL 模式通用可用性 (GA) (SPARK-35030)
支持 ANSI SQL INTERVAL 类型 (SPARK-27790)
降低查询编译延迟 (SPARK-35042, SPARK-35103, SPARK-34989)
支持 Scala 2.13 (SPARK-34218)

核心和 Spark SQL

ANSI SQL 兼容性增强

支持 ANSI SQL INTERVAL 类型 (SPARK-27790)
ANSI 模式下新的类型强制转换语法规则 (SPARK-34246)
支持 LATERAL 子查询 (SPARK-34382)
ANSI 模式：IntegralDivide 在溢出时抛出异常 (SPARK-35152)
ANSI 模式：检查 Average 中的溢出 (SPARK-35955)
禁止 count(table.*) 以遵循 ANSI 标准和其他 SQL 引擎 (SPARK-34199)
支持 (IGNORE RESPECT) NULLS 用于 LEAD/LAG/NTH_VALUE/FIRST_VALUE/LAST_VALUE (SPARK-30789)

性能

查询编译延迟
- 支持在 transform/resolve 函数及其调用站点进行遍历剪枝 (SPARK-35042)
- 改进 mapChildren 和 withNewChildren 方法的性能 (SPARK-34989)
- 改进类型强制转换规则的性能 (SPARK-35103)
查询优化
- 移除优化器中的冗余聚合 (SPARK-33122)
- 通过 Project 与 Join 下推 Limit (SPARK-34622)
- 为 LEFT SEMI 和 LEFT ANTI 连接下推 Limit (SPARK-36404, SPARK-34514)
- 当分区规范为空时通过 WINDOW 下推 Limit (SPARK-34575)
- 在 CBO 中使用相对成本比较函数 (SPARK-34922)
- Union、Sort 和 Range 运算符的基数估计 (SPARK-33411)
- 仅当连接可规划为广播连接时，才将 LeftSemi/LeftAnti 下推到 Aggregate 上 (SPARK-34081)
- UnwrapCastInBinaryComparison 支持 In/InSet 谓词 (SPARK-35316)
- 子表达式消除增强 (SPARK-35448)
- 分区剪枝后保留必要的统计信息 (SPARK-34119)
- 解耦分桶过滤器剪枝和分桶表扫描 (SPARK-32985)
查询执行
- 自适应查询执行
  - 默认启用自适应查询执行 (SPARK-33679)
  - 当连接在开始时是广播哈希连接或没有重用广播交换时，在 AQE 中支持动态分区剪枝 (DPP) (SPARK-34168, SPARK-35710)
  - 在合并 Shuffle 分区之前优化倾斜连接 (SPARK-35447)
  - 支持使用规则的 AQE 侧 Shuffle 哈希连接公式 (SPARK-35282)
  - 支持 AQE 侧广播哈希连接阈值 (SPARK-35264)
  - 允许为 AQE 成本评估器使用自定义插件 (SPARK-35794)
- 默认启用 Zstandard 缓冲区池 (SPARK-34340, SPARK-34390)
- 为排序合并连接的所有连接类型添加代码生成 (SPARK-34705)
- 全计划交换和子查询重用 (SPARK-29375)
- 改进广播嵌套循环连接 (SPARK-34706)
- 允许并发写入动态分区和分桶表 (SPARK-26164)
- 改进 Spark Thrift server 中处理 FETCH_PRIOR 的性能 (SPARK-33655)

连接器增强

Parquet
- 将 Apache Parquet 升级到 1.12.1 版本 (SPARK-36726)
- 在 Parquet 向量化读取器中支持列索引 (SPARK-34289)
- 添加新的 Parquet 数据源选项以控制读取中的日期时间重基 (SPARK-34377)
- 读取存储为 Parquet 中 int32 物理类型的 Parquet 无符号类型 (SPARK-34817)
- 读取存储为有符号 int64 物理类型的 Parquet 无符号 int64 逻辑类型到 decimal(20, 0) (SPARK-34786)
- 使用向量化 Parquet 读取器时处理列索引 (SPARK-34859)
- 改进 Parquet In 过滤器下推 (SPARK-32792)
ORC
- 将 Apache ORC 升级到 1.6.11 版本 (SPARK-36482)
- 支持 Apache ORC 强制位置演进 (SPARK-32864)
- 在 ORC 向量化读取器中支持嵌套列 (SPARK-34862)
- 在 ORC 数据源中支持 ZSTD、LZ4 压缩 (SPARK-33978, SPARK-35612)
- 在任务配置中设置读取列列表以减少 ORC 数据读取 (SPARK-35783)
Avro
- 将 Apache Avro 升级到 1.10.2 版本 (SPARK-34778)
- 支持带有“avro.schema.literal”的分区 Hive 表的 Avro 模式演进 (SPARK-26836)
- 添加新的 Avro 数据源选项以控制读取中的日期时间重基 (SPARK-34404)
- 在 Avro 中添加对用户提供的模式 URL 的支持 (SPARK-34416)
- 添加对位置性 Catalyst-to-Avro 模式匹配的支持 (SPARK-34365)
JSON
- 将 Jackson 升级到 2.12.3 版本 (SPARK-35550)
- 允许 JSON 数据源将非 ASCII 字符写入为代码点 (SPARK-35047)
CSV
- 将 univocity-parsers 升级到 2.9.1 (SPARK-33940)
JDBC
- 将 JDBC SQL TIME 类型映射到 TimestampType，时间部分固定，不考虑时区 (SPARK-34357)
- 在 JDBCRelation 中计算更精确的分区步幅 (SPARK-34843)
- 在 JDBC 数据源中支持 refreshKrb5Config 选项 (SPARK-35226)
Hive Metastore 支持按 NOT IN 过滤 (SPARK-34538)

Kubernetes 增强

将 Kubernetes 客户端升级到 5.4.1 (SPARK-35660)
支持 spark.kubernetes.executor.disableConfigMap (SPARK-34316)
支持远程模板文件 (SPARK-34783)
引入对挂起 POD 的限制 (SPARK-36052)
支持在重用 PVC 上恢复 Shuffle 数据 (SPARK-35593)
支持应用程序终止时提前清理驱动服务 (SPARK-35131)
添加驱动器就绪超时配置，在执行器启动之前生效 (SPARK-32975)
支持驱动程序拥有的按需 PVC (SPARK-35182)
最大退役时间与允许排除项退役 (SPARK-34104)
仅支持使用令牌提交到 k8s (SPARK-33720)
为自定义功能步骤添加开发者 API (SPARK-33261)

数据源 V2 API

聚合下推 API (SPARK-34952)
FunctionCatalog API (SPARK-27658)
DataSourceV2 Function Catalog 实现 (SPARK-35260)
添加 API 以在写入时请求分布和排序 (SPARK-33779)
添加接口以传递写入所需的排序和聚类 (SPARK-23889)
支持来自数据源 v2 扫描的指标 (SPARK-34338)
支持写入路径上的指标 (SPARK-36030)
支持在写入时按所需的分布和排序进行静态数量分区 (SPARK-34255)
支持动态过滤 (SPARK-35779)
支持 LocalScan (SPARK-35535)
MERGE … UPDATE/INSERT * 应该按名称解析 (SPARK-34720)

功能增强

子查询改进
- 改进关联子查询 (SPARK-35553)
- 允许非聚合单行关联标量子查询 (SPARK-28379)
- 当子查询被聚合时，只允许关联相等谓词的一个子集 (SPARK-35080)
- 使用外部查询计划解析子查询中的星表达式 (SPARK-35618)
新的内置函数
- current_user (SPARK-21957)
- product (SPARK-33678)
- regexp_like, regexp (SPARK-33597, SPARK-34376)
- try_cast (SPARK-34881)
- try_add (SPARK-35162)
- try_divide (SPARK-35162)
- bit_get (SPARK-33245)
默认使用 Apache Hadoop 3.3.1 (SPARK-29250)
公开用户定义类型 (UDT) API (SPARK-7768)
为 Shuffle 块添加校验和 (SPARK-35275)
默认启用 spark.storage.replication.proactive (SPARK-33870)
添加表函数注册表 (SPARK-34678)
支持在停止 SparkContext 期间进行回退存储清理 (SPARK-34142)
支持 Scala Dataset API 中的 Java 枚举 (SPARK-23862)
带有 Ivy 坐标的 ADD JAR 应与 Hive 传递行为兼容 (SPARK-34506)
支持 ADD ARCHIVE 和 LIST ARCHIVES 命令 (SPARK-34603)
支持 ADD FILE/JAR/ARCHIVE 命令的多个路径 (SPARK-35105)
支持将归档文件作为 CREATE FUNCTION USING 语法的资源 (SPARK-35236)
从 ServiceLoader 加载 SparkSessionExtensions (SPARK-35380)
将 sentences 函数添加到 functions.{scala,py} (SPARK-35418)
扩展 decode 函数以与主流数据库保持一致 (SPARK-33527)
将 spark.sql.hive.metastorePartitionPruning 应用于使用 Hive metastore 进行分区管理的非 Hive 表 (SPARK-36128)
支持创建带有空列的表 (SPARK-36241)
避免内联非确定性 With-CTEs (SPARK-36447)
支持分析特定数据库中的所有表 (SPARK-33687)
标准化 Spark 中的异常消息 (SPARK-33539)

其他值得注意的更改

监控
- 为 ExternalShuffleService 添加新指标 (SPARK-35258)
- 添加新的阶段级 REST API 和参数 (SPARK-26399)
- 在 REST API 中支持任务和执行器指标分布 (SPARK-34488)
- 为哈希聚合添加回退指标 (SPARK-35529, SPARK-34237)
- 将执行器丢失原因传播到 Web UI (SPARK-34764)
将 count_distinct 添加为 Dataset#summary 的一个选项 (SPARK-34165)
为 SQL 异常引入 SQLSTATE 和 ERRORCODE (SPARK-34920)
在 sql/core 中实现 ScriptTransform (SPARK-31936)
刷新 v1 表时保持依赖项缓存 (SPARK-34138)
使 BlockManagerMaster 驱动器心跳超时可配置 (SPARK-34278)
由 spark.buffer.size 设置的 io.file.buffer.size 会因意外加载 hive-site.xml 而被覆盖，可能导致性能下降 (SPARK-34346)
支持远程调度器池文件 (SPARK-35083)
使 Shuffle 服务名称可在客户端配置，并允许在服务器端进行基于类路径的配置覆盖 (SPARK-34828)
ExecutorMetricsPoller 应将阶段条目保留在 stageTCMP 中直到发生心跳 (SPARK-34779)
在 RewriteDistinctAggregates 中将 if 替换为 filter 子句 (SPARK-34882)
CREATE TABLE LIKE 应遵守保留的表属性 (SPARK-34935)
修复从结构体数组中提取不区分大小写的结构体字段的嵌套列剪枝问题 (SPARK-34963)
在 YARN 集群模式下将 ivySettings 文件发送到驱动器 (SPARK-34472)
解决 USING/NATURAL JOIN 中的重复公共列问题 (SPARK-34527)
Invoke 应查找具有正确参数数量的方法 (SPARK-35278)
不要优化掉不带聚合函数的聚合表达式中的分组表达式 (SPARK-34581)
支持解析 distribute/cluster by/repartition 提示中缺失的属性 (SPARK-35331)
通过推断缺失配置来改进 s3a magic committer 支持 (SPARK-35383)
避免因目标目录不存在导致的文件重命名失败 (SPARK-35106)
BlockManagerMasterEndpoint 在更新时不得忽略仅索引的 Shuffle 文件 (SPARK-35589)
隐去 Set 命令结果中的敏感信息 (SPARK-35576)
更新状态模式以接受长 JSON 长度 (SPARK-35602)
考虑使 STRUCT 数据类型定义中的“:”可选 (SPARK-35706)
视图不应捕获 RelationConversions 中使用的配置 (SPARK-35792)
对于带有 null 填充的 unionByName，附加新的嵌套结构字段而不是排序 (SPARK-35290)
使用 Void 作为 NullType 的类型名称 (SPARK-36224)

结构化流

主要功能

添加 RocksDB StateStore 实现 (SPARK-34198)
基于事件时间的会话化（会话窗口） (SPARK-10816)
将 Kafka 客户端升级到 2.8.0 (SPARK-33913)

其他值得注意的更改

在结构化流中支持 flatMapGroupsWithState 的用户定义初始状态 (SPARK-35896)
在批处理模式下支持 flatMapGroupsWithState 的初始状态 (SPARK-36132)
在 Kafka 数据源中引入起始偏移量时间戳的偏移量不匹配策略 (SPARK-35611)
在 Kafka 源中引入一个新选项以指定每次触发读取的最小记录数 (SPARK-35312)
在 StreamingQueryProgress 中包含有状态操作符的更细粒度指标 (SPARK-35896)
通过进度报告公开源指标并添加 Kafka 用例以报告延迟 (SPARK-34854)
添加忽略 FileStreamSink 元数据目录的配置 (SPARK-35565)
将最新偏移量添加到源进度 (SPARK-33955)

PySpark

Project Zen

Spark 上的 Pandas API (SPARK-34849)
- 为 Spark 上的 pandas 启用 mypy (SPARK-34941)
- 实现 CategoricalDtype 支持 (SPARK-35997, SPARK-36185)
- 完成 Series 和 Index 的基本操作 (SPARK-36103, SPARK-36104, SPARK-36192)
- 与 pandas 1.3 的行为保持一致 (SPARK-36367)
- 使带有 NaN 的 Series 行为与 pandas 保持一致 (SPARK-36031, SPARK-36310)
- 实现整型 Series 和 Index 的一元运算符 ‘invert’ (SPARK-36003)
- 实现 CategoricalIndex.map 和 DatetimeIndex.map (SPARK-36470)
- 实现 Index.map (SPARK-36469)
为 Python worker 崩溃添加 faulthandler 支持 (SPARK-36062)
在所有函数 API 中使用 Snake 命名规则 (SPARK-34306)
默认启用 spark.sql.execution.pyspark.udf.simplifiedTraceback.enabled (SPARK-35419)
创建 DataFrame 时支持将嵌套字典推断为结构体 (SPARK-35929)

其他值得注意的更改

默认启用固定线程模式 (SPARK-35303)
为 Arrow 执行添加 NullType 支持 (SPARK-33489)
将 Arrow self_destruct 支持添加到 toPandas (SPARK-32953)
为 PySpark 固定线程模式添加线程目标包装器 API (SPARK-35498)

MLlib

性能改进

BucketedRandomProjectionLSH 转换优化 (SPARK-34220)
w2v findSynonyms 优化 (SPARK-34189)
通过跳过边界检查优化稀疏 GEMM (SPARK-35707)
通过 GEMV 改进 ML ALS recommendForAll 的性能 (SPARK-33518)

模型训练改进

重构 Logistic Aggregator - 支持虚拟居中 (SPARK-34797)
支持截距居中的二元逻辑回归 (SPARK-34858, SPARK-34448)
支持截距居中的多项式逻辑回归 (SPARK-34860)

BLAS 改进

将 com.github.fommil.netlib 完全替换为 dev.ludovic.netlib:2.0 (SPARK-35295)
添加向量化 BLAS 实现 (SPARK-33882)
使用 dev.ludovic.netlib 加速回退 BLAS (SPARK-35150)

其他值得注意的更改

OVR 转换修复潜在的列冲突 (SPARK-34356)

编程指南：机器学习库 (MLlib) 指南。

SparkR

使用 keyserver.ubuntu.com 作为 CRAN 的密钥服务器 (SPARK-35885)

编程指南：SparkR (Spark 上的 R)。

GraphX

允许关闭静态 PageRank 工具应用的归一化 (SPARK-35357)

编程指南：GraphX 编程指南。

弃用和移除

弃用 spark.launcher.childConectionTimeout (SPARK-33717)
弃用 GROUP BY … GROUPING SETS (…) 并推广 GROUP BY GROUPING SETS (…) (SPARK-34932)
在 Spark 文档中弃用 Python 3.6 (SPARK-35939)
弃用 ps.broadcast API (SPARK-35810)
弃用 num_files 参数 (SPARK-35807)
弃用 DataFrame.to_spark_io (SPARK-35811)

已知问题

支持通过 I/O 加密批量获取 Shuffle 块 (SPARK-34827)
无法加载用于序列文件 I/O 的 Snappy 编解码器 (SPARK-36681)
如果表使用大写模式创建，则无法插入 Hive 分桶表 (SPARK-35531)
在 Spark 中读取没有显式列名的 Hive 视图会失败 (SPARK-36905)
由于固定线程模式，作业取消导致 Jupyter 上出现 py4j 错误 (SPARK-37004)
驱动器在 UI 中错误地将已移除的执行器报告为活跃状态 (SPARK-35011)

致谢

最后但同样重要的是，如果没有以下贡献者，此版本将不可能实现：Adam Binford, Ali Afroozeh, Alkis Polyzotis, Allison Wang, Almog Tavor, Amandeep Sharma, Ammar Al-Batool, Andrew Liu, Andy Grove, Ankur Dave, Anton Okolnychyi, Ashray Jain, Attila Zsolt Piros, Ayushi Agarwal, Baohe Zhang, Bo Zhang, Bruce Robbins, Byungsoo Oh, Carlos Peña, Cary Lee, Chandni Singh, Chao Sun, ChaoJun Zhang, Chendi Xue, Cheng Pan, Cheng Su, Chongguang LIU, Chris Thomas, Chris Wu, Daoyuan Wang, David Christle, David Li, David McWhorter, Denis Pyshev, Dereck Li, Dhruv Kumar, Dhruvil Dave, Dingyu Xu, Dominik Gehl, Dongdong Hong, Dongjoon Hyun, Dooyoung Hwang, Duc Hoa Nguyen, Emil Ejbyfeldt, Enzo Bonnal, Erik Krogen, Eugene Koifman, Fabian A.J. Thiele, Fokko Driesprong, Fu Chen, Gabor Somogyi, Gabriele Nizzoli, Gengliang Wang, Gera Shegalov, Gidon Gershinsky, Guangxin Wang, Haejoon Lee, Haiyang Sun, Han, Harsh Panchal, He Qi, Hector Zhang, Holden Karau, Hopefulnick, Huaxin Gao, Hyukjin Kwon, Ionut Boicu, Ismaël Mejía, Ivan Sadikov, Jarek Potiuk, Jason Yarbrough, Jiaan Geng, Jie Hu, Jose Torres, Josh Rosen, Josh Soref, Julien Lafaye, Jungtaek Lim, Kaifei Yi, Kamil Breguła, Karen Feng, Karuppayya Rajendran, Kazuyuki Tanimura, Ke Jia, Keerthan Vasist, Kent Yao, Kevin Pis, Kevin Su, Koert Kuipers, Kousuke Saruta, Kun Wan, Kunlun Huang, Leanken Lin, Lei Peng, Leona Yoda, Li Zhang, Liang-Chi Hsieh, Lidiya Nixon, Linhong Liu, Lipeng Zhu, Luca Canali, Ludovic Henry, Luka Sturtewagen, Lukas Rytz, Luran He, Maciej Szymkiewicz, Marios Meimaris, Maryann Xue, Matthew Powers, Max Gekk, Maya Anderson, Michael Chen, Michael Zhang, Min Shen, Minchu Yang, Mohanad Elsafty, Nicholas Marion, Ohad Raviv, Pablo Langa, Pawel Ptaszynski, Peter Toth, Phillip Henry, Prakhar Jain, Qi Liu, Qi Zhu, Qilong SU, Qingbo Jiao, Quang-Huy Nguyen, Rahul Mahadev, Raza Jafri, Richard Chen, Richard Penney, Rongchuan Jin, Rui Zeng, Ruifeng Zheng, Ryan Blue, Sajith Ariyarathna, Samuel Moseley, Sanket Reddy, Satish Gopalani, Saurabh Chawla, Sean Owen, Serge Rielau, Shahid K I, Shaoyun Chen, Shardul Mahadik, Shiqi Sun, Shixiong Zhu, Steve Loughran, Steven Aerts, Sumeet Gajjar, Swinky Mann, Takeshi Yamamuro, Takuya UESHIN, Tanel Kiis, Tathagata Das, Tengfei Huang, Terry Kim, Tianhan Hu, Tianhua Huang, Tim Armstrong, Tobias Hermann, Tom Van Bussel, Tomas Pereira De Vasconcelos, Twoentartian, Vasily Kolpakov, Venkata Krishnan Sowrirajan, Venkata Sai Akhil Gudesa, Venki Korukanti, Viettel DGD, Vinod KC, Vlad Glinsky, Walid Gara, Wan Kun, Weichen Xu, Wenchen Fan, William Hyun, Xiao Li, Xiduo You, Xingbo Jiang, Xinrong Meng, XiuLi Wei, Xuedong Luan, Yajun Gao, Yang He, Yang Jie, Yazhi Wang, Ye Zhou, Yi Wu, Yi Zhu, Yijia Cui, Yikun Jiang, Yingyi Bu, Yu Zhong, Yuanjian Li, Yuchen Huo, Yuming Wang, Yuto Akutsu, Zebing Lin, Zhang Xingchao, Zhichao Zhang

Spark 新闻存档

Spark 3.2.0 发布

亮点

核心和 Spark SQL

结构化流

PySpark

MLlib

SparkR

GraphX

弃用和移除

已知问题

致谢

最新新闻