Spark 3.2.1 版本发布

Spark 3.2.1 是一个包含稳定性修复的维护版本。此版本基于 Spark 的 branch-3.2 维护分支。我们强烈建议所有 3.2 用户升级到此稳定版本。

值得注意的变更

  • [SPARK-30789]: 支持 LEAD/LAG/NTH_VALUE/FIRST_VALUE/LAST_VALUE 的 IGNORE/RESPECT NULLS
  • [SPARK-33277]: 紧跟在堆外向量化读取器之后的 Python/Pandas UDF 可能会导致 executor 崩溃。
  • [SPARK-34399]: 将文件提交时间添加到指标并在 SQL Tab UI 中显示
  • [SPARK-35714]: 修复 executor 关闭期间的死锁问题
  • [SPARK-36754]: array_intersect 应该处理 Double.NaN 和 Float.NaN
  • [SPARK-37001]: 默认禁用最终哈希聚合的两级映射
  • [SPARK-37023]: 在重试期间,当 shuffleMergeEnabled 为 false 时,避免获取 shuffleDependency 的合并状态
  • [SPARK-37088]: 堆外向量化读取器之后的 Python UDF 可能由于 writer 线程中的 use-after-free 导致崩溃
  • [SPARK-37202]: 临时视图没有收集通过 catalog API 注册的临时函数
  • [SPARK-37208]: 支持将 Spark gpu/fpga 资源类型映射到自定义 YARN 资源类型
  • [SPARK-37214]: 使用无效的标识符尽早地失败查询分析
  • [SPARK-37392]: 修复为 Generate 推断约束时的性能错误
  • [SPARK-37695]: 跳过来自基于推送的 shuffle 的合并块的诊断
  • [SPARK-37705]: 将会话时区写入 Parquet 文件元数据,以便 rebase 可以使用它而不是 JVM 时区
  • [SPARK-37957]: V2 函数未处理确定性标志

依赖项变更

虽然这是一个维护版本,但我们仍然在此版本中升级了一些依赖项,它们是

您可以查阅 JIRA 以获取详细的更改

我们要感谢所有社区成员为该版本的补丁做出的贡献。


Spark 新闻存档

最新消息

存档