Spark 3.2.1 版本发布

Spark 3.2.1 是一个包含稳定性修复的维护版本。此版本基于 Spark 的 branch-3.2 维护分支。我们强烈建议所有 3.2 用户升级到此稳定版本。

显著变化

  • [SPARK-30789]: 支持 LEAD/LAG/NTH_VALUE/FIRST_VALUE/LAST_VALUE 的 IGNORE/RESPECT NULLS
  • [SPARK-33277]: off-heap 向量化读取器后的 Python/Pandas UDF 可能导致执行器崩溃。
  • [SPARK-34399]: 将文件提交时间添加到度量指标并在 SQL Tab UI 中显示
  • [SPARK-35714]: 修复执行器关闭期间的死锁问题
  • [SPARK-36754]: array_intersect 应处理 Double.NaN 和 Float.NaN
  • [SPARK-37001]: 默认禁用最终哈希聚合的两级映射
  • [SPARK-37023]: 在重试期间,当 shuffleMergeEnabled 对 shuffleDependency 为 false 时,避免获取合并状态
  • [SPARK-37088]: off-heap 向量化读取器后的 Python UDF 可能由于写入器线程中的 use-after-free 导致崩溃
  • [SPARK-37202]: 临时视图未收集通过目录 API 注册的临时函数
  • [SPARK-37208]: 支持将 Spark gpu/fpga 资源类型映射到自定义 YARN 资源类型
  • [SPARK-37214]: 提前终止包含无效标识符的查询分析
  • [SPARK-37392]: 修复推断 Generate 约束时的性能错误
  • [SPARK-37695]: 跳过从基于推送的 shuffle 合并块的诊断
  • [SPARK-37705]: 在 Parquet 文件元数据中写入会话时区,以便 rebase 可以使用它而不是 JVM 时区
  • [SPARK-37957]: V2 函数未处理确定性标志

依赖项变更

虽然这是一个维护版本,但我们在此版本中仍然升级了一些依赖项,它们是:

您可以查阅 JIRA 以获取详细变更

我们感谢所有为本次发布贡献补丁的社区成员。


Spark 新闻存档