Spark 发布 3.3.3

Spark 3.3.3 是一个包含稳定性修复的维护版本。此版本基于 Spark 的 branch-3.3 维护分支。我们强烈建议所有 3.3 用户升级到此稳定版本。

显著变化

  • [SPARK-37829]: 使用 joinWith 对 DataFrames 进行外连接时返回带有空字段的行,而不是空值
  • [SPARK-39399]: 在集群部署模式下,Spark on k8s 的 proxy-user 不工作
  • [SPARK-39696]: 线程 executor-heartbeater 中出现未捕获异常 java.util.ConcurrentModificationException: 迭代期间发生修改
  • [SPARK-41741]: ParquetFilters StringStartsWith 下推匹配字符串时不使用 UTF-8
  • [SPARK-41952]: 修复 Parquet zstd 堆外内存泄漏,作为 PARQUET-2160 的 workaround
  • [SPARK-42286]: 修复向表中插入时,带有 CAST 的有效 CASE WHEN 表达式的内部错误
  • [SPARK-42473]: 当 INSERT OVERWRITE SELECT UNION ALL 时需要显式转换
  • [SPARK-42937]: 在禁用 wholestage codegen 和 adaptive execution 时,条件中带有子查询的 Join 可能会失败
  • [SPARK-43050]: 修复通过替换分组函数来构造聚合表达式
  • [SPARK-43113]: 当全外连接的绑定条件多次引用同一流侧列时,出现代码生成错误
  • [SPARK-43240]: df.describe() 方法在最后一个 RDD 是 RDD[UnsafeRow] 时可能返回错误结果
  • [SPARK-43541]: FULL OUTER JOIN 与 USING 结合时列解析不正确
  • [SPARK-43718]: USING 连接中引用特定侧键的 nullability 可能不正确
  • [SPARK-44040]: 修复 QueryStageExec 上方有 AggregateExec 节点时的计算统计信息
  • [SPARK-44251]: 当全外 USING 连接具有空键值时,可能出现结果不正确或 NPE

您可以查阅 JIRA 以获取详细更改

我们感谢所有社区成员为本次发布贡献补丁。


Spark 新闻存档