Spark 3.3.3 版本发布

Spark 3.3.3 是一个包含稳定性修复的维护版本。 此版本基于 Spark 的 branch-3.3 维护分支。 我们强烈建议所有 3.3 用户升级到此稳定版本。

值得注意的更改

  • [SPARK-37829]: 使用 joinWith 在 DataFrames 上执行外连接会返回带有空字段的行,而不是空值
  • [SPARK-39399]: proxy-user 在集群部署模式下不适用于 Kubernetes 上的 Spark
  • [SPARK-39696]: 线程 executor-heartbeater 中未捕获的异常 java.util.ConcurrentModificationException: 迭代期间发生突变
  • [SPARK-41741]: ParquetFilters StringStartsWith 下推匹配字符串不使用 UTF-8
  • [SPARK-41952]: 修复 Parquet zstd 堆外内存泄漏,作为 PARQUET-2160 的解决方法
  • [SPARK-42286]: 修复将有效 CASE WHEN 表达式与 CAST 插入到表中的内部错误
  • [SPARK-42473]: 当 INSERT OVERWRITE SELECT UNION ALL 时,需要显式转换
  • [SPARK-42937]: 在禁用 wholestage codegen 和自适应执行的情况下,条件中的子查询连接可能会失败
  • [SPARK-43050]: 通过替换分组函数来修复构造聚合表达式
  • [SPARK-43113]: 当全外连接的绑定条件对同一流侧列有多个引用时,会发生代码生成错误
  • [SPARK-43240]: 如果最后一个 RDD 是 RDD[UnsafeRow],则 df.describe() 方法可能返回错误的结果
  • [SPARK-43541]: 使用 USING 进行全外连接时,列解析不正确
  • [SPARK-43718]: 在 USING 连接中,对特定侧键的引用可能具有错误的空值
  • [SPARK-44040]: 修复 QueryStageExec 之上的 AggregateExec 节点计算统计信息的问题
  • [SPARK-44251]: 当全外 USING 连接具有空键值时,可能导致错误结果或 NPE

您可以查阅 JIRA 以获取详细的更改

我们要感谢所有社区成员为此版本的补丁做出的贡献。


Spark 新闻存档

最新消息

存档