Spark 3.2.4 版本发布

Spark 3.2.4 是一个维护版本,包含稳定性修复。此版本基于 Spark 的 branch-3.2 维护分支。我们强烈建议所有 3.2 用户升级到这个稳定版本。

值得关注的更改

  • [SPARK-38173]: 当 quotedRegexColumnNames 为 true 时,带引号的列无法正确识别
  • [SPARK-39399]: proxy-user 在集群部署模式下对 Kubernetes 上的 Spark 不起作用
  • [SPARK-40817]: 在集群模式下,Kubernetes 上 Spark 忽略远程 spark.jars URIs
  • [SPARK-40819]: Parquet INT64 (TIMESTAMP(NANOS,true)) 现在抛出 Illegal Parquet type 错误,而不是自动转换为 LongType
  • [SPARK-41162]: 反连接不能被推送到具有模糊谓词的聚合之下
  • [SPARK-41254]: YarnAllocator.rpIdToYarnResource 映射未正确更新
  • [SPARK-41360]: 如果 executor 已丢失,避免 BlockManager 重新注册
  • [SPARK-41376]: Executor netty 直接内存检查应遵循 spark.shuffle.io.preferDirectBufs
  • [SPARK-41388]: getReusablePVCs 应该忽略前一批次中最近创建的 PVC
  • [SPARK-41415]: SASL 请求重试
  • [SPARK-41554]: Decimal.changePrecision 产生 ArrayIndexOutOfBoundsException
  • [SPARK-41732]: 会话窗口:分析规则 “SessionWindowing” 不应用基于树模式的修剪
  • [SPARK-41952]: 升级 Parquet 以修复 Zstd 编解码器中的堆外内存泄漏
  • [SPARK-41989]: PYARROW_IGNORE_TIMEZONE 警告可能会破坏应用程序日志设置
  • [SPARK-42071]: 将 scala.math.Ordering$Reverse 注册到 KyroSerializer
  • [SPARK-42090]: 在 RetryingBlockTransferor 中引入 sasl 重试计数
  • [SPARK-42157]: spark.scheduler.mode=FAIR 应该提供 FAIR 调度器
  • [SPARK-42168]: 当分区键顺序不同时,带有窗口函数的 CoGroup 返回不正确的结果
  • [SPARK-42259]: ResolveGroupingAnalytics 应该处理 Python UDAF
  • [SPARK-42462]: 阻止 docker-image-tool.sh 发布 OCI 清单
  • [SPARK-42478]: 在 FileWriterFactory 中使用可序列化的 jobTrackerId 代替不可序列化的 JobID
  • [SPARK-42596]: OMP_NUM_THREADS 默认情况下未设置为 executor 核心数
  • [SPARK-42697]: /api/v1/applications 返回持续时间为 0
  • [SPARK-42747]: 修复 LoR 和 AFT 的不正确内部状态
  • [SPARK-42785]: 当在 Kubernetes Case 中提交 spark 时没有使用 --deploy-mode,将遇到 NPE
  • [SPARK-42906]: 在资源名称前缀中,用 x 替换起始数字
  • [SPARK-42967]: 当任务在阶段取消后启动时,修复 SparkListenerTaskStart.stageAttemptId
  • [SPARK-43004]: ResourceRequest.equals() 中的 vendor==vendor 拼写错误

依赖项更改

虽然这是一个维护版本,但我们仍然在此版本中升级了一些依赖项,它们是

您可以查阅 JIRA 以了解详细的更改

我们要感谢所有社区成员为该版本的贡献补丁。


Spark 新闻存档

最新消息

存档