Spark 版本 3.2.4

Spark 3.2.4 是一个包含稳定性修复的维护版本。此版本基于 Spark 的 branch-3.2 维护分支。我们强烈建议所有 3.2 用户升级到此稳定版本。

显著变化

  • [SPARK-38173]:当 quotedRegexColumnNames 为 true 时,带引号的列无法正确识别
  • [SPARK-39399]:在集群部署模式下,Spark on k8s 的 proxy-user 不起作用
  • [SPARK-40817]:在集群模式下,Spark on Kubernetes 会忽略远程 spark.jars URI
  • [SPARK-40819]:Parquet INT64 (TIMESTAMP(NANOS,true)) 现在抛出非法 Parquet 类型错误,而不是自动转换为 LongType
  • [SPARK-41162]:反连接不应在具有歧义谓词的聚合下推
  • [SPARK-41254]:YarnAllocator.rpIdToYarnResource 映射未正确更新
  • [SPARK-41360]:如果执行器已丢失,则避免 BlockManager 重新注册
  • [SPARK-41376]:执行器 netty 直接内存检查应遵循 spark.shuffle.io.preferDirectBufs
  • [SPARK-41388]:getReusablePVCs 应忽略上一批次中最近创建的 PVC
  • [SPARK-41415]:SASL 请求重试
  • [SPARK-41554]:Decimal.changePrecision 产生 ArrayIndexOutOfBoundsException
  • [SPARK-41732]:会话窗口:分析规则“SessionWindowing”不应用基于树模式的剪枝
  • [SPARK-41952]:升级 Parquet 以修复 Zstd 编解码器中的堆外内存泄漏
  • [SPARK-41989]:PYARROW_IGNORE_TIMEZONE 警告可能破坏应用程序日志设置
  • [SPARK-42071]:将 scala.math.Ordering$Reverse 注册到 KyroSerializer
  • [SPARK-42090]:在 RetryingBlockTransferor 中引入 sasl 重试计数
  • [SPARK-42157]spark.scheduler.mode=FAIR 应提供 FAIR 调度器
  • [SPARK-42168]:当分区键顺序不同时,带有窗口函数的 CoGroup 返回不正确的结果
  • [SPARK-42259]:ResolveGroupingAnalytics 应处理 Python UDAF
  • [SPARK-42462]:防止 docker-image-tool.sh 发布 OCI 清单
  • [SPARK-42478]:在 FileWriterFactory 中使用可序列化的 jobTrackerId,而不是不可序列化的 JobID
  • [SPARK-42596]:默认情况下 OMP_NUM_THREADS 未设置为执行器核心数
  • [SPARK-42697]:/api/v1/applications 返回持续时间为 0
  • [SPARK-42747]:修复 LoR 和 AFT 的内部状态不正确问题
  • [SPARK-42785]:在 Kubernetes 情况下,当 spark 提交不带 --deploy-mode 时,会遇到 NPE
  • [SPARK-42906]:将资源名称前缀中的起始数字替换为 x
  • [SPARK-42967]:修复 SparkListenerTaskStart.stageAttemptId 在阶段取消后启动任务时的问题
  • [SPARK-43004]:ResourceRequest.equals() 中的 vendor==vendor 拼写错误

依赖项变更

作为一个维护版本,我们在此版本中仍然升级了一些依赖项,它们是:

您可以查阅 JIRA 获取详细变更

我们要感谢所有为本次发布贡献补丁的社区成员。


Spark 新闻存档

最新新闻

存档