Spark 3.4.3 版本

Spark 3.4.3 是一个维护版本，包含安全性和正确性修复。此版本基于 Spark 的 branch-3.4 维护分支。我们强烈建议所有 3.4 用户升级到此稳定版本。

显著变化

[SPARK-45580]: 处理嵌套子查询变为存在性连接的情况
[SPARK-46029]: 为 DS V2 下推转义单引号、_ 和 %
[SPARK-46092]: 不要下推溢出的 Parquet 行组过滤器
[SPARK-46182]: 使用精确的任务完成事件跟踪 lastTaskFinishTime
[SPARK-46189]: 在各种 Pandas 聚合函数中执行相同类型之间的比较和算术运算，以避免解释模式错误
[SPARK-46239]: 隐藏 Jetty 信息
[SPARK-46275]: Protobuf: 当反序列化失败时在宽容模式下返回 null
[SPARK-46286]: 文档说明 spark.io.compression.zstd.bufferPool.enabled
[SPARK-46330]: 启用 HybridStore 时 Spark UI 加载长时间阻塞
[SPARK-46339]: 带有批次号名称的目录不应被视为元数据日志
[SPARK-46369]: 从 MasterPage 中移除 RELAUNCHING 驱动程序中的 kill 链接
[SPARK-46400]: 当本地 Maven 仓库中存在损坏文件时，跳过此缓存并重试
[SPARK-46417]: 调用 hive.getTable 且 throwException 为 false 时不失败
[SPARK-46466]: 向量化 parquet 读取器不应为时间戳 ntz 执行 rebase 操作
[SPARK-46598]: OrcColumnarBatchReader 在为缺失列创建列向量时应遵循内存模式
[SPARK-46628]: 在 license 名称中使用 SPDX 短标识符
[SPARK-46700]: 计算 shuffle 磁盘溢写字节度量的最后一次溢写
[SPARK-46704]: 修复 MasterPage 以正确按 Duration 列对 Running Drivers 表进行排序
[SPARK-46747]: 避免在 JDBC 方言的 getTableExistsQuery 中进行扫描
[SPARK-46763]: 修复 ReplaceDeduplicateWithAggregate 中重复属性的断言失败
[SPARK-46779]: 相同缓存计划的 InMemoryRelation 实例应在语义上等价
[SPARK-46786]: 修复 MountVolumesFeatureStep 以使用 ReadWriteOncePod 而不是 ReadWriteOnce
[SPARK-46794]: 从 LogicalRDD 约束中移除子查询
[SPARK-46801]: 在 Python 测试脚本中，不要将退出代码 5 视为测试失败
[SPARK-46817]: 通过添加 decommission 命令修复 spark-daemon.sh 的用法
[SPARK-46861]: 避免 DAGScheduler 中的死锁
[SPARK-46862]: 在多行模式下禁用 CSV 列裁剪
[SPARK-46888]: 修复 Master 以在禁用停用（decommission）时拒绝 /workers/kill/ 请求
[SPARK-46893]: 从 UI 描述中移除内联脚本
[SPARK-46945]: 为旧 K8s 集群添加 spark.kubernetes.legacy.useReadWriteOnceAccessMode
[SPARK-47063]: CAST long 到 timestamp 在代码生成和解释模式下行为不同
[SPARK-47072]: 修复错误消息中支持的间隔格式
[SPARK-47085]: 将 toTRowSet 的复杂性从 n^2 降低到 n
[SPARK-47125]: 如果 Univocity 从未触发解析，则返回 null
[SPARK-47146]: 执行排序合并连接时可能存在线程泄漏
[SPARK-47177]: 缓存的 SQL 计划在 explain 字符串中不显示最终的 AQE 计划
[SPARK-47187]: 修复 hive 压缩输出配置不生效的问题
[SPARK-47236]: 修复 deleteRecursivelyUsingJavaIO 以跳过不存在的文件输入
[SPARK-47305]: 修复 PruneFilters 以在计划同时包含批处理和流式处理时正确标记 LocalRelation 的 isStreaming 标志
[SPARK-47318]: 为 AuthEngine 密钥派生添加 HKDF 轮次以遵循标准 KEX 实践
[SPARK-47368]: 移除 ParquetRowConverter 中的 inferTimestampNTZ 配置检查
[SPARK-47370]: 添加关于 Parquet 文件上 TimestampNTZ 类型推断的迁移文档
[SPARK-47385]: 修复带有 Option 输入的元组编码器
[SPARK-47434]: 修复 StreamingQueryPage 中的 statistics 链接
[SPARK-47494]: 添加关于 Spark 3.3 以来 Parquet 时间戳推断行为变化的迁移文档
[SPARK-47503]: 使 makeDotNode 始终转义图节点名称
[SPARK-47521]: 从外部存储读取 shuffle 数据时使用 Utils.tryWithResource
[SPARK-47537]: 修复 MySQL Connector/J 上的错误数据类型映射
[SPARK-47646]: 使 try_to_number 对格式错误的输入返回 NULL
[SPARK-47666]: 修复将 mysql 位数组读取为 LongType 时的 NPE
[SPARK-47824]: 修复 pyspark.pandas.series.asof 中的非确定性

依赖项变更

虽然是维护版本，但我们在此版本中仍升级了一些依赖项，它们是

[SPARK-45445]: 将 snappy 升级到 1.1.10.5
[SPARK-47428]: 将 Jetty 升级到 9.4.54.v20240208
[SPARK-47844]: 将 ORC 更新到 1.8.7

您可以查阅 JIRA 以获取详细更改。

我们衷心感谢所有社区成员为本次发布贡献补丁。

Spark 新闻归档

Spark 3.4.3 版本

显著变化

依赖项变更

最新新闻