Spark 2.4.7 版本发布

Spark 2.4.7 是一个维护版本，包含稳定性、正确性和安全修复。此版本基于 Spark 的 branch-2.4 维护分支。我们强烈建议所有 2.4 用户升级到此稳定版本。

[SPARK-28818] - 当存在空值时，FrequentItems 会对结果数据框应用不正确的模式

[SPARK-31511] - 使 BytesToBytesMap iterator() 线程安全

[SPARK-31703] - SPARK-26985 所做的更改破坏了在 BigEndian 架构（AIX + LinuxPPC64）中正确读取 Parquet 文件

[SPARK-31854] - 开启和关闭整阶段代码生成时查询执行结果不同

[SPARK-31903] - 启用 Arrow 的 toPandas 不在查询 UI 中显示指标。

[SPARK-31923] - 当某些内部累加器使用意外类型时，无法生成事件日志

[SPARK-31935] - Hadoop 文件系统配置应在数据源选项中生效

[SPARK-31941] - 处理 SparkUI 中 getSparkUser 方法的异常

[SPARK-31967] - 加载作业 UI 页面需要 40 秒

[SPARK-31968] - 当用户提供重复列时，write.partitionBy() 会创建重复的子目录

[SPARK-31980] - 如果范围的开始和结束日期相同，Spark sequence() 会失败

[SPARK-31997] - SingleSessionSuite 完成时应删除 test_udtf 表

[SPARK-32000] - 修复屏障模式下部分启动任务的不稳定测试用例。

[SPARK-32003] - 如果执行器丢失后发生抓取失败，则丢失执行器的 Shuffle 文件不会被注销

[SPARK-32024] - HistoryServerDiskManager 中的磁盘使用跟踪器变为负值

[SPARK-32028] - 历史摘要页面中的应用 ID 链接指向错误的应用尝试

[SPARK-32034] - 移植 HIVE-14817：在关闭时正确关闭 SessionManager timeoutChecker 线程

[SPARK-32044] - [SS] 2.4 Kafka 连续处理打印误导性的初始偏移量日志

[SPARK-32098] - 在使用 Arrow 的 createDataFrame 中，使用 iloc 进行位置切片而不是直接切片

[SPARK-32115] - SUBSTRING 溢出时结果不正确

[SPARK-32131] - 修复 UNION/INTERSECT/EXCEPT/MINUS 操作中的 AnalysisException 消息

[SPARK-32167] - GetArrayStructFields 的可空性不正确

[SPARK-32214] - makeFromJava 为“其他”类型生成的类型转换函数使用了错误的变量。

[SPARK-32238] - 使用 Utils.getSimpleName 避免在 ScalaUDF 中遇到格式错误的类名

[SPARK-32280] - 当查询包含多个 JOIN 时抛出 AnalysisException

[SPARK-32300] - 没有分区的 toPandas 应该可以工作

[SPARK-32344] - 在 DISTINCT 聚合中，不可求值的 expr 被设置为 FIRST/LAST ignoreNullsExpr

[SPARK-32364] - 对 DataFrameReader/Writer 选项使用 CaseInsensitiveMap

[SPARK-32372] - dudup 冲突引用后“解析属性 XXX 缺失”

[SPARK-32377] - CaseInsensitiveMap 对于添加操作应是确定性的

[SPARK-32609] - DataSourceV2 交换重用不正确

[SPARK-32672] - 某些缓存的压缩布尔列中的数据损坏

[SPARK-32693] - 比较两个除可空属性外模式相同的数据框

[SPARK-32771] - Javadoc / Scaladoc 中 expressions.Aggregator 的示例有误

[SPARK-32810] - CSV/JSON 数据源在推断模式时应避免通配符路径

[SPARK-32812] - Python 的运行测试脚本在某些环境中失败

您可以查阅 JIRA 以获取详细变更。

我们衷心感谢所有社区成员为本次发布贡献补丁。