Spark 2.4.7 是一个维护版本,包含稳定性、正确性和安全修复。此版本基于 Spark 的 branch-2.4 维护分支。我们强烈建议所有 2.4 用户升级到此稳定版本。
[SPARK-28818] - 当存在空值时,FrequentItems 会对结果数据框应用不正确的模式
[SPARK-31511] - 使 BytesToBytesMap iterator() 线程安全
[SPARK-31703] - SPARK-26985 所做的更改破坏了在 BigEndian 架构(AIX + LinuxPPC64)中正确读取 Parquet 文件
[SPARK-31854] - 开启和关闭整阶段代码生成时查询执行结果不同
[SPARK-31903] - 启用 Arrow 的 toPandas 不在查询 UI 中显示指标。
[SPARK-31923] - 当某些内部累加器使用意外类型时,无法生成事件日志
[SPARK-31935] - Hadoop 文件系统配置应在数据源选项中生效
[SPARK-31941] - 处理 SparkUI 中 getSparkUser 方法的异常
[SPARK-31967] - 加载作业 UI 页面需要 40 秒
[SPARK-31968] - 当用户提供重复列时,write.partitionBy() 会创建重复的子目录
[SPARK-31980] - 如果范围的开始和结束日期相同,Spark sequence() 会失败
[SPARK-31997] - SingleSessionSuite 完成时应删除 test_udtf 表
[SPARK-32000] - 修复屏障模式下部分启动任务的不稳定测试用例。
[SPARK-32003] - 如果执行器丢失后发生抓取失败,则丢失执行器的 Shuffle 文件不会被注销
[SPARK-32024] - HistoryServerDiskManager 中的磁盘使用跟踪器变为负值
[SPARK-32028] - 历史摘要页面中的应用 ID 链接指向错误的应用尝试
[SPARK-32034] - 移植 HIVE-14817:在关闭时正确关闭 SessionManager timeoutChecker 线程
[SPARK-32044] - [SS] 2.4 Kafka 连续处理打印误导性的初始偏移量日志
[SPARK-32098] - 在使用 Arrow 的 createDataFrame 中,使用 iloc 进行位置切片而不是直接切片
[SPARK-32115] - SUBSTRING 溢出时结果不正确
[SPARK-32131] - 修复 UNION/INTERSECT/EXCEPT/MINUS 操作中的 AnalysisException 消息
[SPARK-32167] - GetArrayStructFields 的可空性不正确
[SPARK-32214] - makeFromJava 为“其他”类型生成的类型转换函数使用了错误的变量。
[SPARK-32238] - 使用 Utils.getSimpleName 避免在 ScalaUDF 中遇到格式错误的类名
[SPARK-32280] - 当查询包含多个 JOIN 时抛出 AnalysisException
[SPARK-32300] - 没有分区的 toPandas 应该可以工作
[SPARK-32344] - 在 DISTINCT 聚合中,不可求值的 expr 被设置为 FIRST/LAST ignoreNullsExpr
[SPARK-32364] - 对 DataFrameReader/Writer 选项使用 CaseInsensitiveMap
[SPARK-32372] - dudup 冲突引用后“解析属性 XXX 缺失”
[SPARK-32377] - CaseInsensitiveMap 对于添加操作应是确定性的
[SPARK-32609] - DataSourceV2 交换重用不正确
[SPARK-32672] - 某些缓存的压缩布尔列中的数据损坏
[SPARK-32693] - 比较两个除可空属性外模式相同的数据框
[SPARK-32771] - Javadoc / Scaladoc 中 expressions.Aggregator 的示例有误
[SPARK-32810] - CSV/JSON 数据源在推断模式时应避免通配符路径
[SPARK-32812] - Python 的运行测试脚本在某些环境中失败
您可以查阅 JIRA 以获取详细变更。
我们衷心感谢所有社区成员为本次发布贡献补丁。