Spark 2.4.5 版本发布

Spark 2.4.5 是一个维护版本,包含稳定性修复。 此版本基于 Spark 的 branch-2.4 维护分支。 我们强烈建议所有 2.4 用户升级到此稳定版本。

显著变化

  • [SPARK-21492]: 修复 SortMergeJoin 中的内存泄漏
  • [SPARK-26985]: 修复大端架构下 “仅访问全部列中的某些列” 的问题
  • [SPARK-27812]: 将 K8S 客户端版本升级到 4.6.1
  • [SPARK-28152]: 为旧的 MsSqlServerDialect 数值映射添加一个遗留配置
  • [SPARK-28939]: 为 toRdd 执行的计划传播 SQLConf
  • [SPARK-29042]: 具有无序输入的基于采样的 RDD 应该是 INDETERMINATE
  • [SPARK-29101]: 当选择 DROPMALFORMED 模式时,修复 csv 文件的计数 API
  • [SPARK-29651]: 修复解析间隔秒分数
  • [SPARK-29708]: 当 grouping sets 重复时,纠正聚合值
  • [SPARK-29743]: 如果 sample 的子节点是 needCopyResult, 修复 sample 设置 needCopyResult 为 true
  • [SPARK-29890]: 修复 DataFrameNaFunctions.fill 以处理重复列
  • [SPARK-29918]: RecordBinaryComparator 应该在按 long 比较时检查字节序
  • [SPARK-30065]: 修复 DataFrameNaFunctions.drop 以处理重复列
  • [SPARK-30082]: 替换 NaNs 时不要替换零
  • [SPARK-30274]: 避免在持有达到最大容量的键时 BytesToBytesMap 查找永远挂起
  • [SPARK-30312]: 在截断表时保留路径权限和 acl
  • [SPARK-30447]: 修复常量传播空值问题

已知问题

  • [SPARK-26021]: -0.0 和 0.0 处理不一致,与 Hive 不匹配
  • [SPARK-26154]: 流式-流式连接 - 左外连接给出不一致的输出
  • [SPARK-28344]: 如果检测到不明确的自连接,则使查询失败

您可以查阅 JIRA 以获取详细的更改

我们要感谢所有为这个版本贡献补丁的社区成员。


Spark 新闻档案