Spark 2.4.5 发布

Spark 2.4.5 是一个维护版本,包含稳定性修复。此版本基于 Spark 的 branch-2.4 维护分支。我们强烈建议所有 2.4 用户升级到此稳定版本。

显著变更

  • [SPARK-21492]:修复 SortMergeJoin 中的内存泄漏
  • [SPARK-26985]:修复大端架构下“仅访问全部列中的部分列”的问题
  • [SPARK-27812]:将 K8S 客户端版本提升至 4.6.1
  • [SPARK-28152]:为旧版 MsSqlServerDialect 数字映射添加一个遗留配置
  • [SPARK-28939]:为 toRdd 执行的计划传播 SQLConf
  • [SPARK-29042]:无序输入的基于采样的 RDD 应该是 INDETERMINATE
  • [SPARK-29101]:修复在选择 DROPMALFORMED 模式时 CSV 文件的 count API 问题
  • [SPARK-29651]:修复间隔秒小数部分的解析问题
  • [SPARK-29708]:修正分组集重复时聚合值的问题
  • [SPARK-29743]:修复样本在子节点为 true 时将 needCopyResult 设置为 true 的问题
  • [SPARK-29890]:修复 DataFrameNaFunctions.fill 处理重复列的问题
  • [SPARK-29918]:RecordBinaryComparator 在按长整型比较时应检查字节序
  • [SPARK-30065]:修复 DataFrameNaFunctions.drop 处理重复列的问题
  • [SPARK-30082]:替换 NaNs 时不要替换零
  • [SPARK-30274]:避免 BytesToBytesMap 在持有达到最大容量的键时永久挂起查找
  • [SPARK-30312]:截断表时保留路径权限和 ACL
  • [SPARK-30447]:修复常量传播可空性问题

已知问题

  • [SPARK-26021]:-0.0 和 0.0 处理不一致,与 Hive 不匹配
  • [SPARK-26154]:流-流连接 - 左外连接给出不一致的输出
  • [SPARK-28344]:如果检测到模糊的自连接则查询失败

您可以查阅 JIRA 以获取详细变更

我们要感谢所有为本次发布贡献补丁的社区成员。


Spark 新闻存档

最新新闻

存档