Spark 2.4.6 发布

Spark 2.4.6 是一个维护版本,包含稳定性、正确性和安全性修复。此版本基于 Spark 的 branch-2.4 维护分支。我们强烈建议所有 2.4 用户升级到此稳定版本。

显著变化

  • [SPARK-29419]: Seq.toDS / spark.createDataset(Seq) 不是线程安全的
  • [SPARK-31519]: 在 having 聚合表达式中进行类型转换返回错误的结果
  • [SPARK-26293]: 在子查询中包含 python UDF 时出现类型转换异常
  • [SPARK-30826]: LIKE 从使用 parquet 的外部表返回错误的结果
  • [SPARK-30857]: 在 epoch 之前的时间戳截断为小时和天数时出现错误
  • [SPARK-31256]: Dropna 不适用于 struct 列
  • [SPARK-31312]: 转换 Hive 简单 UDF (使用 JAR) 表达式可能会在稍后的评估中导致 CNFE
  • [SPARK-31420]: 作业详情页面中的无限时间线重绘
  • [SPARK-31485]: 如果只启动了部分任务,则 Barrier 阶段可能会挂起
  • [SPARK-31500]: BinaryType 的 collect_set() 返回重复的元素
  • [SPARK-31503]: 修复 TRIM 函数的 SQL 字符串
  • [SPARK-31663]: 带有 having 子句的分组集返回错误的结果
  • [SPARK-26908]: 修复 toMilis
  • [SPARK-31563]: UTF8String 集合的 Inset.sql 失败

依赖项更改

虽然这是一个维护版本,但我们仍然在此版本中升级了一些依赖项,它们是

  • netty-all 至 4.1.47.Final ([CVE-2019-20445])
  • Janino 至 3.0.16 (SQL 生成的代码)
  • aws-java-sdk-sts 至 1.11.655 (kinesis 客户端升级所需)
  • snappy 1.1.7.5 (稳定性改进 & ppc64le 性能)

已知问题

  • [SPARK-31170]: Spark Cli 不遵守 hive-site.xml 和 spark.sql.warehouse.dir
  • [SPARK-26021]: -0.0 和 0.0 的处理不一致,与 Hive 不匹配
  • [SPARK-26154]: Stream-stream 连接 - left outer join 给出不一致的输出
  • [SPARK-28344]: 如果检测到不明确的自连接,则查询失败

您可以查阅 JIRA 以获取详细更改

我们要感谢所有社区成员为本次发布贡献补丁。


Spark 新闻存档