Spark 发布 3.0.2

Spark 3.0.2 是一个包含稳定性修复的维护版本。此版本基于 Spark 的 branch-3.0 维护分支。我们强烈建议所有 3.0 用户升级到此稳定版本。

显著变化

  • [SPARK-31511]: 使 BytesToBytesMap iterator() 线程安全
  • [SPARK-32635]: 当 pyspark.sql.functions.lit() 函数与 dataframe 缓存一起使用时,返回错误结果
  • [SPARK-32753]: 对相同列进行去重和重新分区时,AQE 会创建重复行
  • [SPARK-32764]: 比较 -0.0 < 0.0 返回 true
  • [SPARK-32840]: 无效的间隔值可能与单位紧密结合
  • [SPARK-32908]: percentile_approx() 返回不正确的结果
  • [SPARK-33019]: 默认使用 spark.hadoop.mapreduce.fileoutputcommitter.algorithm.version=1
  • [SPARK-33183]: 优化器规则 EliminateSorts 中的 Bug
  • [SPARK-33260]: 如果 sortOrder 是 Stream,SortExec 会产生不正确的结果
  • [SPARK-33290]: SPARK-33507 即使表本身可能未被缓存,REFRESH TABLE 也应使缓存失效
  • [SPARK-33358]: Spark SQL CLI 命令处理循环在命令失败时无法退出
  • [SPARK-33404]: "date_trunc" 表达式返回不正确的结果
  • [SPARK-33435]: SPARK-33507 DSv2: REFRESH TABLE 应使缓存失效
  • [SPARK-33591]: 在分区规范中,NULL 被识别为“null”字符串
  • [SPARK-33593]: 向量读取器在处理二进制分区值时获取到不正确的数据
  • [SPARK-33726]: 重复的字段名导致聚合期间出现错误结果
  • [SPARK-33819]: SingleFileEventLogFileReader/RollingEventLogFilesFileReader 应为 package private
  • [SPARK-33950]: ALTER TABLE .. DROP PARTITION 不会刷新缓存
  • [SPARK-34011]: ALTER TABLE .. RENAME TO PARTITION 不会刷新缓存
  • [SPARK-34027]: ALTER TABLE .. RECOVER PARTITIONS 不会刷新缓存
  • [SPARK-34055]: ALTER TABLE .. ADD PARTITION 不会刷新缓存
  • [SPARK-34187]: 在检查偏移量验证时,使用轮询期间获得的可用偏移量范围
  • [SPARK-34212]: 对于 parquet 表,在 hive 中更改 decimal 类型的精度和范围后,spark 读取不正确的值
  • [SPARK-34213]: LOAD DATA 不会刷新 v1 表缓存
  • [SPARK-34229]: Avro 应该使用文件模式读取 decimal 值
  • [SPARK-34262]: ALTER TABLE .. SET LOCATION 不会刷新 v1 表缓存

依赖项变更

虽然这是一个维护版本,但我们在此版本中确实升级了一些依赖项,它们是

已知问题

您可以查阅 JIRA 以获取详细变更

我们衷心感谢所有社区成员为本次发布贡献补丁。


Spark 新闻归档

最新新闻

归档