Spark 3.0.2 版本发布

Spark 3.0.2 是一个包含稳定性修复的维护版本。此版本基于 Spark 的 branch-3.0 维护分支。 我们强烈建议所有 3.0 用户升级到此稳定版本。

值得注意的更改

  • [SPARK-31511]: 使 BytesToBytesMap iterator() 线程安全
  • [SPARK-32635]: 当 pyspark.sql.functions.lit() 函数与 dataframe 缓存一起使用时,它返回错误的结果
  • [SPARK-32753]: 重复数据删除和重新分区同一列会使用 AQE 创建重复的行
  • [SPARK-32764]: -0.0 < 0.0 的比较返回 true
  • [SPARK-32840]: 无效的时间间隔值可能刚好与单位粘连
  • [SPARK-32908]: percentile_approx() 返回不正确的结果
  • [SPARK-33019]: 默认使用 spark.hadoop.mapreduce.fileoutputcommitter.algorithm.version=1
  • [SPARK-33183]: 优化规则 EliminateSorts 中的错误
  • [SPARK-33260]: 如果 sortOrder 是一个 Stream,则 SortExec 产生不正确的结果
  • [SPARK-33290]: SPARK-33507 REFRESH TABLE 即使表本身可能没有被缓存,也应该使缓存无效
  • [SPARK-33358]: Spark SQL CLI 命令处理循环在一条命令失败时无法退出
  • [SPARK-33404]: “date_trunc” 表达式返回不正确的结果
  • [SPARK-33435]: SPARK-33507 DSv2: REFRESH TABLE 应该使缓存无效
  • [SPARK-33591]: 在分区规范中,NULL 被识别为“null”字符串
  • [SPARK-33593]: 向量读取器使用二进制分区值获取了不正确的数据
  • [SPARK-33726]: 重复的字段名称导致聚合期间出现错误的答案
  • [SPARK-33819]: SingleFileEventLogFileReader/RollingEventLogFilesFileReader 应该是 package private
  • [SPARK-33950]: ALTER TABLE .. DROP PARTITION 不会刷新缓存
  • [SPARK-34011]: ALTER TABLE .. RENAME TO PARTITION 不会刷新缓存
  • [SPARK-34027]: ALTER TABLE .. RECOVER PARTITIONS 不会刷新缓存
  • [SPARK-34055]: ALTER TABLE .. ADD PARTITION 不会刷新缓存
  • [SPARK-34187]: 在检查偏移验证时,使用轮询期间获得的可用偏移范围
  • [SPARK-34212]: 对于 parquet 表,在更改 hive 中 decimal 类型的精度和比例后,spark 读取不正确的值
  • [SPARK-34213]: LOAD DATA 不会刷新 v1 表缓存
  • [SPARK-34229]: Avro 应该使用文件模式读取十进制值
  • [SPARK-34262]: ALTER TABLE .. SET LOCATION 不会刷新 v1 表缓存

依赖项更改

虽然是一个维护版本,但我们仍然在此版本中升级了一些依赖项,它们是

已知问题

您可以查阅 JIRA 以了解 详细的更改

我们要感谢所有社区成员为这个版本贡献补丁。


Spark 新闻存档

最新消息

存档