Spark 3.0.1 版本发布

Spark 3.0.1 是一个包含稳定性修复的维护版本。此版本基于 Spark 的 branch-3.0 维护分支。我们强烈建议所有 3.0 用户升级到此稳定版本。

显著变更

  • [SPARK-26905]: 根据 ANSI SQL 标准重新审视保留/非保留关键字
  • [SPARK-31220]: 当 spark.sql.adaptive.enabled 时,repartition 遵守 spark.sql.adaptive.coalescePartitions.initialPartitionNum
  • [SPARK-31703]: SPARK-26985 所做的更改导致在 BigEndian 架构(AIX + LinuxPPC64)中无法正确读取 Parquet 文件
  • [SPARK-31915]: 根据分组和协同分组的 pandas UDFs 中的大小写敏感性,正确解析分组列
  • [SPARK-31923]: 当某些内部累加器使用非预期类型时,无法生成事件日志
  • [SPARK-31935]: Hadoop 文件系统配置应在数据源选项中生效
  • [SPARK-31968]: 当用户提供重复列时,write.partitionBy() 会创建重复的子目录
  • [SPARK-31983]: 结构化流选项卡中的表在持续时间列显示错误结果
  • [SPARK-31990]: Streaming 的状态存储兼容性已损坏
  • [SPARK-32003]: 如果执行器丢失后发生获取失败,则不会取消注册丢失执行器的 Shuffle 文件
  • [SPARK-32038]: COUNT(DISTINCT) 中 NaN 值处理的回归
  • [SPARK-32073]: 停止支持 R < 3.5 版本
  • [SPARK-32092]: CrossvalidatorModel 未保存所有子模型(它只保存了 3 个)
  • [SPARK-32136]: 当键是具有可空属性的结构体时,Spark 会产生错误的 groupBy 结果
  • [SPARK-32148]: LEFT JOIN 产生非确定性和意外结果(Spark 3.0 中的回归)
  • [SPARK-32220]: 笛卡尔积提示导致数据错误
  • [SPARK-32310]: ML 参数默认值对等
  • [SPARK-32339]: 改进 MLlib BLAS 本地加速文档
  • [SPARK-32424]: 修复时间戳解析溢出时的静默数据更改
  • [SPARK-32451]: SparkR 中支持 Apache Arrow 1.0.0
  • [SPARK-32456]: 假定为结构化流的聚合来检查 Distinct
  • [SPARK-32608]: Script Transform DELIMIT 值应格式化
  • [SPARK-32646]: ORC 谓词下推应与不区分大小写的分析一起使用
  • [SPARK-32658]: PartitionWriterStream 中分区长度编号溢出
  • [SPARK-32676]: 修复 KMeans/BiKMeans 中的双重缓存问题

已知问题

  • [SPARK-31511]: 使 BytesToBytesMap iterator() 线程安全。这将在 Spark 3.0.2 中修复。
  • [SPARK-32779]: Spark/Hive3 交互可能导致死锁。这将在 Spark 3.0.2 中修复。
  • [SPARK-32788]: 非分区表扫描不应包含分区过滤器。这将在 Spark 3.0.2 中修复。
  • [SPARK-32810]: CSV/JSON 数据源在推断 Schema 时应避免通配路径。这将在 Spark 3.0.2 中修复。

您可以查阅 JIRA 以获取详细更改

我们衷心感谢所有为本次发布贡献补丁的社区成员。


Spark 新闻存档

最新新闻

存档