Spark 3.0.1 版本发布

Spark 3.0.1 是一个包含稳定性修复的维护版本。此版本基于 Spark 的 branch-3.0 维护分支。我们强烈建议所有 3.0 用户升级到此稳定版本。

显著变更

[SPARK-26905]: 根据 ANSI SQL 标准重新审视保留/非保留关键字
[SPARK-31220]: 当 spark.sql.adaptive.enabled 时，repartition 遵守 spark.sql.adaptive.coalescePartitions.initialPartitionNum
[SPARK-31703]: SPARK-26985 所做的更改导致在 BigEndian 架构（AIX + LinuxPPC64）中无法正确读取 Parquet 文件
[SPARK-31915]: 根据分组和协同分组的 pandas UDFs 中的大小写敏感性，正确解析分组列
[SPARK-31923]: 当某些内部累加器使用非预期类型时，无法生成事件日志
[SPARK-31935]: Hadoop 文件系统配置应在数据源选项中生效
[SPARK-31968]: 当用户提供重复列时，write.partitionBy() 会创建重复的子目录
[SPARK-31983]: 结构化流选项卡中的表在持续时间列显示错误结果
[SPARK-31990]: Streaming 的状态存储兼容性已损坏
[SPARK-32003]: 如果执行器丢失后发生获取失败，则不会取消注册丢失执行器的 Shuffle 文件
[SPARK-32038]: COUNT(DISTINCT) 中 NaN 值处理的回归
[SPARK-32073]: 停止支持 R < 3.5 版本
[SPARK-32092]: CrossvalidatorModel 未保存所有子模型（它只保存了 3 个）
[SPARK-32136]: 当键是具有可空属性的结构体时，Spark 会产生错误的 groupBy 结果
[SPARK-32148]: LEFT JOIN 产生非确定性和意外结果（Spark 3.0 中的回归）
[SPARK-32220]: 笛卡尔积提示导致数据错误
[SPARK-32310]: ML 参数默认值对等
[SPARK-32339]: 改进 MLlib BLAS 本地加速文档
[SPARK-32424]: 修复时间戳解析溢出时的静默数据更改
[SPARK-32451]: SparkR 中支持 Apache Arrow 1.0.0
[SPARK-32456]: 假定为结构化流的聚合来检查 Distinct
[SPARK-32608]: Script Transform DELIMIT 值应格式化
[SPARK-32646]: ORC 谓词下推应与不区分大小写的分析一起使用
[SPARK-32658]: PartitionWriterStream 中分区长度编号溢出
[SPARK-32676]: 修复 KMeans/BiKMeans 中的双重缓存问题

已知问题

[SPARK-31511]: 使 BytesToBytesMap iterator() 线程安全。这将在 Spark 3.0.2 中修复。
[SPARK-32779]: Spark/Hive3 交互可能导致死锁。这将在 Spark 3.0.2 中修复。
[SPARK-32788]: 非分区表扫描不应包含分区过滤器。这将在 Spark 3.0.2 中修复。
[SPARK-32810]: CSV/JSON 数据源在推断 Schema 时应避免通配路径。这将在 Spark 3.0.2 中修复。

您可以查阅 JIRA 以获取详细更改。

我们衷心感谢所有为本次发布贡献补丁的社区成员。

Spark 新闻存档

Spark 3.0.1 版本发布

显著变更

已知问题

最新新闻