Spark 3.0.1 版本发布

Spark 3.0.1 是一个维护版本,包含稳定性修复。此版本基于 Spark 的 branch-3.0 维护分支。我们强烈建议所有 3.0 用户升级到此稳定版本。

显著的变化

  • [SPARK-26905]: 根据 ANSI SQL 标准重新审视保留/非保留关键字
  • [SPARK-31220]: 当 spark.sql.adaptive.enabled 时,repartition 服从 spark.sql.adaptive.coalescePartitions.initialPartitionNum
  • [SPARK-31703]: SPARK-26985 所做的更改破坏了在 BigEndian 架构(AIX + LinuxPPC64)中正确读取 parquet 文件
  • [SPARK-31915]: 在分组和协同分组的 pandas UDF 中,根据大小写敏感性正确解析分组列
  • [SPARK-31923]: 当某些内部累加器使用意外类型时,无法生成事件日志
  • [SPARK-31935]: Hadoop 文件系统配置应在数据源选项中生效
  • [SPARK-31968]: 当用户提供重复列时,write.partitionBy() 创建重复的子目录
  • [SPARK-31983]: 结构化流选项卡的表对 duration 列显示错误的结果
  • [SPARK-31990]: 流的状态存储兼容性已损坏
  • [SPARK-32003]: 如果在 executor 丢失后发生 fetch 失败,则不会取消注册丢失的 executor 的 Shuffle 文件
  • [SPARK-32038]: COUNT(DISTINCT) 中处理 NaN 值的回归
  • [SPARK-32073]: 删除 R < 3.5 支持
  • [SPARK-32092]: CrossvalidatorModel 不保存所有子模型(仅保存 3 个)
  • [SPARK-32136]: 当 key 是具有可空属性的 struct 时,Spark 产生不正确 groupBy 结果
  • [SPARK-32148]: LEFT JOIN 生成非确定性和意外的结果(Spark 3.0 中的回归)
  • [SPARK-32220]: 笛卡尔积提示导致数据错误
  • [SPARK-32310]: ML 参数默认值对等性
  • [SPARK-32339]: 改进 MLlib BLAS 本机加速文档
  • [SPARK-32424]: 如果发生溢出,修复时间戳解析的静默数据更改
  • [SPARK-32451]: 在 SparkR 中支持 Apache Arrow 1.0.0
  • [SPARK-32456]: 通过假设它作为结构化流的聚合来检查 Distinct
  • [SPARK-32608]: 脚本转换 DELIMIT 值应格式化
  • [SPARK-32646]: ORC 谓词下推应与不区分大小写的分析一起使用
  • [SPARK-32658]: PartitionWriterStream 中的分区长度数字溢出
  • [SPARK-32676]: 修复 KMeans/BiKMeans 中的双重缓存

已知问题

  • [SPARK-31511]: 使 BytesToBytesMap iterator() 线程安全。这将在 Spark 3.0.2 中修复。
  • [SPARK-32779]: Spark/Hive3 交互可能导致死锁。这将在 Spark 3.0.2 中修复。
  • [SPARK-32788]: 非分区表扫描不应具有分区过滤器。这将在 Spark 3.0.2 中修复。
  • [SPARK-32810]: CSV/JSON 数据源在推断 schema 时应避免 globbing 路径。这将在 Spark 3.0.2 中修复。

您可以查阅 JIRA 以获取详细更改

我们感谢所有社区成员为本次发布贡献补丁。


Spark 新闻存档

最新消息

存档