Spark 3.0.3 版本发布

Spark 3.0.3 是一个包含稳定性修复的维护版本。此版本基于 Spark 的 branch-3.0 维护分支。我们强烈建议所有 3.0 用户升级到此稳定版本。

显著变化

  • [SPARK-34421]: 自定义函数无法与 CTEs 一起在临时视图中使用
  • [SPARK-34545]: PySpark Python UDF 在将 2 个返回类型不同的 UDF 同时应用于 2 列时返回不一致的结果
  • [SPARK-34719]: 如果视图查询包含重复的列名则失败
  • [SPARK-35463]: 在没有 shasum 的系统上跳过校验和检查
  • [SPARK-32924]: Web UI 按持续时间排序错误
  • [SPARK-33482]: 扩展 FileScan 的 V2 数据源阻止交换重用
  • [SPARK-33504]: Spark 历史服务器中的应用程序日志包含密码等敏感属性,应进行编辑而非明文显示
  • [SPARK-34424]: HiveOrcHadoopFsRelationSuite 在种子 610710213676 下失败
  • [SPARK-34556]: 检查重复的静态分区列时不遵循大小写敏感配置
  • [SPARK-34596]: NewInstance.doGenCode 不应抛出格式错误的类名错误
  • [SPARK-34763]: col(), $”" 和 df("name") 应该正确处理带引号的列名
  • [SPARK-34794]: DSL 中嵌套的高阶函数损坏
  • [SPARK-34798]: 修复不正确的连接条件
  • [SPARK-34876]: 非空聚合可以在相关子查询中返回 NULL
  • [SPARK-34897]: 支持在嵌套列裁剪后根据索引协调模式
  • [SPARK-34909]: conv() 未正确将负输入转换为无符号数
  • [SPARK-34922]: 使用更好的 CBO 成本函数
  • [SPARK-34963]: 嵌套列裁剪未能从数组中提取不区分大小写的结构体字段
  • [SPARK-34970]: 在 explain() 的输出中编辑映射类型选项
  • [SPARK-35080]: 带有等值谓词的相关子查询可能返回错误结果
  • [SPARK-35096]: 如果模式不区分大小写,foreachBatch 会抛出 ArrayIndexOutOfBoundsException
  • [SPARK-35106]: 使用动态分区覆盖时 HadoopMapReduceCommitProtocol 执行错误的重命名
  • [SPARK-35227]: 在 SparkSubmit 中用新的仓库服务替换 Bintray 作为 spark-packages 解析器
  • [SPARK-35296]: Dataset.observe 失败并引发断言
  • [SPARK-35482]: BasicExecutorFeatureStep 中应使用大小写敏感的块管理器端口键
  • [SPARK-35493]: spark.blockManager.port 不适用于驱动程序 pod
  • [SPARK-35659]: 避免向 StateStore 写入 null
  • [SPARK-35673]: Spark 在子查询中遇到无法识别的提示时失败
  • [SPARK-35679]: 将有效时间戳转换为微秒时溢出
  • [SPARK-34697]: 允许 DESCRIBE FUNCTION 和 SHOW FUNCTIONS 解释关于   (字符串连接运算符)
  • [SPARK-34772]: RebaseDateTime loadRebaseRecords 应使用 Spark 类加载器而不是上下文
  • [SPARK-35127]: 当我们在不同的阶段详情页面之间切换时,新打开页面中的条目可能为空白
  • [SPARK-35168]: mapred.reduce.tasks 应该是 shuffle.partitions 而不是 adaptive.coalescePartitions.initialPartitionNum
  • [SPARK-35566]: 修复 StateStoreRestoreExec 的输出行数
  • [SPARK-35714]: 修复执行器关闭期间的死锁错误
  • [SPARK-34534]: OneForOneBlockFetcher 中的新协议 FetchShuffleBlocks 导致数据丢失或正确性问题
  • [SPARK-34939]: 当无法反序列化广播的映射状态时抛出获取失败异常

依赖项变更

作为一个维护版本,我们在此版本中仍然升级了一些依赖项,它们是

  • [SPARK-35210]: 将 Jetty 升级到 9.4.40 以修复 ERR_CONNECTION_RESET 问题

已知问题

  • [SPARK-34529]: spark.read.csv 在解析 Windows 换行符 (CR LF) 时抛出异常,“lineSep”只能包含 1 个字符

您可以查阅 JIRA 以获取详细变更

我们感谢所有为本次发布贡献补丁的社区成员。


Spark 新闻存档