Spark 发布 3.1.1

Apache Spark 3.1.1 是 3.x 系列的第二个版本。此版本作为 Zen 项目的一部分，增加了 Python 类型注解和 Python 依赖管理支持。其他主要更新包括改进的 ANSI SQL 合规性支持、结构化流中的历史服务器支持，以及 Kubernetes 和 Kubernetes 及 Standalone 中的节点退役的通用可用性 (GA)。此外，此版本继续专注于可用性、稳定性和完善，同时解决了大约 1500 个问题。

要下载 Apache Spark 3.1.1，请访问下载页面。您可以查阅 JIRA 以获取详细更改。我们在此整理了一份高层次的更改列表，按主要模块分组。

核心和 Spark SQL
PySpark
结构化流
MLlib
SparkR
GraphX
废弃和移除
已知问题
鸣谢

核心和 Spark SQL

亮点

统一创建表 SQL 语法 (SPARK-31257)
改组哈希连接改进 (SPARK-32461)
Kubernetes 和 Standalone 的实验性节点退役 (SPARK-20624)
增强子表达式消除 (SPARK-33092, SPARK-33337, SPARK-33427, SPARK-33540)
Kubernetes 通用可用 (GA) (SPARK-33005)
默认使用 Apache Hadoop 3.2.0 (SPARK-32058, SPARK-32841)

ANSI SQL 兼容性增强

支持 char/varchar 数据类型 (SPARK-33480)
ANSI 模式：运行时错误而非返回 null (SPARK-33275)
ANSI 模式：新的显式转换语法规则 (SPARK-33354)
添加 SQL 标准命令 SET TIME ZONE (SPARK-32272)
统一创建表 SQL 语法 (SPARK-31257)
统一临时视图和永久视图行为 (SPARK-33138)
支持 INSERT 语句中的列列表 (SPARK-32976)
支持 ANSI 嵌套括号注释 (SPARK-28880)

性能增强

无需 shuffle 服务的宿主机本地 shuffle 数据读取 (SPARK-32077)
在重新分区节点前移除冗余排序 (SPARK-32276)
部分下推谓词 (SPARK-32302, SPARK-32352)
通过扩展下推过滤器 (SPARK-33302)
通过 CNF 转换下推更多可能的谓词到 Join (SPARK-31705)
通过保留广播哈希连接的输出分区来消除 shuffle (SPARK-31869)
通过改进重新排序连接键来消除 shuffle (SPARK-32282)
通过规范化输出分区和排序顺序来消除 shuffle (SPARK-33399)
改组哈希连接改进 (SPARK-32461)
- 保留改组哈希连接构建侧分区 (SPARK-32330)
- 保留哈希连接 (BHJ 和 SHJ) 流侧排序 (SPARK-32383)
- 合并改组哈希连接的分桶表 (SPARK-32286)
- 为改组哈希连接添加代码生成 (SPARK-32421)
- 在改组哈希连接中支持全外连接 (SPARK-32399)
支持带全阶段代码生成的项目中的子表达式消除 (SPARK-33092)
支持条件表达式中的子表达式消除 (SPARK-33337)
支持解释表达式评估的子表达式消除 (SPARK-33427)
支持解释谓词的子表达式消除 (SPARK-33540)
其他优化器规则
- 规则 ExtractSingleColumnNullAwareAntiJoin (SPARK-32290)
- 规则 EliminateNullAwareAntiJoin (SPARK-32573)
- 规则 EliminateAggregateFilter (SPARK-32540)
- 规则 UnwrapCastInBinaryComparison (SPARK-32858)
- 规则 DisableUnnecessaryBucketedScan (SPARK-32859)
- 规则 CoalesceBucketsInJoin (SPARK-31350)
- 从不带项目的生成中修剪不必要的嵌套字段 (SPARK-29721)
- 从聚合和扩展中修剪不必要的嵌套字段 (SPARK-27217)
- 从按表达式重新分区和连接中修剪不必要的嵌套字段 (SPARK-31736)
- 修剪装饰性变体中不必要的嵌套字段 (SPARK-32163)
- 从窗口和排序中修剪不必要的嵌套字段 (SPARK-32059)
- 优化 CreateArray/CreateMap 的大小，使其等于其子节点的大小 (SPARK-33544)

可扩展性增强

阶段级别资源配置和调度 (SPARK-27495)
- 为阶段级别调度公开 RDD API (SPARK-29150)
- 合并阶段内的资源配置文件 (SPARK-29153)
- Kubernetes 的阶段级别调度支持 (SPARK-33288)
- 为阶段级别调度添加 UI 支持 (SPARK-29303)
用于持久化 shuffle 数据的远程存储 (SPARK-25299)
- Shuffle writer 元数据 API (SPARK-31798)
允许使用自定义 shuffle 管理器和外部 shuffle 服务 (SPARK-33037)
在 DataSourceV2 上添加 SupportsPartitions API (SPARK-31694)
在 DataSourceV2 上添加 SupportsMetadataColumns API (SPARK-31255)
使 SQL 缓存序列化可插拔 (SPARK-32274)
在 TableCatalog.dropTable 中为 v2 目录引入“purge”选项 (SPARK-33364)

连接器增强

Hive Metastore 分区过滤器下推改进 (SPARK-33537)
- 支持 contains, starts-with 和 ends-with 过滤器 (SPARK-33458)
- 支持按日期类型过滤 (SPARK-33477)
- 支持按 not-equals 过滤 (SPARK-33582)
Parquet
- 允许 Parquet 中 map 的键类型使用复杂类型 (SPARK-32639)
- 允许在 Parquet 中保存/加载 INT96 而无需重新基准化 (SPARK-33160)
ORC
- ORC 的嵌套列谓词下推 (SPARK-25557)
- 将 Apache ORC 升级到 1.5.12 (SPARK-33050)
CSV
- 在 CSV 模式推断期间利用 SQL 文本数据源 (SPARK-32270)
JSON
- 支持 JSON 数据源中的过滤器下推 (SPARK-30648)
JDBC
- 为 JDBC 实现目录 API (SPARK-32375, SPARK-32579, SPARK-32402, SPARK-33130)
- 创建 JDBC 认证提供者开发者 API (SPARK-32001)
- 添加 JDBC 连接提供者禁用可能性 (SPARK-32047)
Avro
- 支持 Avro 数据源中的过滤器下推 (SPARK-32346)

功能增强

节点退役 (SPARK-20624)
- 基本框架 (SPARK-20628)
- 在退役期间迁移 RDD 块 (SPARK-20732)
- 作为动态伸缩一部分的优雅退役 (SPARK-31198)
- 在退役期间迁移 shuffle 块 (SPARK-20629)
- 仅在任务和块迁移完成后退出执行器 (SPARK-31197)
- 支持退役期间的回退存储 (SPARK-33545)
新的内置函数
- json_array_length (SPARK-31008)
- json_object_keys (SPARK-31009)
- current_catalog (SPARK-30352)
- timestamp_seconds, timestamp_millis, timestamp_micros (SPARK-31710)
- width_bucket (SPARK-21117)
- regexp_extract_all (SPARK-24884)
- nth_value (SPARK-27951)
- raise_error (SPARK-32793)
- unix_seconds, unix_millis 和 unix_micros (SPARK-33627)
- date_from_unix_date 和 unix_date (SPARK-33646)
- current_timezone (SPARK-33469)
EXPLAIN 命令增强 (SPARK-32337, SPARK-31325)
提供一个选项来禁用用户提供的 Hints (SPARK-31875)
支持 Hive 风格的 REPLACE COLUMNS 语法 (SPARK-30613)
支持 'LIKE ANY' 和 'LIKE ALL' 操作符 (SPARK-30724)
支持 MERGE INTO 中无限制的 MATCHED 和 NOT MATCHED (SPARK-32030)
支持 'F' 后缀的浮点字面量 (SPARK-32207)
支持 RESET 语法以重置单个配置 (SPARK-32406)
支持过滤器表达式允许同时使用 DISTINCT (SPARK-30276)
支持 DSv2 的 alter table add/drop partition 命令 (SPARK-32512)
支持嵌套 OR 条件内的 NOT IN 子查询 (SPARK-25154)
支持 REFRESH FUNCTION 命令 (SPARK-31999)
在 Dataset 中添加 'sameSemantics' 和 'semanticHash' 方法 (SPARK-30791)
支持 UDF 中 case class 的组合类型 (SPARK-31826)
支持编码器中的枚举 (SPARK-32585)
支持嵌套字段 API withField 和 dropFields (SPARK-31317, SPARK-32511)
支持 unionByName 中填充缺失列的 null 值 (SPARK-29358)
支持 DataFrameReader.table 接收指定的选项 (SPARK-32592, SPARK-32844)
支持 spark.sql.hive.metastore.jars 中的 HDFS 位置 (SPARK-32852)
原生支持 --archives 选项 (SPARK-33530, SPARK-33615)
增强 ExecutorPlugin API 以包含任务开始和结束事件的方法 (SPARK-33088)

其他值得注意的更改

在 Spark 文档站点中提供搜索功能 (SPARK-33166)
默认使用 Apache Hadoop 3.2.0 (SPARK-32058, SPARK-32841)
将 Apache Arrow 升级到 2.0.0 (SPARK-33213)
Kubernetes 通用可用 (GA) (SPARK-33005)
- 添加对 Kubernetes NFS 卷挂载的支持 (SPARK-31394)
- 支持动态 PVC 创建/删除 (SPARK-32971, SPARK-32997)
- 遵循 Python 可执行文件的环境变量和配置 (SPARK-33748)
- 支持 Python 依赖 (SPARK-27936)
- 使 pod 分配执行器超时可配置，并允许与挂起 pod 一起调度 (SPARK-33231, SPARK-33262)
- 在 ExecutorPodsAllocator 中遵循执行器空闲超时配置 (SPARK-33099)
- 支持带 keytab 的 JDBC Kerberos (SPARK-12312)
在 thrift 服务器中启用 Java 8 时间 API (SPARK-31910)
在 UDF 中启用 Java 8 时间 API (SPARK-32154)
聚合 sum 与小数的溢出检查 (SPARK-28067)
修复动态分区覆盖模式下的提交冲突 (SPARK-27194, SPARK-29302)
移除对 slave、blacklist 和 whitelist 的引用 (SPARK-32004, SPARK-32036, SPARK-32037)
移除 shuffle map 阶段的任务结果大小检查 (SPARK-32470)
通用化 ExecutorSource 以公开用户指定的文件系统方案 (SPARK-33476)
添加 StorageLevel.DISK_ONLY_3 (SPARK-32517)
在执行器 Web UI 中公开执行器内存指标 (SPARK-23432)
在阶段级别（Stages 选项卡中）公开执行器内存指标 (SPARK-26341)
修复 YARN 集群模式下显式设置 spark.ui.port 的问题 (SPARK-29465)
添加 spark.submit.waitForCompletion 配置以控制 Standalone 集群模式下 spark-submit 的退出 (SPARK-31486)
对于内置 Hadoop 的 Spark 发行版，不要传播 Hadoop 的 classpath (SPARK-31960)
修复高负载下 SHS 中作业间歇性消失的问题 (SPARK-33841)
在 SHS 中编辑应用程序日志的敏感属性 (SPARK-33504)
设置 yarn.Client 以打印指向驱动程序 stdout/stderr 的直接链接 (SPARK-33185)
修复广播分片存储失败时的内存泄漏 (SPARK-32715)
使 BlockManagerMaster 驱动程序心跳超时可配置 (SPARK-34278)
统一和完善缓存行为 (SPARK-33507)

行为变更

请阅读每个组件的迁移指南：Spark Core 和 Spark SQL。

编程指南：Spark RDD 编程指南和 Spark SQL、DataFrames 和 Datasets 指南。

PySpark

Zen 项目

Zen 项目：改进 Python 可用性 (SPARK-32082)
PySpark 类型提示支持 (SPARK-32681)
重新设计 PySpark 文档 (SPARK-31851)
迁移到 NumPy 文档风格 (SPARK-32085)
PyPI 用户安装选项 (SPARK-32017)
取消废弃从字典列表推断 DataFrame 模式 (SPARK-32686)
简化 Python UDF 的异常消息 (SPARK-33407)

其他值得注意的更改

阶段级别调度 API (SPARK-29641)
PySparkUDF 调用去重确定性 (SPARK-33303)
PySpark 函数中支持高阶函数 (SPARK-30681)
支持数据源 v2x 写入 API (SPARK-29157)
PySpark 函数中支持 percentile_approx (SPARK-30569)
PySpark DataFrame 中支持 inputFiles (SPARK-31763)
PySpark Column 中支持 withField (SPARK-32835)
PySpark Column 中支持 dropFields (SPARK-32511)
PySpark 函数中支持 nth_value (SPARK-33020)
支持 acosh, asinh 和 atanh (SPARK-33563)
PySpark SparkContext 中支持 getCheckpointDir 方法 (SPARK-33017)
unionByName 中支持为缺失列填充 null 值 (SPARK-32798)
将 cloudpickle 更新到 v1.5.0 (SPARK-32094)
为 PySpark with Arrow 添加 MapType 支持 (SPARK-24554)
DataStreamReader.table 和 DataStreamWriter.toTable (SPARK-33836)

行为变更

请阅读 PySpark 的迁移指南。

编程指南：PySpark 入门和 PySpark 用户指南。

结构化流

性能增强

缓存超出 maxFilesPerTrigger 的已获取文件列表作为未读文件 (SPARK-30866)
精简文件流源和接收器元数据日志的逻辑 (SPARK-30462)
如果查询从压缩批次重新开始，则避免两次读取压缩元数据日志 (SPARK-30900)

功能增强

添加 DataStreamReader.table API (SPARK-32885)
添加 DataStreamWriter.toTable API (SPARK-32896)
左半流-流连接 (SPARK-32862)
全外流-流连接 (SPARK-32863)
提供一个新选项以对输出文件进行保留 (SPARK-27188)
添加 Spark 结构化流历史服务器支持 (SPARK-31953)
在查询重启期间引入状态模式验证 (SPARK-27237)

其他值得注意的更改

为流式状态存储引入模式验证 (SPARK-31894)
支持在状态存储中使用不同的压缩编解码器 (SPARK-33263)
Kafka 连接器因元数据从未更新而无限等待 (SPARK-28367)
将 Kafka 升级到 2.6.0 (SPARK-32568)
结构化流 UI 页面的分页支持 (SPARK-31642, SPARK-30119)
结构化流 UI 中的状态信息 (SPARK-33223)
结构化流 UI 中的水印间隔信息 (SPARK-33224)
在 SS UI 上公开状态自定义指标信息 (SPARK-33287)
添加一个关于晚于水印的行数的新指标 (SPARK-24634)

行为变更

请阅读结构化流的迁移指南。

编程指南：结构化流编程指南。

MLlib

亮点

LinearSVC 分块输入向量 (SPARK-30642)
LogisticRegression 分块输入向量 (SPARK-30659)
LinearRegression 分块输入向量 (SPARK-30660)
AFT 分块输入向量 (SPARK-31656)
添加对 ML 中关联规则的支持 (SPARK-19939)
为 LinearSVCModel 添加训练摘要 (SPARK-20249)
为 RandomForestClassificationModel 添加摘要 (SPARK-23631)
为 FMClassificationModel 添加训练摘要 (SPARK-32140)
为 MultilayerPerceptronClassificationModel 添加摘要 (SPARK-32449)
将 FMClassifier 添加到 SparkR (SPARK-30820)
添加 SparkR LinearRegression 封装器 (SPARK-30818)
将 FMRegressor 封装器添加到 SparkR (SPARK-30819)
为 vector_to_array 添加 SparkR 封装器 (SPARK-33040)
自适应分块实例 - LinearSVC (SPARK-32907)
使 CrossValidator/TrainValidateSplit/OneVsRest Reader/Writer 支持 Python 后端评估器/评估器 (SPARK-33520)
通过 GEMV 改进 ML ALS recommendForAll 的性能 (SPARK-33518)
添加 UnivariateFeatureSelector (SPARK-34080)

其他值得注意的更改

GMM 在一个作业中计算摘要并更新分布 (SPARK-31032)
移除 ChiSqSelector 对 mllib.ChiSqSelectorModel 的依赖 (SPARK-31077)
在 testChiSquare 中展平测试结果数据帧 (SPARK-31301)
MinHash keyDistance 优化 (SPARK-31436)
基于三角不等式的 KMeans 优化 (SPARK-31007)
在 ClusteringEvaluator 中添加权重支持 (SPARK-31734)
在 Evaluators 中添加 getMetrics (SPARK-31768)
在 LinearRegressionSummary 中添加实例权重支持 (SPARK-31944)
为 CrossValidator 添加用户指定的分折列 (SPARK-31777)
ML 参数在特征和调优中的默认值一致性 (SPARK-32310)
修复 KMeans/BiKMeans 中的双重缓存 (SPARK-32676)
aft 转换优化 (SPARK-33111)
FeatureHasher 转换优化 (SPARK-32974)
为数据帧列添加 array_to_vector 函数 (SPARK-33556)
ML 参数在分类、回归、聚类和 FPM 中的默认值一致性 (SPARK-32310)
Summary.totalIterations 大于 maxIters (SPARK-31925)
树模型预测优化 (SPARK-32298)

行为变更

请阅读 MLlib 的迁移指南。

编程指南：机器学习库 (MLlib) 指南。

SparkR

为高阶函数添加 SparkR 接口 (SPARK-30682)
unionByName 中支持为缺失列填充 null 值 (SPARK-32798)
SparkR 函数中支持 withColumn (SPARK-32946)
SparkR 函数中支持 timestamp_seconds (SPARK-32949)
SparkR 函数中支持 nth_value (SPARK-33030)
Arrow 最低版本提升到 1.0.0 (SPARK-32452)
SparkR 函数中支持 array_to_vector (SPARK-33622)
支持 acosh, asinh 和 atanh (SPARK-33563)
支持 from_avro 和 to_avro (SPARK-33304)

行为变更

有关详细信息，请阅读迁移指南。

编程指南：SparkR (R on Spark)。

GraphX

编程指南：GraphX 编程指南。

废弃和移除

弃用 Python 2.7, 3.4 和 3.5 (SPARK-32138)
弃用 R < 3.5 支持 (SPARK-32073)
移除 hive-1.2 发行版 (SPARK-32981)
移除对 org.spark-project.hive 的引用 (SPARK-20202)
废弃 Standalone 模式下同一主机上多个 worker 的支持 (SPARK-31018)

已知问题

[SPARK-33392] 在 V1 ALTER TABLE .. SET LOCATION 中尊重大小写敏感性
[SPARK-34531] 移除 PrometheusServlet 中的 Experimental API 标签
[SPARK-34515] 修复 getPartitionsByFilter 期间 InSet 包含 null 值时的 NPE
[SPARK-34497] JDBC 连接提供者未从 JVM 安全上下文中移除 Kerberos 凭证
[SPARK-34490] 如果表被删除，表可能被解析为视图
[SPARK-34473] 避免 DataFrameReader.schema(StructType) 中的 NPE
[SPARK-34436] DPP 支持 LIKE ANY/ALL

鸣谢

最后但同样重要的是，如果没有以下贡献者，本次发布是不可能实现的：Abhishek Dixit, Adam Binford, Ajith S, Akshat Bordia, Alessandro Patti, Alex Favaro, Ali Afroozeh, Ali Smesseim, Allison Wang, Ankit Srivastava, Anton Okolnychyi, Antonin Delpeuch, Artsiom Yudovin, Arwin Tio, Attila Zsolt Piros, Baohe Zhang, Bo Yang, Bo Zhang, Brandon Jiang, Bruce Robbins, Bryan Cutler, CC Highman, Chandni Singh, Chao Sun, Chen Zhang, Cheng Su, Chuliang Xiao, DB Tsai, Dale Clarke, Daniel Himmelstein, Daniel Moore, David Toneian, Denis Pyshev, Devesh Agrawal, Dilip Biswal, Dmitry Sabanin, Dongjoon Hyun, Du Ripeng, Emilian Bold, Eren Avsarogullari, Eric Lemmon, Eric Wu, Erik Krogen, Fabian Höring, Farhan Khan, Farooq Qaiser, Fei Wang, Fokko Driesprong, Frank Yin, Fuwang Hu, Gabor Somogyi, Gengliang Wang, Gera Shegalov, German Schiavon Matteo, Goki Mori, Guangxin Wang, Gustavo Martin Morcuende, Herman Van Hovell, Holden Karau, Huang Yi, Haejoon Lee, Huaxin Gao, Hyukjin Kwon, Izek Greenfield, Jackey Lee, Jacob Kim, Jalpan Randeri, Jatin Puri, Jiaan Geng, Jinxin Tang, Josh Soref, Jonathan Lafleche, Jungtaek Lim, Karen Feng, Karol Chmist, Kaxil Naik, Kazuaki Ishizaki, Ke Jia, Keiji Yoshida, Kent Yao, Kevin Su, Kevin Wang, Koert Kuipers, Kousuke Saruta, Kyle Bendickson, Lantao Jin, Leanken Lin, Liang Zhang, Liang-Chi Hsieh, Linhong Liu, Lipeng Zhu, Lu Lu, Luca Canali, Maciej Szymkiewicz, Manu Zhang, Marcelo Vanzin, Maryann Xue, Matthew Cheah, Maxim Gekk, Michael Chirico, Michael Munday, Michał Wieleba, Min Shen, Nan Zhu, Nicholas Chammas, Nicholas Marcott, Nik Vanderhoof, Onur Satici, Pablo Langa, Pascal Gillet, Paul Reidy, Pavithra Ramachandran, Pedro Rossi, Peter Toth, Philipse Guo, Piotr Grzegorski, Prakhar Jain, Prashant Sharma, Qianyang Yu, Qilong Su, Rajat Ahuja, Rakesh Raushan, Rameshkrishnan Muthusamy, Raphael Auv, Richard Penney, Robert (Bobby) Evans, Rohit Mishra,Ruifeng Zheng, Ryan Blue, Ryotaro Tsuzuki, Samir Khan, Samuel Souza, Sandeep Katta, Sander Goos, Saurabh Chawla, Sean Owen, Seongjin Cho, Shane Knapp, Shanyu Zhao, Shaoyun Chen, Shixiong Zhu, Shruti Gumma, Srinivas Rishindra Pothireddi, Stavros Kontopoulos, StefanXiepj, Stijn De Haes, Stuart White, Sudharshann D, Sunitha Kambhampati, Takeshi Yamamuro, Takuya UESHIN, Tanel Kiis, Tathagata Das, Terry Kim, Thomas Graves, Tianshi Zhu, Tom Howland, Tom Van Bussel, Udbhav Agrawal, Uncle Gen, Utkarsh Agarwal, Venkata Krishnan Sowrirajan, Vlad Glinsky, Warren Zhu, Weichen Xu, Wenchen Fan, William Hyun, Wing Yew Poon, Xianyin Xin, Xiao Li, Xiduo You, Xingbo Jiang, Xinrong Meng, Xinyi Yu, Xuedong Luan, Yang Jie, Yaroslav Tkachenko, Ye Zhou, Yi Wu, Yi Zhu, Yu Zhong, Yuanjian Li, Yuexin Zhang, Yuming Wang, Yuning Zhang, Zhen Li, Zhenhua Wang, Zhicheng Jin, Zirui Xu, Zuo Dao, akiyamaneko, artiship, cristichircu, dzlab, huangtianhua, liucht-inspur, manubatham20, waitinfuture, wang-zhun, yzjg

Spark 新闻存档

Spark 发布 3.1.1

核心和 Spark SQL

PySpark

结构化流

MLlib

SparkR

GraphX

废弃和移除

已知问题

鸣谢

最新消息