Spark 版本 1.0.2
Spark 1.0.2 是一个带有错误修复的维护版本。此版本基于 Spark 的 branch-1.0 维护分支。我们建议所有 1.0.x 用户升级到此稳定版本。此版本由 30 位开发者贡献。
您可以下载 Spark 1.0.2,有以下几种方式:源代码包 (6 MB tgz) 或预构建包,支持 Hadoop 1 / CDH3 (156 MB tgz)、CDH4 (161 MB tgz) 或 Hadoop 2 / CDH5 / HDP2 (168 MB tgz)。发布签名和校验和可在官方 Apache 下载站点获取。
修复
Spark 1.0.2 包含了多个组件的错误修复。下面突出显示了一些更重要的修复。您可以访问 Spark 问题追踪器查看完整的修复列表。
Spark 核心
- 避免在各种操作符中引入整个 RDD 或 PairRDDFunctions (SPARK-2534)
- RangePartitioner 的二分查找未使用给定的 Ordering (SPARK-2598)
- 累加器更新中的异常不应导致 DAGScheduler 和 SparkContext 崩溃 (SPARK-2323)
SQL
- 在 HDFS CSV 文件上执行 Spark QL 查询时,从节点抛出 NoClassDefFoundError $line11.$read$ (SPARK-2576)
- 各种 DataType 对象的并发初始化导致异常 (SPARK-2498)
- 单个计划中 InMemoryRelation 的多个实例导致重新缓存 (SPARK-2405)
PySpark
MLlib
Streaming
- 限制接收器数据速率以防止数据过载和 Spark 崩溃的能力 (SPARK-1341)
- 即使 newFilesOnly = true,文件流也会处理目录中现有文件 (SPARK-2362)
- QueueInputDStream 在 oneAtATime=false 时不进行出队操作 (SPARK-2343)
GraphX
贡献者
以下开发者为此版本做出了贡献
- Aaron Davidson - 核心模块的错误修复
- Aaron Staple - SQL 模块的错误修复
- Andrew Or - 核心模块的错误修复
- Ankur Dave - GraphX 模块的错误修复
- Artjom-Metro - 示例的错误修复
- Basit Mustafa - 添加了 t2 EC2 实例支持
- Cesar Arevalo - 文档修复
- Cheng Hao - SQL 模块的错误修复
- Daniel Darabos - 核心模块的错误修复
- Davies Liu - PySpark 模块的错误修复
- Gabriele Nizzoli - Streaming 模块的错误修复
- Hossein - 核心模块的错误修复
- Issac Buenrostro - 添加了对 Streaming 接收器节流的支持
- Manuel Laflamme - Streaming 模块的错误修复
- Michael Armbrust - SQL 模块的错误修复和性能改进
- Neville Li - MLlib 模块的错误修复
- Patrick Wendell - 核心模块的错误修复
- Reynold Xin - 核心和 SQL 模块的错误修复
- Sarah Gerweck - 核心模块的错误修复
- Takuya UESHIN - SQL 模块的错误修复
- Tathagata Das - Streaming 模块的错误修复
- William Benton - SQL 模块的错误修复
- Yin Huai - SQL 模块的错误修复
- Zongheng Yang - SQL 模块的错误修复
- baishuo(白硕) - SQL 模块的错误修复
- johnnywalleye - MLlib 模块的错误修复
- joyyoj - Streaming 模块的错误修复
- kballou - 文档修复
- lianhuiwang - 文档修复
- witgo - sbt 模块的错误修复
感谢所有贡献者!
Spark 新闻存档