Spark 1.0.2 版本发布
Spark 1.0.2 是一个维护版本,包含错误修复。此版本基于 Spark 的 branch-1.0 维护分支。我们建议所有 1.0.x 用户升级到这个稳定版本。此版本由 30 位开发者贡献。
您可以下载 Spark 1.0.2 的 源代码包 (6 MB tgz) 或预构建包,用于 Hadoop 1 / CDH3 (156 MB tgz), CDH4 (161 MB tgz), 或 Hadoop 2 / CDH5 / HDP2 (168 MB tgz). 可以在官方 Apache 下载站点找到版本签名和校验和。
修复
Spark 1.0.2 包含多个组件中的错误修复。下面重点介绍了一些更重要的修复。您可以访问 Spark 问题跟踪器查看完整的修复列表。
Spark Core
- 避免在各种运算符中拉入整个 RDD 或 PairRDDFunctions (SPARK-2534)
- RangePartitioner 的二分查找不使用给定的排序 (SPARK-2598)
- 累加器更新中的异常不应导致 DAGScheduler 和 SparkContext 崩溃 (SPARK-2323)
SQL
- 在 HDFS CSV 文件上执行 Spark QL 查询时,从节点抛出 NoClassDefFoundError $line11.$read$ 错误 (SPARK-2576)
- 各种 DataType 对象的并发初始化导致异常 (SPARK-2498)
- 单个计划中 InMemoryRelation 的多个实例导致重新缓存 (SPARK-2405)
PySpark
MLlib
- ALS 中的 mutable.BitSet 无法使用 KryoSerializer 序列化 (SPARK-1977)
- 修复 DecisionTree 节点聚合中的 bin 偏移量 (SPARK-2152)
Streaming
- 能够限制 Receiver 数据速率,以防止数据过载和 Spark 崩溃 (SPARK-1341)
- 即使 newFilesOnly = true,文件流也会处理目录中现有的文件 (SPARK-2362)
- oneAtATime=false 的 QueueInputDStream 不会从队列中移除项目 (SPARK-2343)
GraphX
贡献者
以下开发者为此版本做出了贡献
- Aaron Davidson - Core 中的错误修复
- Aaron Staple - SQL 中的错误修复
- Andrew Or - Core 中的错误修复
- Ankur Dave - GraphX 中的错误修复
- Artjom-Metro - 示例中的错误修复
- Basit Mustafa - 添加了 t2 EC2 实例支持
- Cesar Arevalo - 文档修复
- Cheng Hao - SQL 中的错误修复
- Daniel Darabos - Core 中的错误修复
- Davies Liu - PySpark 中的错误修复
- Gabriele Nizzoli - Streaming 中的错误修复
- Hossein - Core 中的错误修复
- Issac Buenrostro - 添加了对限制 Streaming 接收器的支持
- Manuel Laflamme - Streaming 中的错误修复
- Michael Armbrust - SQL 中的错误修复和性能改进
- Neville Li - MLlib 中的错误修复
- Patrick Wendell - Core 中的错误修复
- Reynold Xin - Core 和 SQL 中的错误修复
- Sarah Gerweck - Core 中的错误修复
- Takuya UESHIN - SQL 中的错误修复
- Tathagata Das - Streaming 中的错误修复
- William Benton - SQL 中的错误修复
- Yin Huai - SQL 中的错误修复
- Zongheng Yang - SQL 中的错误修复
- baishuo(白硕) - SQL 中的错误修复
- johnnywalleye - MLlib 中的错误修复
- joyyoj - Streaming 中的错误修复
- kballou - 文档修复
- lianhuiwang - 文档修复
- witgo - sbt 中的错误修复
感谢所有贡献者!
Spark 新闻存档