Spark 1.4.0 版本发布

Spark 1.4.0 是 1.X 系列的第五个版本。此版本为 Spark 带来了 R API。它还改进了 Spark 核心引擎的可用性,并扩展了 MLlib 和 Spark Streaming。 Spark 1.4 代表了来自 70 多个机构的 210 多位贡献者在 1000 多个单独补丁中的工作成果。

要下载 Spark 1.4,请访问下载页面。

SparkR

Spark 1.4 是第一个打包 SparkR 的版本,SparkR 是基于 Spark 新的 DataFrame API 的 Spark R 绑定。 SparkR 使 R 用户可以访问 Spark 的横向扩展并行运行时,以及 Spark 的所有输入和输出格式。 它还支持直接调用 Spark SQL。 R 编程指南提供了有关如何开始使用 SparkR 的更多信息。

Spark Core

Spark core 增加了一系列改进,重点在于操作、性能和兼容性

DataFrame API 和 Spark SQL

DataFrame API 在 Spark 1.4 中进行了重大扩展(有关完整列表,请参见此链接),重点在于分析和数学函数。 Spark SQL 引入了新的操作实用程序,以及对 ORCFile 的支持。

Spark ML/MLlib

Spark 的 ML pipelines API 在此版本中从 alpha 版本毕业,具有新的 transformers 并改进了 Python 覆盖率。 MLlib 还添加了几种新算法。

  • SPARK-5884:用于 ML pipelines 的各种特征 transformers
  • SPARK-7381:ML pipelines 的 Python API
  • SPARK-5854:GraphX 的个性化 PageRank
  • SPARK-6113:稳定 DecisionTree 和 ensembles API
  • SPARK-7262:具有 L1/L2(弹性网络)的二元 LogisticRegression
  • SPARK-7015:OneVsRest 多类到二进制的减少
  • SPARK-4588:添加用于特征属性的 API
  • SPARK-1406:通过 MLib 支持 PMML 模型评估
  • SPARK-5995:使 ML Prediction Developer API 公开
  • SPARK-3066:支持矩阵分解模型中的 recommendAll
  • SPARK-4894:伯努利朴素贝叶斯
  • SPARK-5563:将具有在线变分推理的 LDA 添加到发行说明中

Spark Streaming

Spark streaming 添加了可视化仪表图,并显着改进了 UI 中的调试信息。 它还增强了对 Kafka 和 Kinesis 的支持。

已知问题

此版本有一些已知问题,将在 Spark 1.4.1 中解决

  • 如果单个分区大于 worker 内存,Python sortBy()/sortByKey() 可能会挂起 SPARK-8202
  • JSON 模式推断的意外行为更改 SPARK-8093
  • 某些 ML pipeline 组件未正确实现 copy SPARK-8151
  • Spark-ec2 分支指针错误 SPARK-8310

贡献者

测试合作伙伴

感谢以下组织,他们帮助基准测试或集成测试候选版本
英特尔、Palantir、Cloudera、Mesosphere、华为、Shopify、Netflix、Yahoo、加州大学伯克利分校和 Databricks。

贡献者

  • Aaron Davidson – Core、Shuffle 和 YARN 中的错误修复
  • Aaron Josephs – Core 中的新功能
  • Adam Budde – SQL 中的错误修复
  • Ai He – MLlib 中的改进
  • Andrew Or – Core 中的错误修复
  • Andrew Or – Core 和 YARN 中的改进; Core、Web UI、Streaming、tests 和 SQL 中的错误修复; Streaming、Web UI、Core 和 SQL 中的改进
  • Andrey Zagrebin – SQL 中的改进
  • Antonio Piccolboni – SparkR 中的新功能
  • Arsenii Krasikov – Core 中的错误修复
  • Ashutosh Raina – SparkR 中的新功能
  • Ashwin Shankar – YARN 中的错误修复
  • Augustin Borsu – MLlib 中的新功能
  • Ben Fradet – Core 和 Streaming 中的文档
  • Benedikt Linse – Core 中的文档
  • Bill Chambers – Core 中的文档
  • Brennon York – Project Infra、Core、GraphX 和 tests 中的改进; Core 中的错误修复
  • Bryan Cutler – Core 中的错误修复
  • Burak Yavuz – spark submit 中的测试; Core 和 Streaming 中的改进; MLlib 和 PySpark 中的新功能; Core、tests 和 spark submit 中的错误修复; SQL、MLlib 和 PySpark 中的改进
  • Calvin Jia – Core 中的改进和文档
  • Chen Song – SQL 中的错误修复和改进
  • Cheng Chang – EC2 中的新功能
  • Cheng Hao – SQL 中的改进、新功能、错误修复和改进
  • Cheng Lian – SQL 中的错误修复
  • Cheng Lian – Core 和 SQL 中的改进; Core 和 SQL 中的文档; Core 和 SQL 中的错误修复; SQL 中的改进
  • Cheolsoo Park – YARN 中的 Wish; Core 和 spark submit 中的改进; Core 中的错误修复
  • Chris Freeman – SparkR 中的新功能
  • Chet Mancini – Core 和 SQL 中的改进
  • Chris Heller – Mesos 中的新功能
  • Christophe Preaud – Core 和 YARN 中的文档
  • Cody Koeninger – Streaming 中的错误修复; Core 中的改进
  • DB Tsai – MLlib 中的改进、新功能和错误修复
  • DEBORAH SIEGEL – Core 中的文档
  • Dan McClary – GraphX 中的新功能
  • Dan Putler – SparkR 中的新功能
  • Daoyuan Wang – tests 和 SQL 中的改进; SQL 中的新功能; SQL 中的错误修复; MLlib 和 SQL 中的改进
  • David McGuire – Streaming 中的错误修复
  • Davies Liu – SQL 和 PySpark 中的改进; Core 和 SparkR 中的新功能; Streaming、tests、PySpark、SparkR 和 SQL 中的错误修复; Core 和 SQL 中的改进
  • Davies Liu – SparkR 中的新功能
  • Dean Chen – Core 中的改进; YARN 中的新功能; Core 和 YARN 中的错误修复
  • Debasish Das – MLlib 中的新功能
  • Deborah Siegel – Core 中的改进
  • Doing Done – SQL 中的改进; Core 和 SQL 中的错误修复
  • Dong Xu – SQL 中的错误修复
  • Doug Balog – spark submit、YARN 和 SQL 中的错误修复
  • Edward T – SparkR 中的新功能
  • Elisey Zanko – MLlib 和 PySpark 中的错误修复
  • Emre Sevinc – Streaming 中的改进
  • Eric Chiang – Core 中的文档
  • Erik Van Oosten – Core 中的错误修复
  • Evan Jones – Core 中的错误修复
  • Evan Yu – Core 中的错误修复
  • Evert Lammerts – SparkR 中的新功能
  • Favio Vazquez – Core 中的构建修复; Core 和 MLlib 中的文档
  • Felix Cheung – SparkR 文档
  • Florian Verhein – EC2 中的改进和新功能
  • Gaurav Nanda – Core 中的文档
  • Glenn Weidner – MLlib 和 PySpark 中的文档
  • Guancheng (G.C.) Chen – Core 中的改进
  • Guancheng Chen – Core 中的改进
  • Guo Wei – SQL 中的错误修复和窗口函数功能
  • GuoQiang Li – Core 中的新功能; Core 和 YARN 中的错误修复
  • Haiyang Sea – SQL 中的改进
  • Hangchen Yu – GraphX 中的文档
  • Hao Lin – SparkR 中的改进和新功能
  • Hari Shreedharan – Streaming 和 tests 中的测试; YARN 中的新功能; Web UI 中的错误修复
  • Harihar Nahak – SparkR 中的新功能
  • Holden Karau – Core、MLlib 和 PySpark 中的改进; PySpark 中的错误修复
  • Hossein Falaki – SparkR 文档
  • Hong Shen – Core 和 YARN 中的错误修复
  • Hrishikesh Subramonian – MLlib 和 PySpark 中的改进
  • Hung Lin – scheduler 中的错误修复
  • Ilya Ganelin – Core 中的改进; Core 中的新功能; Core 和 Shuffle 中的错误修复; Core 中的改进
  • Imran Rashid – Web UI 中的改进; Core 和 Web UI 中的错误修复
  • Isaias Barroso – Core 中的错误修复
  • Iulian Dragos – Core 和 SQL 中的错误修复; Core、Shuffle 和 Mesos 中的改进
  • Jacek Lewandowski – Core 中的错误修复
  • Jacky Li – SQL 中的改进
  • Jaonary Rabarisoa – MLlib 中的改进
  • Jayson Sunshine – Core 中的文档
  • Jean Lyn – SQL 中的错误修复
  • Jeff Harrison – SparkR 中的改进
  • Jeremy A. Lucas – Streaming 中的改进
  • Jeremy Freeman – Streaming 和 MLlib 中的错误修复
  • Jim Carroll – MLlib 中的错误修复
  • Jin Adachi – SQL 中的错误修复
  • Jongyoul Lee – Core 和 Mesos 中的改进; Core 中的错误修复
  • Joseph K. Bradley – MLlib 中的改进; PySpark、Core、SQL、MLlib 和 Streaming 中的文档; MLlib 中的新功能; Java API、Core、MLlib 和 PySpark 中的错误修复; MLlib 和 PySpark 中的改进
  • Josh Rosen – 核心和 SQL 的改进;核心、Shuffle 和 SQL 的新功能;核心、测试、Shuffle、Streaming、调度器、SQL 和 Java API 中的错误修复;核心和 Shuffle 的改进
  • Judy Nash – Windows 和 spark submit 中的错误修复
  • Judy Nash – 核心的改进
  • Juliet Hougland – MLlib 的改进
  • June He – 核心和测试中的错误修复
  • Kai Sasaki – 核心和 MLlib 中的文档;MLlib 和 PySpark 的改进;MLlib 和 PySpark 中的错误修复;MLlib 和 PySpark 的改进
  • Kalle Jepsen – PySpark 和 SQL 的改进;PySpark 中的错误修复;PySpark 的改进
  • Kamil Smuga – 核心和 PySpark 中的错误修复
  • Kay Ousterhout – 核心、Web UI 和 Shuffle 的改进;Project Infra、核心、Web UI 和测试中的错误修复
  • Kevin (Sangwoo) Kim – 核心中的错误修复
  • Kirill A. Korinskiy – MLlib 的新功能
  • Kousuke Saruta – Streaming、Web UI 和测试的改进;Web UI、调度器、测试和 YARN 中的错误修复;Web UI 的改进
  • LCY Vincent – 核心中的文档
  • Leah McGuire – MLlib 的改进和新功能
  • Lev Khomich – 核心的改进
  • Liang-Chi Hsieh – MLlib 和 SQL 的改进;MLlib 的改进;SQL 的新功能;核心、Shuffle、PySpark、MLlib、SQL 和 spark submit 中的错误修复;核心和 MLlib 中的文档
  • Liangliang Gu – 核心和 Web UI 的改进;Web UI 中的错误修复
  • Lianhui Wang – GraphX 的改进;PySpark 中的错误修复
  • Liu Chang – EC2 的改进
  • Lomig Megard – 核心中的文档
  • Madhukara Phatak – SQL 中的文档
  • Manoj Kumar – MLlib 的改进;SQL、MLlib 和 PySpark 的新功能;Streaming、MLlib 和 SQL 中的错误修复;MLlib 和 PySpark 的改进
  • Marcelo Vanzin – 核心的改进;核心、测试、Shuffle、YARN、Streaming 和 spark submit 中的错误修复;核心的改进
  • Mark Bittmann – MLlib 中的错误修复
  • Marko Bonaci – 核心中的文档
  • Masaru Dobashi – 核心中的文档
  • Masayoshi TSUZUKI – Windows 和核心中的错误修复
  • Matei Zaharia – Web UI 的改进
  • Matt Aasted – EC2 中的错误修复
  • Matt Massie – SparkR 的新功能
  • Matt Wise – 核心中的文档
  • Matthew Cheah – 核心的改进和新功能
  • Matthew Goodman – EC2 和 PySpark 中的错误修复
  • Max Seiden – SQL 中的错误修复
  • Meethu Mathew – MLlib 和 PySpark 中的错误修复
  • Michael Armbrust – 核心中的文档;SQL 的新功能;SQL 的改进;SQL 中的错误修复;核心和 SQL 的改进
  • Michael Griffiths – Windows 和核心中的错误修复
  • Michael Malak – GraphX 中的错误修复
  • Michael Nazario – 测试和 PySpark 中的错误修复
  • Michelangelo D’Agostino – EC2 中的错误修复
  • Michelle Casbon – Project Infra 的改进
  • Miguel Peralvo – EC2 的改进
  • Mike Dusenberry – 核心和 MLlib 的改进;核心中的文档;核心和 MLlib 中的错误修复
  • Milan Straka – 核心和 PySpark 中的错误修复
  • Misha Chernetsov – 核心和 SQL 的改进
  • Mridul Muralidharan – 核心和 Shuffle 的改进
  • Nan Zhu – 核心和测试的改进;核心和 SQL 中的错误修复
  • Nathan Howell – SQL 的改进和新功能
  • Nathan Kronenfeld – 核心中的错误修复
  • Nathan McCarthy – 核心中的错误修复
  • Nicholas Chammas – 核心和 EC2 的改进;EC2 中的错误修复
  • Nishkam Ravi – 核心的改进;核心中的文档;核心和 YARN 中的错误修复
  • Nobuyuki Kuromatsu – MLlib 中的错误修复
  • Octavian Geagla – MLlib 的改进;Java API、核心和 MLlib 中的文档
  • Oleg Sidorkin – SQL 中的错误修复
  • Oleksii Kostyliev – 核心中的错误修复
  • Olivier Girardot – Java API 和 SQL 的改进;核心中的错误修复;PySpark 和 SQL 的改进
  • Omede Firouz – MLlib 的改进;MLlib 和 PySpark 的新功能
  • Oscar Olmedo – SparkR 的新功能
  • Pankaj Arora – 核心中的错误修复
  • Patrick Wendell – spark submit 中的测试;核心和 Shuffle 的改进;测试和 SQL 中的错误修复
  • Pei-Lun Lee – SQL 的改进和错误修复
  • Peter Parente – 核心的改进
  • Peter Rudenko – 核心中的文档
  • Pierre Borckmans – 核心和 EC2 中的文档
  • Prabeesh K – Streaming 的改进
  • Pradeep Chanumolu – 核心的改进
  • Prashant Sharma – 核心的改进和错误修复
  • Punya Biswal – SQL 的改进;核心中的错误修复
  • Punyashloka Biswal – 核心中的构建修复
  • Qian Huang – SparkR 的新功能和改进
  • Qiping Li – 核心中的错误修复
  • Rajendra Gokhale (rvgcentos) – 核心的改进
  • Rakesh Chalasani – SQL 的改进
  • Ram Sriharsha – 核心、MLlib 和 PySpark 的改进;MLlib 的新功能;核心和 MLlib 中的文档
  • Rekha Joshi – SparkR 的改进
  • Rene Treffer – SQL 的改进
  • Rex Xiong – 核心的改进
  • Reynold Xin – Project Infra、核心、测试、PySpark 和 SQL 的改进;核心中的文档;核心和 MLlib 中的错误修复;Project Infra、核心、GraphX 和 SQL 的改进
  • Reza Zadeh – MLlib 的改进
  • Ryan Hafen – SparkR 的新功能
  • Ryan Williams – 核心的改进
  • Saisai Shao – Streaming 和测试中的测试;核心、PySpark、YARN 和 Streaming 的改进;Web UI 的新功能;Web UI 和 YARN 中的错误修复;Streaming 的改进
  • Saleem Ansari – 核心和 MLlib 中的文档
  • Sandy Ryza – 核心、Shuffle 和 MLlib 的改进;核心和 MLlib 中的文档;核心和 YARN 中的错误修复;MLlib 的改进
  • Santiago M. Mola – SQL 的改进;SQL 中的错误修复;核心中的文档
  • Sasaki Toru – 核心和 GraphX 的改进
  • Sean Owen – 核心中的文档;核心、测试、MLlib、Streaming、SQL 和 Web UI 的改进;Project Infra、核心、测试、Windows、SQL、GraphX 和 Web UI 中的错误修复;核心的改进
  • Sephiroth Lin – SparkR、核心、调度器、YARN 和 PySpark 的改进;SQL 中的错误修复
  • Shekhar Bansal – YARN 的改进;Web UI 中的错误修复
  • Sheng Li – SQL 中的错误修复
  • Shiti Saxena – SQL 的改进
  • Shivaram Venkataraman – SparkR 和 EC2 的改进;核心和 SparkR 的新功能;SparkR 中的错误修复;SparkR 的改进
  • Shixiong Zhu – Streaming、测试和核心中的测试;Streaming、Web UI 和核心的改进;Streaming、Web UI 和核心的改进;核心、测试、MLlib、YARN、Streaming、调度器和 Web UI 中的错误修复;核心和 Streaming 中的文档
  • Shuai Zheng – SQL 中的错误修复
  • Shuo Xiang – 核心的新功能;MLlib 中的错误修复
  • Stephen Boesch – MLlib 中的错误修复
  • Stephen Haberman – 核心中的错误修复
  • Steve Loughran – 核心、Web UI 和 SQL 的改进;核心和 YARN 中的错误修复
  • Steven She – 核心中的错误修复
  • Su Yan – 核心中的错误修复
  • Sun Rui – SparkR 的改进;SparkR 和 SQL 的新功能;SparkR 中的错误修复;SparkR 的改进
  • Taka Shinagawa – 核心中的文档
  • Takeshi YAMAMURO – GraphX 和 SQL 的改进
  • Tathagata Das – Streaming 和测试中的测试;Streaming 和核心的改进;Streaming 和 SQL 的新功能;Project Infra、Streaming 和核心中的错误修复
  • Ted Yu – 核心的改进;核心和 PySpark 中的错误修复
  • Theodore Vasiloudis – 核心的改进;核心和 EC2 中的错误修复
  • Thomas Graves – 核心中的错误修复
  • Tijo Thomas – 核心的改进;核心和 SQL 中的错误修复
  • Tim Ellison – 核心中的错误修复
  • Timothy Chen – spark submit 和 Mesos 的改进;spark submit 和 Mesos 中的错误修复
  • Tingjun Xu – Streaming 的改进
  • Todd Gao – SparkR
  • Venkata Ramana Gollamudi – SQL 的改进和错误修复
  • Vidmantas Zemleris – SQL 的改进
  • Vincenzo Selvaggio – MLlib 中的文档和新功能
  • Vinod K C – Shuffle 和调度器的改进;核心和 SQL 中的错误修复
  • Vinod KC – 核心和 SQL 中的错误修复
  • Volodymyr Lyubinets – SQL 的改进和错误修复
  • Vyacheslav Baranov – SQL 中的错误修复
  • Wang Fei – SQL 的改进、新功能和错误修复
  • Wang Tao – 核心、YARN 和 SQL 的改进;spark submit 的新功能;核心、spark submit 和 SQL 中的错误修复
  • Wenchen Fan – 核心的改进;核心中的文档;SQL 中的错误修复;SQL 的改进
  • Wesley Miao – Streaming 中的错误修复
  • Xiangrui Meng – SQL、MLlib 和 PySpark 的新功能;MLlib 中的 umbrella;PySpark、核心、SQL、MLlib 和 Streaming 中的文档;核心、SQL、MLlib 和 PySpark 的改进;GraphX 和 MLlib 中的构建修复;核心、SQL、MLlib 和 PySpark 的改进;Java API、Web UI、SQL、MLlib 和 PySpark 中的错误修复
  • Xu Kun – 核心的新功能
  • Xusen Yin – 核心和 MLlib 中的文档;MLlib 的改进
  • Yadong Qi – SQL 的改进和错误修复
  • Yanbo Liang – 核心、MLlib 和 PySpark 的改进;MLlib 和 PySpark 的新功能;MLlib 和 SQL 中的错误修复;MLlib 和 PySpark 的改进
  • Yash Datta – SQL 的改进和错误修复
  • Ye Xianjin – 核心中的错误修复
  • Yi Lu – SparkR 的新功能
  • Yi Tian – Web UI 和 SQL 的新功能;SQL 中的错误修复
  • Yin Huai – 测试和 SQL 的改进;SQL 的新功能;核心和 SQL 中的错误修复;核心和 SQL 的改进
  • Yong Tang – 核心中的错误修复
  • Yu ISHIKAWA – MLlib 的改进
  • Yuhao Yang – 核心和 MLlib 的改进;MLlib 的新功能;核心和 MLlib 中的文档
  • Yuri Saito – SQL 中的错误修复
  • Zhan Zhang – 核心的改进;核心和 SQL 的新功能
  • Zhang, Liye – 核心中的文档;核心和 Web UI 中的错误修复
  • Zhichao Li – Streaming、Web UI 和核心中的错误修复
  • Zhichao Zhang – SQL 的改进;Streaming 中的错误修复;核心中的文档
  • Zhongshuai Pei – SQL 的改进和错误修复
  • Zoltan Zvara – 核心和 YARN 中的错误修复
  • Zongheng Yang – SparkR 的新功能

感谢所有贡献者!


Spark 新闻存档