Spark 发布 1.4.0

Spark 1.4.0 是 1.X 系列的第五个版本。此版本为 Spark 带来了 R API。它还带来了 Spark 核心引擎的可用性改进以及 MLlib 和 Spark Streaming 的扩展。Spark 1.4 代表了来自 70 多个机构的 210 多位贡献者通过 1000 多个独立补丁完成的工作。

要下载 Spark 1.4,请访问下载页面。

SparkR

Spark 1.4 是第一个打包 SparkR 的版本,SparkR 是基于 Spark 新的 DataFrame API 的 Spark R 绑定。SparkR 让 R 用户能够访问 Spark 的横向扩展并行运行时以及所有 Spark 的输入和输出格式。它还支持直接调用 Spark SQL。R 编程指南中包含更多关于如何开始使用 SparkR 的信息。

Spark Core

Spark 核心增加了各种侧重于操作、性能和兼容性的改进

DataFrame API 和 Spark SQL

DataFrame API 在 Spark 1.4 中进行了重大扩展(有关完整列表,请参阅此链接),重点是分析和数学函数。Spark SQL 引入了新的操作实用程序以及对 ORCFile 的支持。

Spark ML/MLlib

Spark 的 ML Pipelines API 在此版本中从 alpha 毕业,新增了转换器并改进了 Python 覆盖范围。MLlib 还添加了几种新算法。

Spark Streaming

Spark streaming 在 UI 中添加了可视化仪表图和显著改进的调试信息。它还增强了对 Kafka 和 Kinesis 的支持。

已知问题

此版本有几个已知问题,将在 Spark 1.4.1 中解决

  • 如果单个分区大于工作节点内存,Python sortBy()/sortByKey() 可能会挂起 SPARK-8202
  • JSON 模式推断的意外行为更改 SPARK-8093
  • 某些 ML Pipeline 组件未正确实现 copy SPARK-8151
  • Spark-ec2 分支指针错误 SPARK-8310

鸣谢

测试伙伴

感谢以下组织,它们协助对发布候选版本进行了基准测试或集成测试
英特尔、Palantir、Cloudera、Mesosphere、华为、Shopify、Netflix、雅虎、加州大学伯克利分校和 Databricks。

贡献者

  • Aaron Davidson – Core、Shuffle 和 YARN 中的错误修复
  • Aaron Josephs – Core 中的新功能
  • Adam Budde – SQL 中的错误修复
  • Ai He – MLlib 中的改进
  • Andrew Or – Core 中的错误修复
  • Andrew Or – Core 和 YARN 中的改进;Core、Web UI、Streaming、测试和 SQL 中的错误修复;Streaming、Web UI、Core 和 SQL 中的改进
  • Andrey Zagrebin – SQL 中的改进
  • Antonio Piccolboni – SparkR 中的新功能
  • Arsenii Krasikov – Core 中的错误修复
  • Ashutosh Raina – SparkR 中的新功能
  • Ashwin Shankar – YARN 中的错误修复
  • Augustin Borsu – MLlib 中的新功能
  • Ben Fradet – Core 和 Streaming 中的文档
  • Benedikt Linse – Core 中的文档
  • Bill Chambers – Core 中的文档
  • Brennon York – Project Infra、Core、GraphX 和测试中的改进;Core 中的错误修复
  • Bryan Cutler – Core 中的错误修复
  • Burak Yavuz – Spark submit 中的测试;Core 和 Streaming 中的改进;MLlib 和 PySpark 中的新功能;Core、测试和 Spark submit 中的错误修复;SQL、MLlib 和 PySpark 中的改进
  • Calvin Jia – Core 中的改进和文档
  • Chen Song – SQL 中的错误修复和改进
  • Cheng Chang – EC2 中的新功能
  • Cheng Hao – SQL 中的改进、新功能、错误修复和改进
  • Cheng Lian – SQL 中的错误修复
  • Cheng Lian – Core 和 SQL 中的改进;Core 和 SQL 中的文档;Core 和 SQL 中的错误修复;SQL 中的改进
  • Cheolsoo Park – YARN 中的愿望;Core 和 Spark submit 中的改进;Core 中的错误修复
  • Chris Freeman – SparkR 中的新功能
  • Chet Mancini – Core 和 SQL 中的改进
  • Chris Heller – Mesos 中的新功能
  • Christophe Preaud – Core 和 YARN 中的文档
  • Cody Koeninger – Streaming 中的错误修复;Core 中的改进
  • DB Tsai – MLlib 中的改进、新功能和错误修复
  • DEBORAH SIEGEL – Core 中的文档
  • Dan McClary – GraphX 中的新功能
  • Dan Putler – SparkR 中的新功能
  • Daoyuan Wang – 测试和 SQL 中的改进;SQL 中的新功能;SQL 中的错误修复;MLlib 和 SQL 中的改进
  • David McGuire – Streaming 中的错误修复
  • Davies Liu – SQL 和 PySpark 中的改进;Core 和 SparkR 中的新功能;Streaming、测试、PySpark、SparkR 和 SQL 中的错误修复;Core 和 SQL 中的改进
  • Davies Liu – SparkR 中的新功能
  • Dean Chen – Core 中的改进;YARN 中的新功能;Core 和 YARN 中的错误修复
  • Debasish Das – MLlib 中的新功能
  • Deborah Siegel – Core 中的改进
  • Doing Done – SQL 中的改进;Core 和 SQL 中的错误修复
  • Dong Xu – SQL 中的错误修复
  • Doug Balog – Spark submit、YARN 和 SQL 中的错误修复
  • Edward T – SparkR 中的新功能
  • Elisey Zanko – MLlib 和 PySpark 中的错误修复
  • Emre Sevinc – Streaming 中的改进
  • Eric Chiang – Core 中的文档
  • Erik Van Oosten – Core 中的错误修复
  • Evan Jones – Core 中的错误修复
  • Evan Yu – Core 中的错误修复
  • Evert Lammerts – SparkR 中的新功能
  • Favio Vazquez – Core 中的构建修复;Core 和 MLlib 中的文档
  • Felix Cheung – SparkR 文档
  • Florian Verhein – EC2 中的改进和新功能
  • Gaurav Nanda – Core 中的文档
  • Glenn Weidner – MLlib 和 PySpark 中的文档
  • Guancheng (G.C.) Chen – Core 中的改进
  • Guancheng Chen – Core 中的改进
  • Guo Wei – SQL 中的错误修复和窗口函数功能
  • GuoQiang Li – Core 中的新功能;Core 和 YARN 中的错误修复
  • Haiyang Sea – SQL 中的改进
  • Hangchen Yu – GraphX 中的文档
  • Hao Lin – SparkR 中的改进和新功能
  • Hari Shreedharan – Streaming 和测试中的测试;YARN 中的新功能;Web UI 中的错误修复
  • Harihar Nahak – SparkR 中的新功能
  • Holden Karau – Core、MLlib 和 PySpark 中的改进;PySpark 中的错误修复
  • Hossein Falaki – SparkR 文档
  • Hong Shen – Core 和 YARN 中的错误修复
  • Hrishikesh Subramonian – MLlib 和 PySpark 中的改进
  • Hung Lin – 调度器中的错误修复
  • Ilya Ganelin – Core 中的改进;Core 中的新功能;Core 和 Shuffle 中的错误修复;Core 中的改进
  • Imran Rashid – Web UI 中的改进;Core 和 Web UI 中的错误修复
  • Isaias Barroso – Core 中的错误修复
  • Iulian Dragos – Core 和 SQL 中的错误修复;Core、Shuffle 和 Mesos 中的改进
  • Jacek Lewandowski – Core 中的错误修复
  • Jacky Li – SQL 中的改进
  • Jaonary Rabarisoa – MLlib 中的改进
  • Jayson Sunshine – Core 中的文档
  • Jean Lyn – SQL 中的错误修复
  • Jeff Harrison – SparkR 中的改进
  • Jeremy A. Lucas – Streaming 中的改进
  • Jeremy Freeman – Streaming 和 MLlib 中的错误修复
  • Jim Carroll – MLlib 中的错误修复
  • Jin Adachi – SQL 中的错误修复
  • Jongyoul Lee – Core 和 Mesos 中的改进;Core 中的错误修复
  • Joseph K. Bradley – MLlib 中的改进;PySpark、Core、SQL、MLlib 和 Streaming 中的文档;MLlib 中的新功能;Java API、Core、MLlib 和 PySpark 中的错误修复;MLlib 和 PySpark 中的改进
  • Josh Rosen – Core 和 SQL 中的改进;Core、Shuffle 和 SQL 中的新功能;Core、测试、Shuffle、Streaming、调度器、SQL 和 Java API 中的错误修复;Core 和 Shuffle 中的改进
  • Judy Nash – Windows 和 Spark submit 中的错误修复
  • Judy Nash – Core 中的改进
  • Juliet Hougland – MLlib 中的改进
  • June He – Core 和测试中的错误修复
  • Kai Sasaki – Core 和 MLlib 中的文档;MLlib 和 PySpark 中的改进;MLlib 和 PySpark 中的错误修复;MLlib 和 PySpark 中的改进
  • Kalle Jepsen – PySpark 和 SQL 中的改进;PySpark 中的错误修复;PySpark 中的改进
  • Kamil Smuga – Core 和 PySpark 中的错误修复
  • Kay Ousterhout – Core、Web UI 和 Shuffle 中的改进;Project Infra、Core、Web UI 和测试中的错误修复
  • Kevin (Sangwoo) Kim – Core 中的错误修复
  • Kirill A. Korinskiy – MLlib 中的新功能
  • Kousuke Saruta – Streaming、Web UI 和测试中的改进;Web UI、调度器、测试和 YARN 中的错误修复;Web UI 中的改进
  • LCY Vincent – Core 中的文档
  • Leah McGuire – MLlib 中的改进和新功能
  • Lev Khomich – Core 中的改进
  • Liang-Chi Hsieh – MLlib 和 SQL 中的改进;MLlib 中的改进;SQL 中的新功能;Core、Shuffle、PySpark、MLlib、SQL 和 Spark submit 中的错误修复;Core 和 MLlib 中的文档
  • Liangliang Gu – Core 和 Web UI 中的改进;Web UI 中的错误修复
  • Lianhui Wang – GraphX 中的改进;PySpark 中的错误修复
  • Liu Chang – EC2 中的改进
  • Lomig Megard – Core 中的文档
  • Madhukara Phatak – SQL 中的文档
  • Manoj Kumar – MLlib 中的改进;SQL、MLlib 和 PySpark 中的新功能;Streaming、MLlib 和 SQL 中的错误修复;MLlib 和 PySpark 中的改进
  • Marcelo Vanzin – Core 中的改进;Core、测试、Shuffle、YARN、Streaming 和 Spark submit 中的错误修复;Core 中的改进
  • Mark Bittmann – MLlib 中的错误修复
  • Marko Bonaci – Core 中的文档
  • Masaru Dobashi – Core 中的文档
  • Masayoshi TSUZUKI – Windows 和 Core 中的错误修复
  • Matei Zaharia – Web UI 中的改进
  • Matt Aasted – EC2 中的错误修复
  • Matt Massie – SparkR 中的新功能
  • Matt Wise – Core 中的文档
  • Matthew Cheah – Core 中的改进和新功能
  • Matthew Goodman – EC2 和 PySpark 中的错误修复
  • Max Seiden – SQL 中的错误修复
  • Meethu Mathew – MLlib 和 PySpark 中的错误修复
  • Michael Armbrust – Core 中的文档;SQL 中的新功能;SQL 中的改进;SQL 中的错误修复;Core 和 SQL 中的改进
  • Michael Griffiths – Windows 和 Core 中的错误修复
  • Michael Malak – GraphX 中的错误修复
  • Michael Nazario – 测试和 PySpark 中的错误修复
  • Michelangelo D’Agostino – EC2 中的错误修复
  • Michelle Casbon – Project Infra 中的改进
  • Miguel Peralvo – EC2 中的改进
  • Mike Dusenberry – Core 和 MLlib 中的改进;Core 中的文档;Core 和 MLlib 中的错误修复
  • Milan Straka – Core 和 PySpark 中的错误修复
  • Misha Chernetsov – Core 和 SQL 中的改进
  • Mridul Muralidharan – Core 和 Shuffle 中的改进
  • Nan Zhu – Core 和测试中的改进;Core 和 SQL 中的错误修复
  • Nathan Howell – SQL 中的改进和新功能
  • Nathan Kronenfeld – Core 中的错误修复
  • Nathan McCarthy – Core 中的错误修复
  • Nicholas Chammas – Core 和 EC2 中的改进;EC2 中的错误修复
  • Nishkam Ravi – Core 中的改进;Core 中的文档;Core 和 YARN 中的错误修复
  • Nobuyuki Kuromatsu – MLlib 中的错误修复
  • Octavian Geagla – MLlib 中的改进;Java API、Core 和 MLlib 中的文档
  • Oleg Sidorkin – SQL 中的错误修复
  • Oleksii Kostyliev – Core 中的错误修复
  • Olivier Girardot – Java API 和 SQL 中的改进;Core 中的错误修复;PySpark 和 SQL 中的改进
  • Omede Firouz – MLlib 中的改进;MLlib 和 PySpark 中的新功能
  • Oscar Olmedo – SparkR 中的新功能
  • Pankaj Arora – Core 中的错误修复
  • Patrick Wendell – Spark submit 中的测试;Core 和 Shuffle 中的改进;测试和 SQL 中的错误修复
  • Pei-Lun Lee – SQL 中的改进和错误修复
  • Peter Parente – Core 中的改进
  • Peter Rudenko – Core 中的文档
  • Pierre Borckmans – Core 和 EC2 中的文档
  • Prabeesh K – Streaming 中的改进
  • Pradeep Chanumolu – Core 中的改进
  • Prashant Sharma – Core 中的改进和错误修复
  • Punya Biswal – SQL 中的改进;Core 中的错误修复
  • Punyashloka Biswal – Core 中的构建修复
  • Qian Huang – SparkR 中的新功能和改进
  • Qiping Li – Core 中的错误修复
  • Rajendra Gokhale (rvgcentos) – Core 中的改进
  • Rakesh Chalasani – SQL 中的改进
  • Ram Sriharsha – Core、MLlib 和 PySpark 中的改进;MLlib 中的新功能;Core 和 MLlib 中的文档
  • Rekha Joshi – SparkR 中的改进
  • Rene Treffer – SQL 中的改进
  • Rex Xiong – Core 中的改进
  • Reynold Xin – Project Infra、Core、测试、PySpark 和 SQL 中的改进;Core 中的文档;Core 和 MLlib 中的错误修复;Project Infra、Core、GraphX 和 SQL 中的改进
  • Reza Zadeh – MLlib 中的改进
  • Ryan Hafen – SparkR 中的新功能
  • Ryan Williams – Core 中的改进
  • Saisai Shao – Streaming 和测试中的测试;Core、PySpark、YARN 和 Streaming 中的改进;Web UI 中的新功能;Web UI 和 YARN 中的错误修复;Streaming 中的改进
  • Saleem Ansari – Core 和 MLlib 中的文档
  • Sandy Ryza – Core、Shuffle 和 MLlib 中的改进;Core 和 MLlib 中的文档;Core 和 YARN 中的错误修复;MLlib 中的改进
  • Santiago M. Mola – SQL 中的改进;SQL 中的错误修复;Core 中的文档
  • Sasaki Toru – Core 和 GraphX 中的改进
  • Sean Owen – Core 中的文档;Core、测试、MLlib、Streaming、SQL 和 Web UI 中的改进;Project Infra、Core、测试、Windows、SQL、GraphX 和 Web UI 中的错误修复;Core 中的改进
  • Sephiroth Lin – SparkR、Core、调度器、YARN 和 PySpark 中的改进;SQL 中的错误修复
  • Shekhar Bansal – YARN 中的改进;Web UI 中的错误修复
  • Sheng Li – SQL 中的错误修复
  • Shiti Saxena – SQL 中的改进
  • Shivaram Venkataraman – SparkR 和 EC2 中的改进;Core 和 SparkR 中的新功能;SparkR 中的错误修复;SparkR 中的改进
  • Shixiong Zhu – Streaming、测试和 Core 中的测试;Streaming、Web UI 和 Core 中的改进;Streaming、Web UI 和 Core 中的改进;Core、测试、MLlib、YARN、Streaming、调度器和 Web UI 中的错误修复;Core 和 Streaming 中的文档
  • Shuai Zheng – SQL 中的错误修复
  • Shuo Xiang – Core 中的新功能;MLlib 中的错误修复
  • Stephen Boesch – MLlib 中的错误修复
  • Stephen Haberman – Core 中的错误修复
  • Steve Loughran – Core、Web UI 和 SQL 中的改进;Core 和 YARN 中的错误修复
  • Steven She – Core 中的错误修复
  • Su Yan – Core 中的错误修复
  • Sun Rui – SparkR 中的改进;SparkR 和 SQL 中的新功能;SparkR 中的错误修复;SparkR 中的改进
  • Taka Shinagawa – Core 中的文档
  • Takeshi YAMAMURO – GraphX 和 SQL 中的改进
  • Tathagata Das – Streaming 和测试中的测试;Streaming 和 Core 中的改进;Streaming 和 SQL 中的新功能;Project Infra、Streaming 和 Core 中的错误修复
  • Ted Yu – Core 中的改进;Core 和 PySpark 中的错误修复
  • Theodore Vasiloudis – Core 中的改进;Core 和 EC2 中的错误修复
  • Thomas Graves – Core 中的错误修复
  • Tijo Thomas – Core 中的改进;Core 和 SQL 中的错误修复
  • Tim Ellison – Core 中的错误修复
  • Timothy Chen – Spark submit 和 Mesos 中的改进;Spark submit 和 Mesos 中的错误修复
  • Tingjun Xu – Streaming 中的改进
  • Todd Gao – SparkR
  • Venkata Ramana Gollamudi – SQL 中的改进和错误修复
  • Vidmantas Zemleris – SQL 中的改进
  • Vincenzo Selvaggio – MLlib 中的文档和新功能
  • Vinod K C – Shuffle 和调度器中的改进;Core 和 SQL 中的错误修复
  • Vinod KC – Core 和 SQL 中的错误修复
  • Volodymyr Lyubinets – SQL 中的改进和错误修复
  • Vyacheslav Baranov – SQL 中的错误修复
  • Wang Fei – SQL 中的改进、新功能和错误修复
  • Wang Tao – Core、YARN 和 SQL 中的改进;Spark submit 中的新功能;Core、Spark submit 和 SQL 中的错误修复
  • Wenchen Fan – Core 中的改进;Core 中的文档;SQL 中的错误修复;SQL 中的改进
  • Wesley Miao – Streaming 中的错误修复
  • Xiangrui Meng – SQL、MLlib 和 PySpark 中的新功能;MLlib 中的整体改进;PySpark、Core、SQL、MLlib 和 Streaming 中的文档;Core、SQL、MLlib 和 PySpark 中的改进;GraphX 和 MLlib 中的构建修复;Core、SQL、MLlib 和 PySpark 中的改进;Java API、Web UI、SQL、MLlib 和 PySpark 中的错误修复
  • Xu Kun – Core 中的新功能
  • Xusen Yin – Core 和 MLlib 中的文档;MLlib 中的改进
  • Yadong Qi – SQL 中的改进和错误修复
  • Yanbo Liang – Core、MLlib 和 PySpark 中的改进;MLlib 和 PySpark 中的新功能;MLlib 和 SQL 中的错误修复;MLlib 和 PySpark 中的改进
  • Yash Datta – SQL 中的改进和错误修复
  • Ye Xianjin – Core 中的错误修复
  • Yi Lu – SparkR 中的新功能
  • Yi Tian – Web UI 和 SQL 中的新功能;SQL 中的错误修复
  • Yin Huai – 测试和 SQL 中的改进;SQL 中的新功能;Core 和 SQL 中的错误修复;Core 和 SQL 中的改进
  • Yong Tang – Core 中的错误修复
  • Yu ISHIKAWA – MLlib 中的改进
  • Yuhao Yang – Core 和 MLlib 中的改进;MLlib 中的新功能;Core 和 MLlib 中的文档
  • Yuri Saito – SQL 中的错误修复
  • Zhan Zhang – Core 中的改进;Core 和 SQL 中的新功能
  • Zhang, Liye – Core 中的文档;Core 和 Web UI 中的错误修复
  • Zhichao Li – Streaming、Web UI 和 Core 中的错误修复
  • Zhichao Zhang – SQL 中的改进;Streaming 中的错误修复;Core 中的文档
  • Zhongshuai Pei – SQL 中的改进和错误修复
  • Zoltan Zvara – Core 和 YARN 中的错误修复
  • Zongheng Yang – SparkR 中的新功能

感谢所有贡献者!


Spark 新闻存档

最新新闻

存档