大规模数据分析的统一引擎

开始使用

什么是 Apache Spark

Apache Spark 是一个多语言引擎,用于在单节点机器或集群上执行数据工程、数据科学和机器学习。
简单。
快速。
可扩展。
统一。
主要特点
Batch/streaming data
批处理/流式数据
使用您喜欢的语言(Python、SQL、Scala、Java 或 R)统一处理您的批处理和实时流数据。
SQL analytics
SQL 分析
执行快速、分布式的 ANSI SQL 查询,用于仪表板和临时报告。运行速度比大多数数据仓库更快。
Data science at scale
大规模数据科学
对 PB 级数据执行探索性数据分析 (EDA),而无需进行降采样。
Machine Learning
机器学习
在笔记本电脑上训练机器学习算法,并使用相同的代码扩展到具有容错能力的数千台机器集群。
最广泛使用的可扩展计算引擎
数千家公司(包括 80% 的财富 500 强)都在使用 Apache Spark
来自行业和学术界的 2,000 多名贡献者参与到此开源项目中。
生态系统
Apache Spark 与您最喜欢的框架集成,帮助它们扩展到数千台机器。
数据科学和机器学习
SQL 分析和 BI
存储和基础设施
Spark SQL 引擎:底层原理
Apache Spark 构建在用于大规模数据的高级分布式 SQL 引擎之上。
自适应查询执行

Spark SQL 在运行时调整执行计划,例如自动设置 reducer 的数量和连接算法。

支持 ANSI SQL

使用您已经熟悉的 SQL。

结构化和非结构化数据

Spark SQL 适用于结构化表和非结构化数据,例如 JSON 或图像。

TPC-DS 1TB 无统计数据与有自适应查询执行的比较
加速 TPC-DS 查询高达 8 倍
加入社区
Spark 拥有一个蓬勃发展的开源社区,来自世界各地的贡献者构建功能、编写文档并协助其他用户。