4.0.0
概述
编程指南
快速入门
RDD、累加器、广播变量
SQL、DataFrame 和 Dataset
结构化流
Spark Streaming (DStreams)
MLlib (机器学习)
GraphX (图处理)
SparkR (Spark 上的 R)
PySpark (Spark 上的 Python)
API 文档
Python
Scala
Java
R
SQL、内置函数
部署
概述
提交应用程序
Spark Standalone
YARN
Kubernetes
更多
配置
监控
调优指南
作业调度
安全性
硬件配置
迁移指南
构建 Spark
贡献 Spark
第三方项目
MLlib:主指南
基本统计
数据源
管道
特征提取、转换与选择
分类与回归
聚类
协同过滤
频繁模式挖掘
模型选择与调优
高级主题
MLlib:基于 RDD 的 API 指南
数据类型
基本统计
分类与回归
线性模型(SVM、逻辑回归、线性回归)
朴素贝叶斯
决策树
决策树集成(随机森林和梯度提升树)
保序回归
协同过滤
聚类
降维
特征提取与转换
频繁模式挖掘
评估指标
PMML 模型导出
优化(开发者)
分类与回归 - 基于 RDD 的 API
spark.mllib
包支持用于
二元分类
、
多元分类
和
回归分析
的多种方法。下表概述了每种问题类型支持的算法。
问题类型
支持的方法
二元分类
线性 SVM、逻辑回归、决策树、随机森林、梯度提升树、朴素贝叶斯
多元分类
逻辑回归、决策树、随机森林、朴素贝叶斯
回归
线性最小二乘、Lasso、岭回归、决策树、随机森林、梯度提升树、保序回归
有关这些方法的更多详细信息请参见此处
线性模型
分类(SVM、逻辑回归)
线性回归(最小二乘、Lasso、岭)
决策树
决策树集成
随机森林
梯度提升树
朴素贝叶斯
保序回归