3.5.1
概述
编程指南
快速入门
RDD、累加器、广播变量
SQL、DataFrame 和 Dataset
结构化流
Spark 流式处理 (DStream)
MLlib(机器学习)
GraphX(图处理)
SparkR(Spark 上的 R)
PySpark(Spark 上的 Python)
API 文档
Scala
Java
Python
R
SQL,内置函数
部署
概述
提交应用程序
Spark 独立模式
Mesos
YARN
Kubernetes
更多
配置
监控
调优指南
作业调度
安全
硬件配置
迁移指南
构建 Spark
为 Spark 做贡献
第三方项目
MLlib:主要指南
基本统计
数据源
管道
提取、转换和选择特征
分类与回归
聚类
协同过滤
频繁模式挖掘
模型选择和调优
高级主题
MLlib:基于 RDD 的 API 指南
数据类型
基本统计
分类与回归
线性模型(SVM、逻辑回归、线性回归)
朴素贝叶斯
决策树
树集成(随机森林和梯度提升树)
等距回归
协同过滤
聚类
降维
特征提取和转换
频繁模式挖掘
评估指标
PMML 模型导出
优化(开发者)
分类与回归 - 基于 RDD 的 API
spark.mllib
包支持各种方法用于
二元分类
、
多元分类
和
回归分析
。下表概述了每种问题类型支持的算法。
问题类型
支持的方法
二元分类
线性 SVM、逻辑回归、决策树、随机森林、梯度提升树、朴素贝叶斯
多元分类
逻辑回归、决策树、随机森林、朴素贝叶斯
回归
线性最小二乘、Lasso、岭回归、决策树、随机森林、梯度提升树、等距回归
这些方法的更多详细信息可以在这里找到
线性模型
分类(SVM、逻辑回归)
线性回归(最小二乘、Lasso、岭回归)
决策树
决策树集成
随机森林
梯度提升树
朴素贝叶斯
等距回归