3.5.5
概述
编程指南
快速入门
RDD、累加器、广播变量
SQL、DataFrame 和 Dataset
结构化流
Spark Streaming (DStreams)
MLlib (机器学习)
GraphX (图处理)
SparkR (Spark 上的 R)
PySpark (Spark 上的 Python)
API 文档
Scala
Java
Python
R
SQL、内置函数
部署
概述
提交应用程序
Spark Standalone
Mesos
YARN
Kubernetes
更多
配置
监控
调优指南
作业调度
安全
硬件配置
迁移指南
构建 Spark
贡献 Spark
第三方项目
MLlib: 主要指南
基本统计
数据源
管道
提取、转换和选择特征
分类与回归
聚类
协同过滤
频繁模式挖掘
模型选择与调优
高级主题
MLlib: 基于 RDD 的 API 指南
数据类型
基本统计
分类与回归
线性模型(SVM、logistic 回归、线性回归)
朴素贝叶斯
决策树
树集成(随机森林和梯度提升树)
保序回归
协同过滤
聚类
降维
特征提取与转换
频繁模式挖掘
评估指标
PMML 模型导出
优化(开发者)
分类与回归 - 基于 RDD 的 API
spark.mllib
包支持多种用于
二元分类
、
多元分类
和
回归分析
的方法。 下表概述了每种问题类型支持的算法。
问题类型
支持的方法
二元分类
线性 SVM、logistic 回归、决策树、随机森林、梯度提升树、朴素贝叶斯
多元分类
logistic 回归、决策树、随机森林、朴素贝叶斯
回归
线性最小二乘法、Lasso、岭回归、决策树、随机森林、梯度提升树、保序回归
有关这些方法的更多详细信息可以在这里找到
线性模型
分类(SVM、logistic 回归)
线性回归(最小二乘法、Lasso、岭回归)
决策树
决策树集成
随机森林
梯度提升树
朴素贝叶斯
保序回归