可在 Java、Scala、Python 和 R 中使用。
MLlib 完美契合 Spark 的 API,并能与 Python 中的 NumPy(自 Spark 0.9 起)以及 R 语言库(自 Spark 1.5 起)进行交互。您可以使用任何 Hadoop 数据源(例如 HDFS、HBase 或本地文件),从而轻松集成到 Hadoop 工作流中。
高质量算法,速度比 MapReduce 快 100 倍。
Spark 擅长迭代计算,这使得 MLlib 运行速度极快。同时,我们也非常注重算法的性能:MLlib 包含利用迭代的高质量算法,能够比 MapReduce 中有时使用的单遍近似算法产生更好的结果。
Spark 可在 Hadoop、Apache Mesos、Kubernetes、独立模式或云端运行,并支持多种数据源。
您可以使用 Spark 的 独立集群模式 (standalone cluster mode),或在 EC2、Hadoop YARN、Mesos 或 Kubernetes 上运行 Spark。访问 HDFS、Apache Cassandra、Apache HBase、Apache Hive 以及数百种其他数据源中的数据。
MLlib 包含许多算法和实用工具。
机器学习算法包括
机器学习工作流实用工具包括
其他实用工具包括
有关用法示例,请参阅 MLlib 指南。
MLlib 是作为 Apache Spark 项目的一部分进行开发的,因此它随每个 Spark 版本进行测试和更新。
如果您对该库有任何疑问,请在 Spark 邮件列表上提问。
MLlib 是一个快速发展的项目,欢迎贡献代码。如果您想向 MLlib 提交算法,请阅读如何向 Spark 贡献代码并向我们发送补丁!