可在 Java、Scala、Python 和 R 中使用。
MLlib 适用于 Spark 的 API,并与 Python 中的 NumPy(从 Spark 0.9 开始)和 R 库(从 Spark 1.5 开始)互操作。 您可以使用任何 Hadoop 数据源(例如 HDFS、HBase 或本地文件),从而可以轻松地插入 Hadoop 工作流程。
高质量算法,比 MapReduce 快 100 倍。
Spark 在迭代计算方面表现出色,使 MLlib 能够快速运行。 同时,我们关心算法性能:MLlib 包含利用迭代的高质量算法,并且可以产生比 MapReduce 上有时使用的一次性近似更好的结果。
Spark 可以在 Hadoop、Apache Mesos、Kubernetes、独立或云中针对不同的数据源运行。
您可以使用其 独立集群模式、EC2、Hadoop YARN、Mesos 或 Kubernetes 运行 Spark。 访问 HDFS、Apache Cassandra、Apache HBase、Apache Hive 以及数百个其他数据源中的数据。
MLlib 包含许多算法和实用程序。
ML 算法包括
ML 工作流实用程序包括
其他实用程序包括
有关使用示例,请参阅 MLlib 指南。
MLlib 是作为 Apache Spark 项目的一部分开发的。 因此,每次 Spark 发布时都会对其进行测试和更新。
如果您对该库有疑问,请在 Spark 邮件列表中提问。
MLlib 仍然是一个快速增长的项目,欢迎大家贡献。 如果您想向 MLlib 提交算法,请阅读 如何为 Spark 做出贡献 并向我们发送补丁!