第三方项目 | Apache Spark

此页面追踪补充 Apache Spark 并丰富其生态系统的外部软件项目。

流行且集成 PySpark 的库

Kyuubi - Apache Kyuubi 是一个分布式多租户网关，可在数据仓库和数据湖上提供无服务器 SQL
REST Job Server for Apache Spark - 用于在同一集群上管理和提交 Spark 作业的 REST 接口。
Apache Mesos - 支持运行 Spark 的集群管理系统
Alluxio (原名 Tachyon) - 支持运行 Spark 的内存速度虚拟分布式存储系统
FiloDB - 一个集成 Spark 的分析/列式数据库，具有内存选项，能够进行亚秒级并发查询
Zeppelin - 支持 20 多种语言后端（包括 Apache Spark）的多用途笔记本
Kubeflow Spark Operator - 用于管理 Kubernetes 上 Apache Spark 应用程序生命周期的 Kubernetes 运算符。
IBM Spectrum Conductor - 与 Spark 和现代计算框架集成的集群管理软件。
MLflow - 一个开源平台，用于管理机器学习生命周期，包括在 Apache Spark 上部署来自不同机器学习库的模型。
Apache DataFu - 一系列用于在 Apache Spark 中处理大规模数据的实用工具和用户定义函数，同时简化 Scala-Python 互操作性。

Apache Mahout - 之前基于 Hadoop MapReduce，Mahout 已转向使用 Spark 作为后端
ADAM - 一个用于使用 Apache Spark 加载、转换和分析基因组数据的框架和命令行界面
TransmogrifAI - 一个 AutoML 库，用于在 Spark 上构建模块化、可重用、强类型的机器学习工作流，且无需大量手动调优
Natural Language Processing for Apache Spark - 一个库，为机器学习管道提供简单、高性能和准确的自然语言处理（NLP）标注
Rumble for Apache Spark - 一个 JSONiq 引擎，用于使用函数式语言查询不适合数据帧的大型、嵌套和异构 JSON 数据集。
Lightning Catalog - 一个数据目录，用于运行即席查询、通过联合企业数据资产进行数据整理，以及构建带有数据质量检查的统一语义层。

Data Mechanics Delight - Delight 是一个免费的、托管的、跨平台的 Spark UI 替代方案，由开源 Spark 代理支持。它提供新的指标和可视化功能，以简化 Spark 监控和性能调优。
DataFlint - DataFlint 是通过开源库安装的 Spark UI 替代方案，可实时更新并对性能问题发出警报

要添加项目，请向 spark-website 仓库提交拉取请求。将条目添加到此 Markdown 文件，然后运行 jekyll build 以生成 HTML。请在您的拉取请求中包含两者。有关更多信息，请参阅此仓库中的 README。

请注意，所有项目和产品名称应遵循商标指南。