此页面跟踪补充 Apache Spark 并添加到其生态系统的外部软件项目。

  • great-expectations - 始终了解您对数据的期望
  • Apache Airflow - 一个以编程方式创作、安排和监控工作流程的平台
  • xgboost - 可扩展、可移植和分布式梯度提升
  • shap - 一种博弈论方法来解释任何机器学习模型的输出
  • python-deequ - 衡量大型数据集中的数据质量
  • datahub - 现代数据栈的元数据平台
  • dbt-spark - 使 dbt 能够与 Apache Spark 一起工作
  • Hamilton - 使人们能够声明式地描述 PySpark 转换,这有助于保持代码的可测试性、模块化和逻辑可视化。
  • ScaleDP - 一个使用 Apache Spark 中的 AI/ML 处理文档的开源库。

连接器

开放表格式

  • Delta Lake - 存储层,为 Apache Spark 工作负载提供 ACID 事务和可扩展的元数据处理
  • Hudi: 对大数据进行 Upsert、删除和增量处理
  • Iceberg - 用于分析数据集的开放表格式

基础设施项目

  • Kyuubi - Apache Kyuubi 是一个分布式多租户网关,用于在数据仓库和湖仓一体上提供无服务器 SQL
  • Apache Spark 的 REST Job Server - 用于在同一集群上管理和提交 Spark 作业的 REST 接口。
  • Apache Mesos - 支持运行 Spark 的集群管理系统
  • Alluxio (原 Tachyon) - 支持运行 Spark 的内存速度虚拟分布式存储系统
  • FiloDB - 一个与 Spark 集成的分析/列式数据库,具有内存选项,能够进行亚秒级并发查询
  • Zeppelin - 支持 20 多种语言后端的通用笔记本,包括 Apache Spark
  • Kubeflow Spark Operator - 用于管理 Kubernetes 上 Apache Spark 应用程序生命周期的 Kubernetes 运算符。
  • IBM Spectrum Conductor - 与 Spark 和现代计算框架集成的集群管理软件。
  • MLflow - 用于管理机器学习生命周期的开源平台,包括在 Apache Spark 上部署来自各种机器学习库的模型。
  • Apache DataFu - 一个用于在 Apache Spark 中处理大规模数据以及使 Scala-Python 互操作性更容易的实用程序和用户定义函数的集合。

使用 Spark 的应用程序

  • Apache Mahout - 以前在 Hadoop MapReduce 上,Mahout 已切换为使用 Spark 作为后端
  • ADAM - 一个框架和 CLI,用于使用 Apache Spark 加载、转换和分析基因组数据
  • TransmogrifAI - AutoML 库,用于在 Spark 上构建模块化、可重用、强类型机器学习工作流程,只需最少的手动调整
  • Apache Spark 的自然语言处理 - 一个库,用于为机器学习管道提供简单、高性能和准确的 NLP 注释
  • Rumble for Apache Spark - 一个 JSONiq 引擎,用于使用函数式语言查询不适合数据帧的大型、嵌套和异构 JSON 数据集。
  • Lightning Catalog - 一个数据目录,用于通过联合企业数据资产来运行即席查询、整理数据,以及构建具有数据质量检查的统一语义层。

Spark 的性能、监控和调试工具

  • Data Mechanics Delight - Delight 是一个免费的、托管的、跨平台的 Spark UI 替代方案,由一个开源 Spark 代理支持。 它具有新的指标和可视化效果,可简化 Spark 监控和性能调整。
  • DataFlint - DataFlint 是一个通过开源库安装的 Spark UI 替代品,它会实时更新并提醒性能问题

其他语言绑定

C# / .NET

  • Mobius: C# 和 F# 语言绑定和 Apache Spark 扩展

Clojure

  • Geni - 一个 Clojure 数据帧库,它运行在 Apache Spark 上,专注于优化 REPL 体验。

Julia

Kotlin

添加新项目

要添加项目,请针对 spark-website 存储库打开一个拉取请求。 将一个条目添加到 此 markdown 文件,然后运行 jekyll build 以生成 HTML。 将两者都包含在您的拉取请求中。 有关更多信息,请参阅此仓库中的 README。

请注意,所有项目和产品名称应遵循 商标指南

最新消息

存档