此页面跟踪补充 Apache Spark 并扩展其生态系统的外部软件项目。

  • great-expectations - 始终了解您对数据的期望
  • Apache Airflow - 用于以编程方式创作、调度和监控工作流的平台
  • xgboost - 可扩展、可移植和分布式梯度提升
  • shap - 一种博弈论方法来解释任何机器学习模型的输出
  • python-deequ - 衡量大型数据集中的数据质量
  • datahub - 现代数据堆栈的元数据平台
  • dbt-spark - 使 dbt 能够与 Apache Spark 一起使用

连接器

开放式表格格式

  • Delta Lake - 存储层,为 Apache Spark 工作负载提供 ACID 事务和可扩展的元数据处理
  • Hudi: 在大数据上进行更新、删除和增量处理
  • Iceberg - 用于分析数据集的开放式表格格式

基础设施项目

  • Kyuubi - Apache Kyuubi 是一个分布式且多租户的网关,用于在数据仓库和湖泊中提供无服务器 SQL
  • Apache Spark 的 REST 作业服务器 - 用于在同一集群上管理和提交 Spark 作业的 REST 接口。
  • Apache Mesos - 支持运行 Spark 的集群管理系统
  • Alluxio(原名 Tachyon) - 支持运行 Spark 的内存速度虚拟分布式存储系统
  • FiloDB - 一个与 Spark 集成的分析/列式数据库,具有内存选项,能够进行亚秒级并发查询
  • Zeppelin - 多用途笔记本,支持 20 多种语言后端,包括 Apache Spark
  • Apache Spark 的 K8S 运算符 - Kubernetes 运算符,用于在 Kubernetes 上指定和管理 Apache Spark 应用程序的生命周期。
  • IBM Spectrum Conductor - 集成 Spark 和现代计算框架的集群管理软件。
  • MLflow - 用于管理机器学习生命周期的开源平台,包括在 Apache Spark 上部署来自不同机器学习库的模型。
  • Apache DataFu - 一组实用程序和用户定义函数,用于处理 Apache Spark 中的大规模数据,以及使 Scala-Python 互操作性更容易。

使用 Spark 的应用程序

  • Apache Mahout - 以前在 Hadoop MapReduce 上,Mahout 已切换到使用 Spark 作为后端
  • ADAM - 使用 Apache Spark 加载、转换和分析基因组数据的框架和 CLI
  • TransmogrifAI - 用于在 Spark 上构建模块化、可重用、强类型机器学习工作流的 AutoML 库,只需最少的手动调整
  • Apache Spark 的自然语言处理 - 用于为机器学习管道提供简单、高效且准确的 NLP 注释的库
  • Rumble for Apache Spark - 一种 JSONiq 引擎,使用函数式语言查询不适合数据帧的大型、嵌套和异构 JSON 数据集。

用于 Spark 的性能、监控和调试工具

  • Data Mechanics Delight - Delight 是一个免费的、托管的、跨平台的 Spark UI 替代方案,由一个开源 Spark 代理支持。它提供了新的指标和可视化效果,以简化 Spark 监控和性能调整。

其他语言绑定

C# / .NET

  • Mobius: Apache Spark 的 C# 和 F# 语言绑定和扩展

Clojure

  • Geni - 一个 Clojure 数据帧库,它在 Apache Spark 上运行,重点是优化 REPL 体验。

Julia

Kotlin

添加新项目

要添加项目,请针对 spark-website 存储库打开一个拉取请求。将条目添加到 此 markdown 文件,然后运行 jekyll build 生成 HTML。将两者都包含在您的拉取请求中。有关更多信息,请参阅此存储库中的自述文件。

请注意,所有项目和产品名称应遵循 商标指南

最新消息

档案