此页面追踪补充 Apache Spark 并丰富其生态系统的外部软件项目。

  • great-expectations - 始终了解您的数据预期
  • Apache Airflow - 一个以编程方式创作、调度和监控工作流的平台
  • xgboost - 可扩展、可移植的分布式梯度提升库
  • shap - 一种用于解释任何机器学习模型输出的博弈论方法
  • python-deequ - 衡量大型数据集中的数据质量
  • datahub - 现代数据栈的元数据平台
  • dbt-spark - 使 dbt 能够与 Apache Spark 协同工作
  • Hamilton - 允许以声明方式描述 PySpark 转换,有助于保持代码可测试、模块化和逻辑可视化。
  • ScaleDP - 一个在 Apache Spark 中使用 AI/ML 处理文档的开源库。

连接器

开放表格式

  • Delta Lake - 为 Apache Spark 工作负载提供 ACID 事务和可伸缩元数据处理的存储层
  • Hudi: 大数据上的更新插入、删除和增量处理
  • Iceberg - 用于分析数据集的开放表格式
  • Lance - 适用于机器学习和大型语言模型的现代列式数据格式

基础设施项目

  • Kyuubi - Apache Kyuubi 是一个分布式多租户网关,可在数据仓库和数据湖上提供无服务器 SQL
  • REST Job Server for Apache Spark - 用于在同一集群上管理和提交 Spark 作业的 REST 接口。
  • Apache Mesos - 支持运行 Spark 的集群管理系统
  • Alluxio (原名 Tachyon) - 支持运行 Spark 的内存速度虚拟分布式存储系统
  • FiloDB - 一个集成 Spark 的分析/列式数据库,具有内存选项,能够进行亚秒级并发查询
  • Zeppelin - 支持 20 多种语言后端(包括 Apache Spark)的多用途笔记本
  • Kubeflow Spark Operator - 用于管理 Kubernetes 上 Apache Spark 应用程序生命周期的 Kubernetes 运算符。
  • IBM Spectrum Conductor - 与 Spark 和现代计算框架集成的集群管理软件。
  • MLflow - 一个开源平台,用于管理机器学习生命周期,包括在 Apache Spark 上部署来自不同机器学习库的模型。
  • Apache DataFu - 一系列用于在 Apache Spark 中处理大规模数据的实用工具和用户定义函数,同时简化 Scala-Python 互操作性。

使用 Spark 的应用程序

  • Apache Mahout - 之前基于 Hadoop MapReduce,Mahout 已转向使用 Spark 作为后端
  • ADAM - 一个用于使用 Apache Spark 加载、转换和分析基因组数据的框架和命令行界面
  • TransmogrifAI - 一个 AutoML 库,用于在 Spark 上构建模块化、可重用、强类型的机器学习工作流,且无需大量手动调优
  • Natural Language Processing for Apache Spark - 一个库,为机器学习管道提供简单、高性能和准确的自然语言处理(NLP)标注
  • Rumble for Apache Spark - 一个 JSONiq 引擎,用于使用函数式语言查询不适合数据帧的大型、嵌套和异构 JSON 数据集。
  • Lightning Catalog - 一个数据目录,用于运行即席查询、通过联合企业数据资产进行数据整理,以及构建带有数据质量检查的统一语义层。

Spark 的性能、监控和调试工具

  • Data Mechanics Delight - Delight 是一个免费的、托管的、跨平台的 Spark UI 替代方案,由开源 Spark 代理支持。它提供新的指标和可视化功能,以简化 Spark 监控和性能调优。
  • DataFlint - DataFlint 是通过开源库安装的 Spark UI 替代方案,可实时更新并对性能问题发出警报

额外的语言绑定

C# / .NET

  • Mobius: Apache Spark 的 C# 和 F# 语言绑定及扩展

Clojure

  • Geni - 一个在 Apache Spark 上运行的 Clojure 数据帧库,专注于优化 REPL 体验。

Julia

Kotlin

添加新项目

要添加项目,请向 spark-website 仓库提交拉取请求。将条目添加到 此 Markdown 文件,然后运行 jekyll build 以生成 HTML。请在您的拉取请求中包含两者。有关更多信息,请参阅此仓库中的 README。

请注意,所有项目和产品名称应遵循商标指南

最新消息

存档