此页面跟踪补充 Apache Spark 并添加到其生态系统的外部软件项目。
流行的具有 PySpark 集成的库
连接器
- Delta Lake - 存储层,为 Apache Spark 工作负载提供 ACID 事务和可扩展的元数据处理
- Hudi: 对大数据进行 Upsert、删除和增量处理
- Iceberg - 用于分析数据集的开放表格式
基础设施项目
使用 Spark 的应用程序
Spark 的性能、监控和调试工具
- Data Mechanics Delight - Delight 是一个免费的、托管的、跨平台的 Spark UI 替代方案,由一个开源 Spark 代理支持。 它具有新的指标和可视化效果,可简化 Spark 监控和性能调整。
- DataFlint - DataFlint 是一个通过开源库安装的 Spark UI 替代品,它会实时更新并提醒性能问题
其他语言绑定
C# / .NET
- Mobius: C# 和 F# 语言绑定和 Apache Spark 扩展
Clojure
- Geni - 一个 Clojure 数据帧库,它运行在 Apache Spark 上,专注于优化 REPL 体验。
Julia
Kotlin
添加新项目
要添加项目,请针对 spark-website 存储库打开一个拉取请求。 将一个条目添加到 此 markdown 文件,然后运行 jekyll build
以生成 HTML。 将两者都包含在您的拉取请求中。 有关更多信息,请参阅此仓库中的 README。
请注意,所有项目和产品名称应遵循 商标指南。