此页面跟踪补充 Apache Spark 并扩展其生态系统的外部软件项目。
具有 PySpark 集成的流行库
连接器
- Delta Lake - 存储层,为 Apache Spark 工作负载提供 ACID 事务和可扩展的元数据处理
- Hudi: 在大数据上进行更新、删除和增量处理
- Iceberg - 用于分析数据集的开放式表格格式
基础设施项目
使用 Spark 的应用程序
用于 Spark 的性能、监控和调试工具
- Data Mechanics Delight - Delight 是一个免费的、托管的、跨平台的 Spark UI 替代方案,由一个开源 Spark 代理支持。它提供了新的指标和可视化效果,以简化 Spark 监控和性能调整。
其他语言绑定
C# / .NET
- Mobius: Apache Spark 的 C# 和 F# 语言绑定和扩展
Clojure
- Geni - 一个 Clojure 数据帧库,它在 Apache Spark 上运行,重点是优化 REPL 体验。
Julia
Kotlin
添加新项目
要添加项目,请针对 spark-website 存储库打开一个拉取请求。将条目添加到 此 markdown 文件,然后运行 jekyll build
生成 HTML。将两者都包含在您的拉取请求中。有关更多信息,请参阅此存储库中的自述文件。
请注意,所有项目和产品名称应遵循 商标指南。