此页面追踪补充 Apache Spark 并丰富其生态系统的外部软件项目。
流行且集成 PySpark 的库
连接器
- Delta Lake - 为 Apache Spark 工作负载提供 ACID 事务和可伸缩元数据处理的存储层
- Hudi: 大数据上的更新插入、删除和增量处理
- Iceberg - 用于分析数据集的开放表格式
- Lance - 适用于机器学习和大型语言模型的现代列式数据格式
基础设施项目
使用 Spark 的应用程序
Spark 的性能、监控和调试工具
- Data Mechanics Delight - Delight 是一个免费的、托管的、跨平台的 Spark UI 替代方案,由开源 Spark 代理支持。它提供新的指标和可视化功能,以简化 Spark 监控和性能调优。
- DataFlint - DataFlint 是通过开源库安装的 Spark UI 替代方案,可实时更新并对性能问题发出警报
额外的语言绑定
C# / .NET
- Mobius: Apache Spark 的 C# 和 F# 语言绑定及扩展
Clojure
- Geni - 一个在 Apache Spark 上运行的 Clojure 数据帧库,专注于优化 REPL 体验。
Julia
Kotlin
添加新项目
要添加项目,请向 spark-website 仓库提交拉取请求。将条目添加到 此 Markdown 文件,然后运行 jekyll build
以生成 HTML。请在您的拉取请求中包含两者。有关更多信息,请参阅此仓库中的 README。
请注意,所有项目和产品名称应遵循商标指南。