Spark 结构化流抽象了复杂的流式概念,例如增量处理、检查点和水印,因此您可以构建流式应用程序和管道,而无需学习任何新概念或工具。
Spark 结构化流提供与 Spark 相同的结构化 API(DataFrame 和 Dataset),因此您无需为批处理和流式处理开发或维护两个不同的技术栈。此外,统一的 API 使迁移现有的批处理 Spark 作业到流式作业变得容易。
Spark 结构化流使用与 Spark 相同的基础架构,因此您可以利用 Spark 引擎中内置的所有性能和成本优化。使用 Spark 结构化流,您可以经济高效地构建低延迟流式应用程序和管道。
Spark 结构化流是作为 Apache Spark 的一部分开发的。因此,它在每次 Spark 版本发布时都会进行测试和更新。
如果您对系统有任何疑问,请在Spark 邮件列表 上提问。
Spark 结构化流开发人员欢迎贡献。如果您想帮忙,请阅读如何为 Spark 做贡献,并向我们发送补丁!