Spark 结构化流 使构建流式应用程序和管道变得容易,并使用相同且熟悉的 Spark API。

易于使用

Spark 结构化流抽象了复杂的流式概念,例如增量处理、检查点和水印,因此您可以构建流式应用程序和管道,而无需学习任何新概念或工具。

spark
  .readStream
  .select($"value".cast("string").alias("jsonData"))
  .select(from_json($"jsonData",jsonSchema).alias("payload"))
  .writeStream
  .trigger("1 seconds")
  .start()

统一的批处理和流式 API

Spark 结构化流提供与 Spark 相同的结构化 API(DataFrame 和 Dataset),因此您无需为批处理和流式处理开发或维护两个不同的技术栈。此外,统一的 API 使迁移现有的批处理 Spark 作业到流式作业变得容易。

低延迟且经济高效

Spark 结构化流使用与 Spark 相同的基础架构,因此您可以利用 Spark 引擎中内置的所有性能和成本优化。使用 Spark 结构化流,您可以经济高效地构建低延迟流式应用程序和管道。

入门

要开始使用 Spark 结构化流

社区

Spark 结构化流是作为 Apache Spark 的一部分开发的。因此,它在每次 Spark 版本发布时都会进行测试和更新。

如果您对系统有任何疑问,请在Spark 邮件列表 上提问。

Spark 结构化流开发人员欢迎贡献。如果您想帮忙,请阅读如何为 Spark 做贡献,并向我们发送补丁!

最新消息

存档