Spark 结构化流 可以使用相同且熟悉的 Spark API 轻松构建流式应用程序和管道。

易于使用

Spark 结构化流抽象出了复杂的流式概念,例如增量处理、检查点和水印,因此您无需学习任何新概念或工具即可构建流式应用程序和管道。

spark
  .readStream
  .select($"value".cast("string").alias("jsonData"))
  .select(from_json($"jsonData",jsonSchema).alias("payload"))
  .writeStream
  .trigger("1 seconds")
  .start()

统一的批处理和流式 API

Spark 结构化流提供与 Spark 相同的结构化 API(DataFrames 和 Datasets),因此您无需为批处理和流处理开发或维护两个不同的技术堆栈。此外,统一的 API 可以轻松地将现有的批处理 Spark 作业迁移到流式作业。

低延迟且经济高效

Spark 结构化流使用与 Spark 相同的底层架构,因此您可以利用 Spark 引擎中内置的所有性能和成本优化。 使用 Spark 结构化流,您可以经济高效地构建低延迟流式应用程序和管道。

开始使用

要开始使用 Spark 结构化流

社区

Spark 结构化流是作为 Apache Spark 的一部分开发的。 因此,它会随着每个 Spark 版本的发布进行测试和更新。

如果您对系统有疑问,请在 Spark 邮件列表上提问。

Spark 结构化流开发人员欢迎您的贡献。 如果您想提供帮助,请阅读如何为 Spark 做出贡献,并向我们发送补丁!

最新消息

存档