Spark Structured Streaming | Apache Spark

Spark Structured Streaming 使用相同且熟悉的 Spark API，使构建流应用程序和管道变得简单。

易于使用

Spark Structured Streaming 抽象了复杂的流处理概念，如增量处理、检查点和水印，因此您无需学习任何新概念或工具即可构建流应用程序和管道。

spark
  .readStream
  .select($"value".cast("string").alias("jsonData"))
  .select(from_json($"jsonData",jsonSchema).alias("payload"))
  .writeStream
  .trigger("1 seconds")
  .start()

统一的批处理和流处理 API

Spark Structured Streaming 提供与 Spark 相同的结构化 API（DataFrames 和 Datasets），因此您无需为批处理和流处理开发或维护两个不同的技术栈。此外，统一的 API 使您可以轻松地将现有的批处理 Spark 作业迁移到流处理作业。

低延迟和高成本效益

Spark Structured Streaming 使用与 Spark 相同的底层架构，因此您可以利用 Spark 引擎中内置的所有性能和成本优化。借助 Spark Structured Streaming，您可以经济高效地构建低延迟流应用程序和管道。

入门

开始使用 Spark Structured Streaming

下载 Spark。它包含 Structured Streaming 作为一个模块。
阅读Spark Structured Streaming 编程指南，其中包括编程模型、教程、配置等。

社区

Spark Structured Streaming 是作为 Apache Spark 的一部分开发的。因此，它会随着每个 Spark 版本的发布进行测试和更新。

如果您对系统有疑问，请在Spark 邮件列表上提问。

Spark Structured Streaming 开发者欢迎贡献。如果您想提供帮助，请阅读如何贡献 Spark，并向我们发送补丁！

下载 Apache Spark
包含 Spark Structured Streaming

易于使用

统一的批处理和流处理 API

低延迟和高成本效益

入门

社区

最新消息