企业🤖AI智能体构建引擎,智能编排和调试,一键部署,支持私有化部署方案 广告
**批处理:** 针对有界的、大量的、持久化的静态数据; **流处理:** 针对无界的、小量的(每次处理)、持续实时快速产生的数据。应该说批处理系统强调的是计算能力,流处理系统更要求吞吐量(单位时间内处理请求数量)、实时性(至少秒级)。 <br/> 两都之间的关系以下图概括: :-: ![](https://img.kancloud.cn/16/98/169832251c18554a886b5a06900ca73a_1206x461.jpg) 批处理与实时计算的关系 <br/> 目前来看,各类大数据平台都在往批流统一方向发展。无论是有界的历史数据流还是无界的实时数据流,都采用一套底层 API 解决。以 Spark 为例,<mark>RDD是 Spark Core 的核心抽象,DStream 是 Spark Streaming 提供的高级别抽象,因为 DStream 是由许多 RDDs 构成。掌握DStream 数据输入、DStream 转换以及 DStream 输出是很重要的。</mark>