多应用+插件架构,代码干净,二开方便,首家独创一键云编译技术,文档视频完善,免费商用码云13.8K 广告
* Input DStream指从某种流式数据源(Streaming Sources)接收流数据的DStream。 * Spark Streaming提供了如下的数据源: * 基础数据源:文件系统、Socket连接、RDD队列等 * 高级数据源:Kafka、Flume、Kinesis等 * 自定义数据源 * 每一个Input DStream(file stream除外)都与一个接收器(Receiver)相关联,接收器是从数据源提取数据到内存的专用对象 :-: ![](https://img.kancloud.cn/5b/b3/5bb38c64926ded488388e4e16165ab32_547x230.png) Receiver接收器 **注意:** * 在本地运行 SparkStreaming程序时,不要使用`local`或`local[1]`作为主URL。这两种方法都意味着只有一个线程将用于在本地运行任务。如果使用基于接收器的输入 DStream(例如 sockets、Kafka、Flume 等),那么将使用单个线程来运行接收器。因此,在本地运行时,始终使用`local[n]`作为主 URL,其中要运行 `n` 个接收方。 * 在集群上运行时,分配给 Spark Streaming 应用程序的内核数量必须大于接收器的数量。<ins>否则,系统将接收数据,但无法处理它。</ins>