多层代理 · Hadoop2.x

当我们用 Flume 采集日志时，由于数据源的多样性，则往往需要配置多个Flume进行采集，如果只是使用单层Flume的话，那么往往会产生很多个文件夹，单个文件夹也只是来自同一个节点的数据组成的。而实际开发中，为了减少HDFS的压力，同时提高后续MR的处理效率。往往会将同一组多个节点的数据汇聚到同一个文件中，这样同时也较少了数据从生产到分析的时间。<br/> 如下图，第一次 agent 负责采集原始数据，第二层 agent 负责对第一层数据进行汇聚。这种多层代理的方式尤其适合 source 源数据量庞大的时候，效率会高很多。 :-: ![](https://img.kancloud.cn/c7/73/c773ce5c014d6471f493a55fef53f0ee_879x426.png) 合并（Consolidation），将多个源合并到一个目的地