ThinkChat2.0新版上线,更智能更精彩,支持会话、画图、阅读、搜索等,送10W Token,即刻开启你的AI之旅 广告
当我们用 Flume 采集日志时,由于数据源的多样性,则往往需要配置多个Flume进行采集,如果只是使用单层Flume的话,那么往往会产生很多个文件夹,单个文件夹也只是来自同一个节点的数据组成的。而实际开发中,为了减少HDFS的压力,同时提高后续MR的处理效率。往往会将同一组多个节点的数据汇聚到同一个文件中,这样同时也较少了数据从生产到分析的时间。<br/> 如下图,第一次 agent 负责采集原始数据,第二层 agent 负责对第一层数据进行汇聚。这种多层代理的方式尤其适合 source 源数据量庞大的时候,效率会高很多。 :-: ![](https://img.kancloud.cn/c7/73/c773ce5c014d6471f493a55fef53f0ee_879x426.png) 合并(Consolidation),将多个源合并到一个目的地