🔥码云GVP开源项目 12k star Uniapp+ElementUI 功能强大 支持多语言、二开方便! 广告
# :-: 分布式日志链路跟踪 ## 一、背景 开发排查系统问题用得最多的手段就是查看系统日志,在分布式环境中一般使用`ELK`来统一收集日志,但是在并发大时使用日志定位问题还是比较麻烦,由于大量的其他用户/其他线程的日志也一起输出穿行其中导致很难筛选出指定请求的全部相关日志,以及下游线程/服务对应的日志。 ## 二、解决思路 * 每个请求都使用一个`唯一标识`来追踪全部的链路显示在日志中,并且不修改原有的打印方式(代码无入侵) * 使用Logback的`MDC`机制日志模板中加入`traceId`标识,取值方式为`%X{traceId}` >[danger] MDC(Mapped Diagnostic Context,映射调试上下文)是 log4j 和 logback 提供的一种方便在多线程条件下记录日志的功能。MDC 可以看成是一个与当前线程绑定的Map,可以往其中添加键值对。MDC 中包含的内容可以被同一线程中执行的代码所访问。当前线程的子线程会继承其父线程中的 MDC 的内容。当需要记录日志时,只需要从 MDC 中获取所需的信息即可。MDC 的内容则由程序在适当的时候保存进去。对于一个 Web 应用来说,通常是在请求被处理的最开始保存这些数据。 ## 三、方案实现 由于`MDC`内部使用的是`ThreadLocal`所以只有本线程才有效,子线程和下游的服务`MDC`里的值会丢失;所以方案主要的难点是解决**值的传递问题**,主要包括以几下部分: * API网关中的`MDC`数据如何传递给下游服务 * 服务如何接收数据,并且调用其他远程服务时如何继续传递 * 异步的情况下(线程池)如何传给子线程 ### 3.1. 修改日志模板 logback配置文件日志格式添加该标识 ![](https://img.kancloud.cn/8d/36/8d36a4680774b13ed85e9ff0d5638698_1625x176.png) ~~~ <encoder> <pattern>%d{yyyy-MM-dd HH:mm:ss.SSS} [%thread] [%X{traceId}] %-5level %logger{50} - %msg%n</pattern> <charset>UTF-8</charset> <!-- 设置字符集 --> </encoder> ~~~ ### 3.2. 网关添加过滤器 生成`traceId`并通过`header`传递给下游服务 ![](https://img.kancloud.cn/44/f7/44f7dca46837bcf8dd5fe1b6ede7bc92_1440x949.jpg) 上面代码有个MDC是属于org.slf4j.MDC中的,下面就是常量的值: ~~~text /** * 日志链路追踪id信息头 */ String TRACE_ID_HEADER = "x-traceId-header"; /** * 日志链路追踪id日志标志 */ String LOG_TRACE_ID = "traceId"; ~~~ ### 3.3. 下游服务增加spring拦截器 接收并保存`traceId`的值**拦截器** **注册拦截器** ![](https://img.kancloud.cn/df/b2/dfb20e803043f32deabc058aea857b45_1440x848.jpg) ### 3.4. 下游服务增加feign拦截器 继续把当前服务的`traceId`值传递给下游服务 ![](https://img.kancloud.cn/12/6e/126eb85d5789d303efd4c4343e362d14_1440x613.jpg) ### 3.5. 解决父子线程传递问题 主要针对业务会使用线程池(异步、并行处理),并且`spring`自己也有`@Async`注解来使用线程池,要解决这个问题需要以下两个步骤 #### 3.5.1. 重写logback的`LogbackMDCAdapter` 由于logback的`MDC`实现内部使用的是`ThreadLocal`不能传递子线程,所以需要重写替换为阿里的`TransmittableThreadLocal` >[info] **TransmittableThreadLocal** 是Alibaba开源的、用于解决 **“在使用线程池等会缓存线程的组件情况下传递ThreadLocal”** 问题的 InheritableThreadLocal 扩展。若希望 TransmittableThreadLocal 在线程池与主线程间传递,需配合 **TtlRunnable** 和 **TtlCallable** 使用。 **TtlMDCAdapter类** ~~~ package org.slf4j; import com.alibaba.ttl.TransmittableThreadLocal; import org.slf4j.spi.MDCAdapter; public class TtlMDCAdapter implements MDCAdapter { /** * 此处是关键 */ private final ThreadLocal<Map<String, String>> copyOnInheritThreadLocal = new TransmittableThreadLocal<>(); private static TtlMDCAdapter mtcMDCAdapter; static { mtcMDCAdapter = new TtlMDCAdapter(); MDC.mdcAdapter = mtcMDCAdapter; } public static MDCAdapter getInstance() { return mtcMDCAdapter; } ~~~ >[success] 其他代码与**ch.qos.logback.classic.util.LogbackMDCAdapter**一样,只需改为调用`copyOnInheritThreadLocal`变量 **TtlMDCAdapterInitializer类**用于程序启动时加载自己的mdcAdapter实现 ~~~ public class TtlMDCAdapterInitializer implements ApplicationContextInitializer<ConfigurableApplicationContext> { @Override public void initialize(ConfigurableApplicationContext applicationContext) { //加载TtlMDCAdapter实例 TtlMDCAdapter.getInstance(); } } ~~~ #### 3.5.2. 扩展线程池实现 增加`TtlRunnable`和`TtlCallable`扩展 ~~~ public class CustomThreadPoolTaskExecutor extends ThreadPoolTaskExecutor { @Override public void execute(Runnable runnable) { Runnable ttlRunnable = TtlRunnable.get(runnable); super.execute(ttlRunnable); } @Override public <T> Future<T> submit(Callable<T> task) { Callable ttlCallable = TtlCallable.get(task); return super.submit(ttlCallable); } @Override public Future<?> submit(Runnable task) { Runnable ttlRunnable = TtlRunnable.get(task); return super.submit(ttlRunnable); } @Override public ListenableFuture<?> submitListenable(Runnable task) { Runnable ttlRunnable = TtlRunnable.get(task); return super.submitListenable(ttlRunnable); } @Override public <T> ListenableFuture<T> submitListenable(Callable<T> task) { Callable ttlCallable = TtlCallable.get(task); return super.submitListenable(ttlCallable); } } ~~~ ## 四、场景测试 ### 4.1. 测试代码如下 ![](https://img.kancloud.cn/20/07/2007c9dbd1a3e49d5320918bcfc667d2_1338x640.png) ### 4.2. api网关打印的日志 网关生成`traceId`值为`13d9800c8c7944c78a06ce28c36de670` ![](https://img.kancloud.cn/0a/5e/0a5e7b47e2fabf8ca3904263413e7e86_1440x52.jpg) ### 4.4. ELK聚合日志通过`traceId`查询整条链路日志 当系统出现异常时,可直接通过该异常日志的`traceId`​的值,在日志中心中询该请求的所有日志信息 ![](https://img.kancloud.cn/7a/3e/7a3ef25ffeead83a307b4e043e7d4b0c_2158x823.png)