# :-: 分布式日志链路跟踪
## 一、背景
开发排查系统问题用得最多的手段就是查看系统日志,在分布式环境中一般使用`ELK`来统一收集日志,但是在并发大时使用日志定位问题还是比较麻烦,由于大量的其他用户/其他线程的日志也一起输出穿行其中导致很难筛选出指定请求的全部相关日志,以及下游线程/服务对应的日志。
## 二、解决思路
* 每个请求都使用一个`唯一标识`来追踪全部的链路显示在日志中,并且不修改原有的打印方式(代码无入侵)
* 使用Logback的`MDC`机制日志模板中加入`traceId`标识,取值方式为`%X{traceId}`
>[danger] MDC(Mapped Diagnostic Context,映射调试上下文)是 log4j 和 logback 提供的一种方便在多线程条件下记录日志的功能。MDC 可以看成是一个与当前线程绑定的Map,可以往其中添加键值对。MDC 中包含的内容可以被同一线程中执行的代码所访问。当前线程的子线程会继承其父线程中的 MDC 的内容。当需要记录日志时,只需要从 MDC 中获取所需的信息即可。MDC 的内容则由程序在适当的时候保存进去。对于一个 Web 应用来说,通常是在请求被处理的最开始保存这些数据。
## 三、方案实现
由于`MDC`内部使用的是`ThreadLocal`所以只有本线程才有效,子线程和下游的服务`MDC`里的值会丢失;所以方案主要的难点是解决**值的传递问题**,主要包括以几下部分:
* API网关中的`MDC`数据如何传递给下游服务
* 服务如何接收数据,并且调用其他远程服务时如何继续传递
* 异步的情况下(线程池)如何传给子线程
### 3.1. 修改日志模板
logback配置文件日志格式添加该标识
![](https://img.kancloud.cn/8d/36/8d36a4680774b13ed85e9ff0d5638698_1625x176.png)
~~~
<encoder>
<pattern>%d{yyyy-MM-dd HH:mm:ss.SSS} [%thread] [%X{traceId}] %-5level %logger{50} - %msg%n</pattern>
<charset>UTF-8</charset> <!-- 设置字符集 -->
</encoder>
~~~
### 3.2. 网关添加过滤器
生成`traceId`并通过`header`传递给下游服务
![](https://img.kancloud.cn/44/f7/44f7dca46837bcf8dd5fe1b6ede7bc92_1440x949.jpg)
上面代码有个MDC是属于org.slf4j.MDC中的,下面就是常量的值:
~~~text
/**
* 日志链路追踪id信息头
*/
String TRACE_ID_HEADER = "x-traceId-header";
/**
* 日志链路追踪id日志标志
*/
String LOG_TRACE_ID = "traceId";
~~~
### 3.3. 下游服务增加spring拦截器
接收并保存`traceId`的值**拦截器**
**注册拦截器**
![](https://img.kancloud.cn/df/b2/dfb20e803043f32deabc058aea857b45_1440x848.jpg)
### 3.4. 下游服务增加feign拦截器
继续把当前服务的`traceId`值传递给下游服务
![](https://img.kancloud.cn/12/6e/126eb85d5789d303efd4c4343e362d14_1440x613.jpg)
### 3.5. 解决父子线程传递问题
主要针对业务会使用线程池(异步、并行处理),并且`spring`自己也有`@Async`注解来使用线程池,要解决这个问题需要以下两个步骤
#### 3.5.1. 重写logback的`LogbackMDCAdapter`
由于logback的`MDC`实现内部使用的是`ThreadLocal`不能传递子线程,所以需要重写替换为阿里的`TransmittableThreadLocal`
>[info] **TransmittableThreadLocal** 是Alibaba开源的、用于解决 **“在使用线程池等会缓存线程的组件情况下传递ThreadLocal”** 问题的 InheritableThreadLocal 扩展。若希望 TransmittableThreadLocal 在线程池与主线程间传递,需配合 **TtlRunnable** 和 **TtlCallable** 使用。
**TtlMDCAdapter类**
~~~
package org.slf4j;
import com.alibaba.ttl.TransmittableThreadLocal;
import org.slf4j.spi.MDCAdapter;
public class TtlMDCAdapter implements MDCAdapter {
/**
* 此处是关键
*/
private final ThreadLocal<Map<String, String>> copyOnInheritThreadLocal = new TransmittableThreadLocal<>();
private static TtlMDCAdapter mtcMDCAdapter;
static {
mtcMDCAdapter = new TtlMDCAdapter();
MDC.mdcAdapter = mtcMDCAdapter;
}
public static MDCAdapter getInstance() {
return mtcMDCAdapter;
}
~~~
>[success] 其他代码与**ch.qos.logback.classic.util.LogbackMDCAdapter**一样,只需改为调用`copyOnInheritThreadLocal`变量
**TtlMDCAdapterInitializer类**用于程序启动时加载自己的mdcAdapter实现
~~~
public class TtlMDCAdapterInitializer implements ApplicationContextInitializer<ConfigurableApplicationContext> {
@Override
public void initialize(ConfigurableApplicationContext applicationContext) {
//加载TtlMDCAdapter实例
TtlMDCAdapter.getInstance();
}
}
~~~
#### 3.5.2. 扩展线程池实现
增加`TtlRunnable`和`TtlCallable`扩展
~~~
public class CustomThreadPoolTaskExecutor extends ThreadPoolTaskExecutor {
@Override
public void execute(Runnable runnable) {
Runnable ttlRunnable = TtlRunnable.get(runnable);
super.execute(ttlRunnable);
}
@Override
public <T> Future<T> submit(Callable<T> task) {
Callable ttlCallable = TtlCallable.get(task);
return super.submit(ttlCallable);
}
@Override
public Future<?> submit(Runnable task) {
Runnable ttlRunnable = TtlRunnable.get(task);
return super.submit(ttlRunnable);
}
@Override
public ListenableFuture<?> submitListenable(Runnable task) {
Runnable ttlRunnable = TtlRunnable.get(task);
return super.submitListenable(ttlRunnable);
}
@Override
public <T> ListenableFuture<T> submitListenable(Callable<T> task) {
Callable ttlCallable = TtlCallable.get(task);
return super.submitListenable(ttlCallable);
}
}
~~~
## 四、场景测试
### 4.1. 测试代码如下
![](https://img.kancloud.cn/20/07/2007c9dbd1a3e49d5320918bcfc667d2_1338x640.png)
### 4.2. api网关打印的日志
网关生成`traceId`值为`13d9800c8c7944c78a06ce28c36de670`
![](https://img.kancloud.cn/0a/5e/0a5e7b47e2fabf8ca3904263413e7e86_1440x52.jpg)
### 4.4. ELK聚合日志通过`traceId`查询整条链路日志
当系统出现异常时,可直接通过该异常日志的`traceId`的值,在日志中心中询该请求的所有日志信息
![](https://img.kancloud.cn/7a/3e/7a3ef25ffeead83a307b4e043e7d4b0c_2158x823.png)
- 项目介绍
- 项目声明
- 项目简介
- 架构设计
- 项目亮点功能介绍
- 技术栈介绍
- 核心功能
- 运行环境
- 项目更新日志
- 文档更新日志
- F&Q
- 部署教程
- 环境准备
- JDK安装
- JDK1.8,17共存
- maven
- 分布式缓存Redis
- 单机版
- 集群
- 注册&配置中心alibaba/nacos
- 介绍
- Nacos安装
- Nacos配置中心
- Nacos注册发现
- Nacos生产部署方案
- 服务监控-BootAdmin
- 基本介绍
- 如何使用
- 整合Admin-Ui
- 客户端配置
- 链路追踪
- 基本介绍
- SkyWalking-1
- Skywalking-1
- 消息队列
- Kafka
- docker安装kafka
- Linux集群
- Maven私服
- nexus安装部署
- nexus使用介绍
- 全文搜索elasticsearch
- windows集群搭建
- docker安装es
- ElasticHD
- linux集群部署
- 统一日志解决方案
- 日志解决方案设计
- 介绍与相关资料
- ELK安装部署
- elasticsearch 7.5
- logstash-7.5
- kibana-7.5
- filebeat
- 服务监控-Prometheus
- Prometheus安装配置
- Prometheus介绍
- grafana
- 持续集成部署CICD
- 自动化部署Jenkins
- 安装部署win
- 打包发布远程执行
- 安装部署linux
- jenkins+gitlab+docker容器化工程自动化部署
- Git
- CICD说明
- 阿里云效
- CentOS_MYSQL安装
- docker
- 安装
- Docker安装Nginx
- Docker部署启动springboot
- dockerCompose
- harbor
- Docker私有镜像仓库
- Portainer
- Docker远程连接设置
- 打包工程
- 必要启动模块
- 核心模块
- 登录认证
- 缓存功能
- 日志模块
- 分布式锁
- 消息队列
- 异常处理
- 系统接口
- 参数验证
- es检索
- 数据导出
- 系统设计
- 系统总体架构
- 扩展模块(可选)
- 限流熔断alibaba/sentinel
- 使用Sentinel实现gateway网关及服务接口限流
- Sentinel使用Nacos存储规则及同步
- 服务调用Feign
- Feign基本介绍
- 如何使用
- 负载均衡
- 请求超时
- 请求拦截器
- 分布式任务调度
- XXL-JOB
- 分布式事务
- TX-LCN
- Seata
- Seata原理解析
- 数据库分库分表
- swagger文档
- 分布式ID生成器解决方案
- 服务网关CloudGateway
- 基本介绍
- 使用网关
- 路由配置
- 全局过滤器
- 服务认证授权架构设计
- 认证服务流程
- 授权服务流程
- 系统幂等性设计与实践
- 分布式日志链路跟踪
- 实时搜索系统设计
- 应用性能
- 压力测试工具
- Apache JMeter介绍和安装
- ApacheJMeter使用
- JVM
- JVM性能调优
- 常见JVM内存错误及解决方案
- JVM 分析工具详解
- Spring Cloud性能调优
- Linux运维
- Linux 常用命令
- Linux开启端口