场景二：日志跟踪 · 分布式ID生成服务技术内幕和场景实战

## **1、日志跟踪** 在分布式服务架构下，一个 Web 请求从网关流入，有可能会调用多个服务对请求进行处理，拿到最终结果。这个过程中每个服务之间的通信又是单独的网络请求，无论请求经过的哪个服务出了故障或者处理过慢都会对前端造成影响。处理一个Web请求要调用的多个服务，为了能更方便的查询哪个环节的服务出现了问题，现在常用的解决方案是为整个系统引入分布式链路跟踪。 ![](https://img.kancloud.cn/92/2e/922e2ba7120855bac2d4424985892a3b_412x245.png) 在分布式链路跟踪中有两个重要的概念：跟踪（trace）和跨度（ span）。trace 是请求在分布式系统中的整个链路视图，span 则代表整个链路中不同服务内部的视图，span 组合在一起就是整个 trace 的视图。在整个请求的调用链中，请求会一直携带 traceid 往下游服务传递，每个服务内部也会生成自己的 spanid 用于生成自己的内部调用视图，并和traceid一起传递给下游服务。 ## **2、TraceId 生成规则** 这种场景下，生成的ID除了要求唯一之外，还要求生成的效率高、吞吐量大。traceid需要具备接入层的服务器实例自主生成的能力，如果每个trace中的ID都需要请求公共的ID服务生成，纯纯的浪费网络带宽资源。且会阻塞用户请求向下游传递，响应耗时上升，增加了没必要的风险。所以需要服务器实例最好可以自行计算tracid，spanid，避免依赖外部服务。产生规则：服务器 IP + ID 产生的时间 + 自增序列 + 当前进程号，比如： 0ad1348f1403169275002100356696 前 8 位 0ad1348f 即产生 TraceId 的机器的 IP，这是一个十六进制的数字，每两位代表 IP 中的一段，我们把这个数字，按每两位转成 10 进制即可得到常见的 IP 地址表示方式 10.209.52.143，您也可以根据这个规律来查找到请求经过的第一个服务器。后面的 13 位 1403169275002 是产生 TraceId 的时间。之后的 4 位 1003 是一个自增的序列，从 1000 涨到 9000，到达 9000 后回到 1000 再开始往上涨。最后的 5 位 56696 是当前的进程 ID，为了防止单机多进程出现 TraceId 冲突的情况，所以在 TraceId 末尾添加了当前的进程 ID。 ## **3、SpanId 生成规则** span是层的意思，比如在第一个实例算是第一层，请求代理或者分流到下一个实例处理，就是第二层，以此类推。通过层，SpanId 代表本次调用在整个调用链路树中的位置。假设一个服务器实例 A 接收了一次用户请求，代表是整个调用的根节点，那么A 层处理这次请求产生的非服务调用日志记录spanid的值都是0，A层需要通过 RPC 依次调用 B、C、D 三个服务器实例，那么在 A 的日志中，SpanId 分别是 0.1，0.2 和 0.3，在 B、C、D 中，SpanId 也分别是 0.1，0.2 和 0.3；如果 C 系统在处理请求的时候又调用了 E，F 两个服务器实例，那么 C 系统中对应的spanid是 0.2.1 和 0.2.2，E、F 两个系统对应的日志也是 0.2.1 和 0.2.2。根据上面的描述可以知道，如果把一次调用中所有的 SpanId 收集起来，可以组成一棵完整的链路树。 **spanid的生成本质：在跨层传递透传的同时，控制大小版本号的自增来实现的。**