网络基本功（二十四）：Wireshark抓包实例分析TCP重传 · 网络基本功系列

# 网络基本功（二十四）：Wireshark抓包实例分析TCP重传 **转载请在文首保留原文出处：EMC中文支持论坛**[https://community.emc.com/go/chinese](https://community.emc.com/go/chinese) [![image001.gif](https://community.emc.com/servlet/JiveServlet/downloadImage/2-862231-106211/image001.gif)](https://community.emc.com/servlet/JiveServlet/showImage/2-862231-106211/image001.gif) ## 介绍 TCP发送一个或一组报文，会等待收到报文的确认信息。重传，即发生在报文没有到达或确认信息没有及时返回的情况下。当发现网速变慢时，原因之一可能就是重传。发生重传的原因有多种，在客户机或服务器两边端口应用Wireshark有助于诊断问题。本文通过抓包实例阐述各种可能性。 ## 更多信息 **诊断过程:** 1. 在相应端口开始抓数据。 2. 找到**Analyze** | **Expert Info**菜单。 3. 在**Notes**之下，查找**Retransmission**。 4. 点击（+）符号即可打开重传列表。鼠标点击各行可在抓包面板看到重传报文。 5. 现在问题来了，怎样定位问题呢？ 6. 通过以下方式查看重传来自哪里： * 在Expert Info窗口一个一个查看报文，在抓包面板查看哪些是重传报文（适合于有经验的用户） * 在报文面板，配置显示过滤器expert.message == “Retransmission (suspected)”，即可看到抓包文件中所有重传报文 * 应用过滤器，在**Statistics & Conversations**窗口查看**Limit to display filter**部分。 Case 1：重传至多个目的地址以下截屏中，可看到有多次重传，分布于多台服务器，目的端口号为80（HTTP）。也可以发现重传由端口10.0.0.5发送，因此报文是丢失在发往Internet的途中，或确认信息没有及时从web服务器发回。 [![image002.jpg](https://community.emc.com/servlet/JiveServlet/downloadImage/2-862231-106224/670-248/image002.jpg)](https://community.emc.com/servlet/JiveServlet/showImage/2-862231-106224/image002.jpg) 问题发生在发往Internet的线路上，怎样知道是什么问题呢？ 1. 从**Statistics**菜单，打开**IO Graph**。 2. 本例中，可看到链路负载非常低。可能是有故障，或有另一条高负载链路。 3. 可以通过登录到通信设备或SNMP浏览器查看引起重传的原因：**报文丢失及错误**。参考以下截屏： [![image003.jpg](https://community.emc.com/servlet/JiveServlet/downloadImage/2-862231-106225/670-511/image003.jpg)](https://community.emc.com/servlet/JiveServlet/showImage/2-862231-106225/image003.jpg) Case 2：重传至单一连接如果所有重传发生于同一IP，同一TCP端口号，则可能是**慢速应用引起**。看以下截屏： [![image004.jpg](https://community.emc.com/servlet/JiveServlet/downloadImage/2-862231-106226/670-239/image004.jpg)](https://community.emc.com/servlet/JiveServlet/showImage/2-862231-106226/image004.jpg) 对于单一连接的重传，进行以下操作： 1. 从Statistics菜单打开Conversations，选择Limit to display filter，可以看到所有发生重传的会话，本情况下，是一个单一会话。 2. 如下图所示，通过选择**IPv4**标签可看到从哪个IP地址重传： [![image005.jpg](https://community.emc.com/servlet/JiveServlet/downloadImage/2-862231-106227/670-194/image005.jpg)](https://community.emc.com/servlet/JiveServlet/showImage/2-862231-106227/image005.jpg) 3\. 如下图所示，通过选择TCP标签看到重传来自哪一端口： [![image006.jpg](https://community.emc.com/servlet/JiveServlet/downloadImage/2-862231-106228/670-191/image006.jpg)](https://community.emc.com/servlet/JiveServlet/showImage/2-862231-106228/image006.jpg) 要定位问题，进行以下步骤： 1. 查看IO graph，确保链路不忙。（链路忙的表征例如流量接近带宽。例如，带宽为10Mbps，在IO graph中看见流量接近10Mbps，这就表明链路负载较高。不忙的链路IO会有很多高低起落，峰值以及空闲间隙）。 2. 如果链路不忙，则可能是服务器对于IP地址10.1.1.200有问题（10.90.30.12发送了绝大多数重传，所以可能是10.1.1.200响应较慢） 3. 从报文面板可以看出应用是FTP数据。有可能FTP服务器工作于active模式。因此在端口2350打开连接，服务器将端口更改为1972，所以可能是慢速FTP软件响应问题引起的重传。 Case 3：重传模式观察TCP重传的一个重要考量是是否能看出一些重传模式。在以下截屏中，可以看见所有重传来自单一连接，位于客户端与服务器的NetBIOS会话服务（TCP端口139）。 [![image007.jpg](https://community.emc.com/servlet/JiveServlet/downloadImage/2-862231-106229/670-409/image007.jpg)](https://community.emc.com/servlet/JiveServlet/showImage/2-862231-106229/image007.jpg) 看起来像一个简单的服务器/客户端问题，但查看抓包面板，如下图所示： [![image008.jpg](https://community.emc.com/servlet/JiveServlet/downloadImage/2-862231-106230/670-230/image008.jpg)](https://community.emc.com/servlet/JiveServlet/showImage/2-862231-106230/image008.jpg) 可以看见重传总是周期性的每30ms发生一次。问题是由于客户端在软件中执行了财务进程，导致软件每30-36ms就减速一次。 Case 4：应用无响应导致重传另一个可能导致重传的原因是客户端或服务器没有响应请求。这种情况下，会看到五次重传，时间也会逐渐延长。五次连续重传后，发送方认为连接断开（某些情况下，会发送reset来关闭连接，取决于软件实施）。断开连接之后，可能会发生两件事情： * 发送SYN请求至客户端，以打开一个新的连接。这种情况下用户会看到应用冻结，过了15-20秒之后重新开始工作。 * 不发送SYN，用户需要重新运行应用程序（或应用程序的一部分）下图显示了打开新连接的情况： [![image009.jpg](https://community.emc.com/servlet/JiveServlet/downloadImage/2-862231-106231/670-199/image009.jpg)](https://community.emc.com/servlet/JiveServlet/showImage/2-862231-106231/image009.jpg) Case 5：由于延时变化导致重传 TCP能够充分容忍延时，前提是延时大小不发生变化。当延时改变时，就会发生重传。诊断是否由该原因引起的方法： 1. 第一件事是ping目的地址，并且得到检查通信链路延时的第一条信息。 2. 检查延时变量，可能由以下原因引起： * 由于**不稳定或繁忙通信链路**引起。这种情况下，可以看到ping命令的延时变化，通常由于带宽较窄。 * 由于**应用过载或资源不足**，这种情况下，只有该应用发生很多重传。 * **通信设备过载（CPU,缓存）**引起延时。检查方式直接连接通信设备。 3. 使用Wireshark工具诊断延时问题。如果重传达到0.5个百分比，性能就会下降，断开连接将会达到5个百分比。这取决于应用及其对于重传的敏感性。定位重传问题当你看到通信链路上发生重传，进行以下步骤： 1. 定位问题——是一个特定IP地址，特定连接，特定应用，还是其他问题。 2. 查看问题是否由于通信链路，丢包，慢速服务器还是PC。查看应用是否慢速。 3. 如果不是由于上述原因，检查延时变化。 **工作原理:** TCP序列号/确认机制详见前文：[网络基本功（十）：细说TCP确认机制](https://community.emc.com/message/842879#842879) 。那么重传是由什么原因引起呢？当报文确认信息丢失，或ACK没有及时到达，发送方会进行以下两步操作： 1. 再次发送报文 2. 减少吞吐量。更多TCP重传内容详见前文：[网络基本功（九）：细说TCP重传](https://community.emc.com/message/842129#842129) 。以下图中展示了重传减少发送方吞吐量（红色细线）： [![image010.jpg](https://community.emc.com/servlet/JiveServlet/downloadImage/2-862231-106232/670-369/image010.jpg)](https://community.emc.com/servlet/JiveServlet/showImage/2-862231-106232/image010.jpg) ## 参考 Network Analysis Using Wireshark Cookbook