HTTP的请求与响应 · Python爬虫

HTTP通信由两部分组成：客户端请求消息与服务器响应消息。 :-: ![](https://img.kancloud.cn/fb/83/fb83972f1a6a5b5fa4ccfc2297cb38a2_726x237.png) 1. 当⽤户在浏览器的地址栏中输⼊⼀个URL并按回⻋键之后，浏览器会向 HTTP服务器发送HTTP请求。HTTP请求主要分为**Get**和**Post**两种⽅法。 2. 当我们在浏览器输⼊URL http://www.baidu.com 的时候，浏览器发送⼀个Request请求去获取 http://www.baidu.com 的html⽂件，服务器把 Response⽂件对象发送回给浏览器。 3. 浏览器分析Response中的 HTML，发现其中引⽤了很多其他⽂件，⽐如 Images⽂件，CSS⽂件，JS⽂件。浏览器会⾃动再次发送Request去获取图⽚，CSS⽂件，或者JS⽂件。 4. 当所有的⽂件都下载成功后，⽹⻚会根据HTML语法结构，完整的显示出来了。 **URL:统⼀资源定位符** 是⽤于完整地描述Internet上⽹⻚和其他资源的地址的⼀种标识⽅法。它的基本结构如下 ``` scheme://host[:port#]/path/…/[?query-string][#anchor] scheme：协议(例如：http, https, ftp) host：服务器的IP地址或者域名 port#：服务器的端⼝（如果是⾛协议默认端⼝，缺省端⼝80） path：访问资源的路径 query-string：参数，发送给http服务器的数据 anchor：锚（跳转到⽹⻚的指定锚点位置） ```