# Python3 相关知识
## 简单爬虫
### urlib
使用urlib这个组件抓取网页,urllib是一个URL处理包,这个包中集合了一些处理URL的模块。
|模块名 |作用 |
|-------------------|-----------------------------|
|urllib.request |模块是用来打开和读取URLs的 |
|urllib.error |模块包含一些有urllib.request产生的错误,可以使用try进行捕捉处理|
|urllib.parse |模块包含了一些解析URLs的方法 |
|urllib.robotparser |模块用来解析robots.txt文本文件.它提供了一个单独的RobotFileParser类,通过该类提供的can_fetch()方法测试爬虫是否可以下载一个页面 |
### 爬取一个网页的步骤
1. 使用 `urllib.request.urlopen()` 打开一个网页。
> urlopen有一些可选参数,具体信息可以查阅Python自带的documentation。
2. 读取网页内容。
```python
# -*- coding: UTF-8 -*-
from urllib import request
if __name__ == "__main__":
response = request.urlopen("http://fanyi.baidu.com")
html = response.read()
html = html.decode('utf-8')
print(html)
```
3.
- 1. HTML
- 1.1 HTML 标签
- 1.2 HTML 属性
- 1.3 HTML5
- 2. CSS/CSS3
- 2.1 CSS3
- 2.2 Less
- 2.3 Sass
- 3. JavaScript
- 3.1 JQuery
- 3.2 javascript code
- 3.3 es6
- 4. 前端框架
- 4.1 Angular4+
- 4.2 React
- 4.3 Vue
- 5. 综合知识
- 5.1 HTTP
- 5.2 websocket
- 5.3 综合问题集合
- 5.4 前端优化
- 6. 附加知识
- 6.1 TCP/IP
- 6.2 数据结构
- 6.3 前端开发
- 7. 相关工具
- 7.1 Git
- 7.2 调试
- 7.3 Linux
- 8. 其他需要了解的内容
- 8.1 Python3
- 8.2 Java
- 8.3 数据库