```
非结构化的数据:html等
处理方法:正则表达式、xpath
```
```
结构化数据:json,xml等
处理方法:转化为python数据类型
```
- 基础
- 输入输出
- 常量变量
- 常量
- 变量
- 数据类型
- 简单数据类型
- 整型
- 浮点型
- 复数
- 复杂数据类型
- 序列
- 通用操作
- 字符串
- 定义
- 方法
- 格式化
- eval
- range
- capitalize
- count
- 格式化
- list
- 定义
- 方法
- tuple
- 定义
- 特点
- 方法
- dict
- 定义
- set
- 定义
- 类型转换
- 函数
- 定义
- 参数
- 函数变量
- 多返回值
- 作用域
- 函数嵌套
- 匿名函数
- 面向对象
- 类
- 对象
- 封装
- 私有
- property
- 类属性和实例属性
- 实例方法、静态方法和类方法
- 继承
- 多态
- 接口
- 设计原则
- 开放/封闭原则
- 控制反转原则
- 接口隔离原则
- 单一职责原则
- 替换原则
- 魔法方法
- 构造方法
- 析构方法
- 静态方法
- doc
- call
- dict
- str
- 异常
- with
- 提高
- 深浅拷贝
- 闭包
- 装饰器
- 正则表达式
- 单个字符
- 多个字符
- 开头结尾
- 分组
- 高级语法
- 网络编程
- 多任务
- 线程
- 创建线程
- 主线程等待
- 共享全局变量
- 传递参数
- 进程
- 创建
- 进程间通信
- 协程
- 数据库
- SQL
- 安装
- 备份
- 查询
- 消除重复行
- 分组
- 字查询
- Python 中操作 MySQL
- 设计模式
- 简介
- 三大类
- 创建型
- 单例
- 常用模块
- 导入模块
- 系统内置
- os
- time
- math
- help
- logging
- 格式
- 输出到控制台
- 输出到文件
- 两个都输出
- 三方模块
- Tesseract
- redis
- 安装
- selenium
- Selenium
- PhantomJS
- Chromedriver
- turtle
- 五角星
- 正方体
- urllib3
- http请求
- Requests
- 基本使用
- 发送请求
- cookies
- 代理
- Django
- 框架介绍
- 项目搭建
- 项目配置
- 路由
- 项目urls.py
- 应用urls.py
- 控制器
- request
- response
- Cookie
- Session
- views
- Models
- 数据库
- ORM
- 配置和迁移
- 模型类
- 模型管理器
- 增删改
- 查
- 查询集
- Mysql日志
- 自定义模型管理器
- 中间件
- scrapy
- 工作原理
- 创建项目
- spider
- items
- pipeline
- settings
- logging
- 小例子
- 果壳网
- 人人网登陆
- 腾讯招聘
- 创建模块
- 网络爬虫
- 基础知识
- 爬虫的用途
- robots协议
- http和https
- 常见请求头
- 状态码
- 字符串
- requests
- 简介
- 发送请求
- response
- 小技巧
- 代理
- cookie和session
- Fiddler
- 数据提取
- 数据分类
- json
- 正则
- xpath
- lxml
- 自动化运维
- Shell
- 开发规范
- 注释
- 脚本执行
- 变量
- 表达式
- 测试语句
- 条件表达式
- 逻辑表达式
- 文件表达式
- 数值操作符
- 字符串比较
- 计算表达式
- 常见符号
- 重定向符号
- 管道符
- 其他符号
- 常见命令
- grep
- sed
- awk
- find
- 流程控制
- if