## re模块
### 正则表达式
正则表达式不仅在python领域,在整个编程届都占有举足轻重的地位。不管以后是不是做python开发,只要你是一个程序员就应该了解正则表达式的基本使用。如果未来你要在爬虫领域发展,你就更应该好好学习这方面的知识。但是,re模块本质上和正则表达式没有一毛钱的关系。re模块和正则表达式的关系 类似于 time模块和时间的关系,没有学习python之前,你不知道有一个time模块,但是你已经认识时间了 12:30就表示中午十二点半。时间有自己的格式,年月日时分秒,12个月,365天......已经成为了一种规则。你也早就牢记于心了。time模块只不过是python提供给我们的可以方便我们操作时间的一个工具而已。**正则表达式**本身也和python没有什么关系,就是**匹配字符串内容的一种规则**。
#### 字符组
字符组 : [字符组]
在同一个位置可能出现的各种字符组成了一个字符组,在正则表达式中用[]表示
字符分为很多类,比如数字、字母、标点等等。
假如你现在要求一个位置"只能出现一个数字",那么这个位置上的字符只能是0、1、2...9这10个数之一。
![](https://img.kancloud.cn/7a/ae/7aae52cef69df91ee4bde848b01bc540_887x499.png)
#### 字符
![](https://img.kancloud.cn/2f/21/2f21e9f3fd7a2c7a8e1bccf1476de20e_681x668.png)
#### 量词
![](https://img.kancloud.cn/53/35/533587e7762826c04816a1a2c720970c_685x270.png)
#### .^$
![](https://img.kancloud.cn/8e/27/8e270c0b3298ef27f16cb32032727a9f_924x259.png)
#### \*+?{}
![](https://img.kancloud.cn/db/f2/dbf2d6e6886ce82a4d930d94ef0351b6_920x350.png)
** 注意:前面的\*,+,?等都是贪婪匹配,也就是尽可能匹配,后面加?号使其变成惰性匹配**
![](https://img.kancloud.cn/b9/7b/b97b26bd2be4256d699c0d3e1f61b8e6_558x182.png)
#### 字符集 \[\] \[^\]
![](https://img.kancloud.cn/49/02/4902a896466408f189005d1d297992e2_875x490.png)
#### 分组 () 与或 | \[^\]
![](https://img.kancloud.cn/18/65/18650aa44b52f289d9f5fb3a2c4da3db_925x359.png)
#### 转义符\\
在正则表达式中,有很多有特殊意义的是元字符,比如\\n和\\s等,如果要在正则中匹配正常的"\\n"而不是"换行符"就需要对"\\"进行转义,变成'\\\\'。
在python中,无论是正则表达式,还是待匹配的内容,都是以字符串的形式出现的,在字符串中\\也有特殊的含义,本身还需要转义。所以如果匹配一次"\\n",字符串中要写成'\\\\n',那么正则里就要写成"\\\\\\\\n",这样就太麻烦了。这个时候我们就用到了r'\\n'这个概念,此时的正则是r'\\\\n'就可以了。
![](https://img.kancloud.cn/96/47/9647e5bf25a4c96cb9e217efacab2d0a_837x221.png)
#### 贪婪匹配
贪婪匹配:在满足匹配时,匹配尽可能长的字符串,默认情况下,采用贪婪匹配
![](https://img.kancloud.cn/0e/12/0e126182730d2401ba64e6329be564d1_838x226.png)
几个常用的非贪婪匹配Pattern
```
~~~
*? 重复任意次,但尽可能少重复
+? 重复1次或更多次,但尽可能少重复
?? 重复0次或1次,但尽可能少重复
{n,m}? 重复n到m次,但尽可能少重复
{n,}? 重复n次以上,但尽可能少重复
~~~
```
.*?的用法
```
. 是任意字符
* 是取 0 至 无限长度
? 是非贪婪模式。
何在一起就是 取尽量少的任意字符,一般不会这么单独写,他大多用在:
.*?x
就是取前面任意长度的字符,直到一个x出现
```
### Python中re模块下的常用方法
~~~
import re
ret = re.findall('a', 'eva egon yuan') # 返回所有满足匹配条件的结果,放在列表里
print(ret) #结果 : ['a', 'a']
ret = re.search('a', 'eva egon yuan').group()
print(ret) #结果 : 'a'
# 函数会在字符串内查找模式匹配,只到找到第一个匹配然后返回一个包含匹配信息的对象,该对象可以
# 通过调用group()方法得到匹配的字符串,如果字符串没有匹配,则返回None。
ret = re.match('a', 'abc').group() # 同search,不过尽在字符串开始处进行匹配
print(ret)
#结果 : 'a'
ret = re.split('[ab]', 'abcd') # 先按'a'分割得到''和'bcd',在对''和'bcd'分别按'b'分割
print(ret) # ['', '', 'cd']
ret = re.sub('\d', 'H', 'eva3egon4yuan4', 1)#将数字替换成'H',参数1表示只替换1个
print(ret) #evaHegon4yuan4
ret = re.subn('\d', 'H', 'eva3egon4yuan4')#将数字替换成'H',返回元组(替换的结果,替换了多少次)
print(ret)
obj = re.compile('\d{3}') #将正则表达式编译成为一个 正则表达式对象,规则要匹配的是3个数字
ret = obj.search('abc123eeee') #正则表达式对象调用search,参数为待匹配的字符串
print(ret.group()) #结果 : 123
import re
ret = re.finditer('\d', 'ds3sy4784a') #finditer返回一个存放匹配结果的迭代器
print(ret) # <callable_iterator object at 0x10195f940>
print(next(ret).group()) #查看第一个结果
print(next(ret).group()) #查看第二个结果
print([i.group() for i in ret]) #查看剩余的左右结果
~~~
**注意:**
1 findall的优先级查询
~~~
import re
ret = re.findall('www.(baidu|oldboy).com', 'www.oldboy.com')
print(ret) # ['oldboy'] 这是因为findall会优先把匹配结果组里内容返回,如果想要匹配结果,取消权限即可
ret = re.findall('www.(?:baidu|oldboy).com', 'www.oldboy.com')
print(ret) # ['www.oldboy.com']
~~~
2 split的优先级查询
~~~
ret=re.split("\d+","eva3egon4yuan")
print(ret) #结果 : ['eva', 'egon', 'yuan']
ret=re.split("(\d+)","eva3egon4yuan")
print(ret) #结果 : ['eva', '3', 'egon', '4', 'yuan']
#在匹配部分加上()之后所切出的结果是不同的,
#没有()的没有保留所匹配的项,但是有()的却能够保留了匹配的项,
#这个在某些需要保留匹配部分的使用过程是非常重要的。
~~~
- Python学习
- Python基础
- Python初识
- 列表生成式,生成器,可迭代对象,迭代器详解
- Python面向对象
- Python中的单例模式
- Python变量作用域、LEGB、闭包
- Python异常处理
- Python操作正则
- Python中的赋值与深浅拷贝
- Python自定义CLI三方库
- Python并发编程
- Python之进程
- Python之线程
- Python之协程
- Python并发编程与IO模型
- Python网络编程
- Python之socket网络编程
- Django学习
- 反向解析
- Cookie和Session操作
- 文件上传
- 缓存的配置和使用
- 信号
- FBV&&CBV&&中间件
- Django补充
- 用户认证
- 分页
- 自定义搜索组件
- Celery
- 搭建sentry平台监控
- DRF学习
- drf概述
- Flask学习
- 项目拆分
- 三方模块使用
- 爬虫学习
- Http和Https区别
- 请求相关库
- 解析相关库
- 常见面试题
- 面试题
- 面试题解析
- 网络原理
- 计算机网络知识简单介绍
- 详解TCP三次握手、四次挥手及11种状态
- 消息队列和数据库
- 消息队列之RabbitMQ
- 数据库之Redis
- 数据库之初识MySQL
- 数据库之MySQL进阶
- 数据库之MySQL补充
- 数据库之Python操作MySQL
- Kafka常用命令
- Linux学习
- Linux基础命令
- Git
- Git介绍
- Git基本配置及理论
- Git常用命令
- Docker
- Docker基本使用
- Docker常用命令
- Docker容器数据卷
- Dockerfile
- Docker网络原理
- docker-compose
- Docker Swarm
- HTML
- CSS
- JS
- VUE