正则表达式 · python

[TOC] # 简介 ~~~ import re # 使用match方法进行匹配操作 result = re.match(正则表达式, 要匹配的字符串) # 如果上一步匹配到数据的话,可以使用group方法来提取数据 result.group() ~~~ 例子 ~~~ import re # 非转义的原始字符串 match = re.match(r'[hH]ello', 'hello world') # 如果有返回值表示匹配成功 print(match) group = match.group() print(group) ~~~ # 匹配单个字符 | 字符 | 功能 | |---|---| | . | 匹配任意1个字符(除了\n) | | [] | 匹配[]中列举的字符 | | \d | 匹配数字,即0-9 | | \D | 匹配非数字,即不是数字 | | \s | 匹配恐怖,即空格,tab键 | | \S | 匹配非空白 | | \w | 匹配单词字符,即`a-z,A-Z,0-9,_`,还支持中文,因为是unicode码 | | \W | 匹配非单词字符,小w不成功的大W就成功 | # 匹配多个字符匹配多个字符的相关格式 | 字符 | 功能 | |---|---| | * | 匹配前一个字符出现0次或者无限次,即可有可无 | | + | 匹配前一个字符出现1次或者无限次,即至少有一次 | | ? | 匹配前一个字符出现1次或者0次,即要么有1次,要么没有 | | {m} | 匹配前一个字符出现m次 | | {m,n} | 匹配前一个字符出现从m到n次 | # 匹配开头结尾 | 字符 | 功能 | |---|---| | `^` | 匹配字符串开头 | | `$` | 匹配字符串结尾 | # 匹配分组 | 字符 | 功能 | |---|---| | `|` | 匹配左右任意一个表达式 | | (ab) | 将括号中字符作为一个分组 | | `\num` | 引用分组num匹配到的字符串 | | `(?p<name>)` | 分组起别名 | | `(?P=name)` | 引用别名为name分组匹配到的字符串 | 以`()`分开一个个组 ~~~ import re group = re.match(r"([a-zA-Z0-9_]{4,20})@(163|126)\.com$", 'laowang@163.com').group(2) print(group) ~~~ `\num`匹配第多少个() ~~~ import re html_str = '<body><h1>hahaha</h1></body>' group = re.match(r"<(\w*)><(\w*)>.*</\2></\1>", html_str).group() print(group) ~~~ 分组别名 ~~~ import re html_str = '<body><h1>hahaha</h1></body>' group = re.match(r"<(?P<p1>\w*)><(?P<p2>\w*)>.*</(?P=p2)></(?P=p1)>", html_str).group() print(group) ~~~ # 高级用法 ## search match是从头匹配,而search是只匹配到符合标准的那个就行了 ~~~ import re ret = re.search(r"\d+", "阅读次数为 999") group = ret.group() print(group) ~~~ ## findall 有多少个符合就全找出,放到列表中 ~~~ import re ret = re.findall(r"\d+", "python = 999, c = 7890, c++ = 12345") print(ret) ~~~ ## sub 将匹配到的数据进行替换 ~~~ import re ret = re.sub(r"\d+", '998', 'python = 997') print(ret) ~~~ 输出 ~~~ python = 998 ~~~ ## split 根据匹配进行切割字符串,并返回一个列表 ~~~ import re # 用:或者空格切割 ret = re.split(r":| ", "info:xiaozhang 33 shangdong") print(ret) ~~~ 输出 ~~~ ['info', 'xiaozhang', '33', 'shangdong'] ~~~