精通PHP正则表达式，看这一篇就够啦！ · php7进阶到架构师

## 前言很多人看正则表达式就像看天文数字一样，电话号码、邮箱的正则表达式，上网复制一下粘贴下来就搞定了。完全不知道为什么这么写。好了，废话不说了，开始搞事情。 ## 什么是正则表达式？通俗地讲，就是用一个“字符串”描述一个特征，然后去验证另一个“字符串”是否符合这个特征。 > 比如“ab+”描述的特征是：一个a和任意个b。那么ab,abbb,abbbbb都符合这个特征，而字符串ac显然不符合在php里，一个**正则表达式分为3个部分**：分隔符、表达式和修饰符 **分隔符**：标识一个正则表达式的开始和结束，一般用'/'或者'#' > 如： > $pattern = '/[0-9]/'; > $pattern = '#[0-9]#'; ## 字符的分类字符分为2类：可见字符和不可见字符 > **可见字符**： Unicode编码表中可用键盘输出后肉眼可见的字符，例如：标点 ; . / ? 或者英文字母，汉字等等可见字符 > **不可见字符**： > Unicode编码表中可用键盘输出后肉眼不可见的字符，例如：换行符 \\n，Tab制表符\\t等等， **字符的筛选方式：** > | 匹配两个或者多个分支选择，即或匹配 > []匹配方括号中的任意字符 > [^] 匹配除方括号中的字符之外的任意字符； > 区间匹配：\[a-z\]匹配a到z的字符, \[0-9\]匹配0到9的字符。也可以\[a-z0-9\] ，表示匹配数字或者小写字母 > . 匹配除换行符之外的任意字符 > \\d 匹配任意一个十进制数字，即[0-9] > \D 匹配任意一个非十进制数字\[^0-9\] 相当于\[^\\d\] ，与\d相反 > \\s 匹配一个不可见的字符，即\[\\f\\n\\r\\t\\v\] > \\S 匹配一个可见的字符，与\s相反 > \\w 匹配任意一个数字、字母或下划线，即\[0-9a-zA-Z\_\] > \\W 匹配任意一个非数字、字母或下划线，与\w相反 ## 量词量词，描述字符匹配的次数 > {n} 表示其前面的字符刚好出现了n次。即=n > {n,} 表示其前面的字符最少出现n次，即>=n > {n,m} 最少出现n次，最多出现m次 ,即>=n且<=m > `*`匹配0次、一次或者多次，即{0,} ,即>=0 > `+`匹配一次或多次,即{1,} ,即>=1 > `?`匹配0或1次，即{0,1} ## 边界控制边界控制，描述字符出现的位置。 > ^ 匹配字符串开始的位置， >**注意不要和[^]搞混** > $ 匹配字符串结尾的位置 > 例：^hello 可以匹配到:hello 但是匹配不到:123hello,因为规定了字符串以hello开头 ## 模式单元 > () 匹配其中的整体为一个原子, 如: (X|x)iaomi , 可以匹配到 xiaomi ## 修正符用于开启或者关闭某种功能或模式 #### 贪婪匹配 > 匹配结果存在歧义时取其长（默认） #### 懒惰匹配 > 匹配结果存在歧义时取其短，只需在正则表达式的后面'/'加上'U'，例如'/\[0-9\]/U'; #### 贪婪模式与懒惰模式的区别实例** > 字符串'test__123123123’满足模式'/test.+123/'，的字符串组合有 > (1)test__123 > (2)test__123123 > (3)test__123123123 > 匹配结果有3个结果，即匹配结果有歧义 > 最长字符串为test__123123123，故贪婪模式匹配的结果为test__123123123 > 最短字符串test__123，故懒惰模式匹配结果为test__123， **贪婪模式代码：** ~~~ $subject = "test__123123123"; preg_match('/test.+123/', $subject, $matches); //贪婪模式 var_dump($matches); ~~~ **贪婪模式输出结果如下：** > array (size=1) > 0 => string 'test__123123123' (length=15) **懒惰模式代码：** ~~~ $subject = "test__123123123"; preg_match('/test.+123/U', $subject, $matches); //贪婪模式 var_dump($matches); ~~~ **贪婪模式输出结果如下：** > array (size=1) > 0 => string 'test__123' (length=9) #### 常见的修正模式 > U 懒惰匹配 > i 忽略英文字母的大小写 > x 忽略正则表达式的空白符 > s 让元字符'.' 匹配包括换行符在内的所有字符 ## 常用正则函数 #### preg\_match 执行匹配正则表达式 > preg\_match ( string $pattern , string $subject \[, array &$matches \[, int $flags = 0 \[, int $offset = 0 \]\]\] ) : int > > * pattern: 要搜索的模式，字符串类型。 > * subject：输入字符串。 > * matches：如果提供了参数matches，它将被填充为搜索结果,数据结构为一维数组。 > * flags: 可以设置为PREG\_OFFSET\_CAPTURE，使用搜索结果的第0个元素为匹配的字符串，第1个元素为对应的偏移量（位置） > * offset: 搜索从目标字符串的起始位置开始匹配。 > 返回值：匹配次数 > 类似函数`preg_match_all`，参数与`preg_match`一致 > 区别： > preg_match：只匹配一次，搜索结构match的数据结果为一维数组 > preg_match_all：匹配全部，搜索结果match的数据结构为二维数组。 #### preg\_replace 执行一个正则表达式搜索和替换，返回值为替换后的字符串 > preg\_replace ( mixed $pattern , mixed $replacement , mixed $subject \[, int $limit = -1 \[, int &$count \]\] ) : mixed > > * pattern：要搜索的模式。可以是一个字符串或字符串数组。 > * replacement：用于替换的字符串或字符串数组 > * subject：要进行搜索和替换的字符串或字符串数组。 > * limit：替换的最大次数。默认是 -1(无限)。 > * count：替换次数。 #### preg\_split 通过一个正则表达式分隔字符串 > preg\_split ( string $pattern , string $subject \[, int $limit = -1 \[, int $flags = 0 \]\] ) : array > > * $pattrn：用于搜索的模式，字符串形式。 > * subject：输入字符串 > * limit：将限制分隔得到的子串最多只有limit个，返回的最后一个子串将包含所有剩余部分。 > * flags：有以下标记的组合： > \-- 1.`PREG_SPLIT_NO_EMPTY`: 返回分隔后的非空部分。 > \-- 2.`PREG_SPLIT_DELIM_CAPTURE`: 用分隔符'()'括号把匹配的捕获并返回。 > \-- 3.`PREG_SPLIT_OFFSET_CAPTURE`：匹配返回时将会附加字符串偏移量 `PREG_SPLIT_DELIM_CAPTURE`这个参数可能比较难明白，举个例子看看： ~~~ $subject = "1a23b"; $a = preg_split('/[\d]/', $subject, -1, PREG_SPLIT_NO_EMPTY); var_dump($a); //注意是([\d])不是[\d] $a = preg_split('/([\d])/', $subject, -1, PREG_SPLIT_NO_EMPTY | PREG_SPLIT_DELIM_CAPTURE); var_dump($a); ~~~ 输出如下： > array (size=2) > 0 => string 'a' (length=1) > 1 => string 'b' (length=1) > array (size=5) > 0 => string '1' (length=1) > 1 => string 'a' (length=1) > 2 => string '2' (length=1) > 3 => string '3' (length=1) > 4 => string 'b' (length=1)