### 导航
- [索引](../genindex.xhtml "总目录")
- [模块](../py-modindex.xhtml "Python 模块索引") |
- [下一页](difflib.xhtml "模块 difflib 是一个计算差异的助手") |
- [上一页](string.xhtml "string --- 常见的字符串操作") |
- ![](https://box.kancloud.cn/a721fc7ec672275e257bbbfde49a4d4e_16x16.png)
- [Python](https://www.python.org/) »
- zh\_CN 3.7.3 [文档](../index.xhtml) »
- [Python 标准库](index.xhtml) »
- [文本处理服务](text.xhtml) »
- $('.inline-search').show(0); |
# [`re`](#module-re "re: Regular expression operations.") --- 正则表达式操作
**源代码:** [Lib/re.py](https://github.com/python/cpython/tree/3.7/Lib/re.py) \[https://github.com/python/cpython/tree/3.7/Lib/re.py\]
- - - - - -
这个模块提供了与 Perl 语言类似的正则表达式匹配操作。
模式和被搜索的字符串既可以是 Unicode 字符串 ([`str`](stdtypes.xhtml#str "str")) ,也可以是8位字节串 ([`bytes`](stdtypes.xhtml#bytes "bytes"))。 但是,Unicode 字符串与8位字节串不能混用:也就是说,你不能用一个字节串模式去匹配 Unicode 字符串,反之亦然;类似地,当进行替换操作时,替换字符串的类型也必须与所用的模式和搜索字符串的类型一致。
正则表达式使用反斜杠(`'\'`)来表示特殊形式,或者把特殊字符转义成普通字符。 而反斜杠在普通的 Python 字符串里也有相同的作用,所以就产生了冲突。比如说,要匹配一个字面上的反斜杠,正则表达式模式不得不写成 `'\\\\'`,因为正则表达式里匹配一个反斜杠必须是 `\\` ,而每个反斜杠在普通的 Python 字符串里都要写成 `\\` 。
解决办法是对于正则表达式样式使用 Python 的原始字符串表示法;在带有 `'r'` 前缀的字符串字面值中,反斜杠不必做任何特殊处理。 因此 `r"\n"` 表示包含 `'\'` 和 `'n'` 两个字符的字符串,而 `"\n"` 则表示只包含一个换行符的字符串。 样式在 Python 代码中通常都会使用这种原始字符串表示法来表示。
绝大部分正则表达式操作都提供为模块函数和方法,在 [编译正则表达式](#re-objects). 这些函数是一个捷径,不需要先编译一个正则对象,但是损失了一些优化参数。
参见
第三方模块 [regex](https://pypi.org/project/regex/) \[https://pypi.org/project/regex/\] , 提供了与标准库 [`re`](#module-re "re: Regular expression operations.") 模块兼容的API接口, 同时还提供了额外的功能和更全面的Unicode支持。
## 正则表达式语法
一个正则表达式(或RE)指定了一集与之匹配的字符串;模块内的函数可以让你检查某个字符串是否跟给定的正则表达式匹配(或者一个正则表达式是否匹配到一个字符串,这两种说法含义相同)。
正则表达式可以拼接; 如果 *A* 和 *B* 都是正则表达式, 那么 *AB* 也是正则表达式。 通常, 如果字符串 *p* 匹配 *A* 并且另一个字符串 *q* 匹配 *B*, 那么 *pq* 可以匹配 AB。除非 *A* 或者 *B* 包含低优先级操作,*A* 和 *B* 存在边界条件;或者命名组引用。所以,复杂表达式可以很容易的从这里描述的简单源语表达式构建。 了解更多正则表达式理论和实现,参考the Friedl book [\[Frie09\]](#frie09) ,或者其他编译器构建的书籍。
以下是正则表达式格式的简要说明。更详细的信息和演示,参考 [正则表达式HOWTO](../howto/regex.xhtml#regex-howto)。
正则表达式可以包含普通或者特殊字符。绝大部分普通字符,比如 `'A'`, `'a'`, 或者 `'0'`,都是最简单的正则表达式。它们就匹配自身。你可以拼接普通字符,所以 `last` 匹配字符串 `'last'`. (在这一节的其他部分,我们将用 `this special style` 这种方式表示正则表达式,通常不带引号,要匹配的字符串用 `'in single quotes'` ,单引号形式。)
有些字符,比如 `'|'` 或者 `'('`,属于特殊字符。 特殊字符既可以表示它的普通含义, 也可以影响它旁边的正则表达式的解释。
重复修饰符 (`*`, `+`, `?`, `{m,n}`, 等) 不能直接嵌套。这样避免了非贪婪后缀 `?` 修饰符,和其他实现中的修饰符产生的多义性。要应用一个内层重复嵌套,可以使用括号。 比如,表达式 `(?:a{6})*` 匹配6个 `'a'` 字符重复任意次数。
特殊字符是:
`.`(点) 在默认模式,匹配除了换行的任意字符。如果指定了标签 [`DOTALL`](#re.DOTALL "re.DOTALL") ,它将匹配包括换行符的任意字符。
`^`(插入符号) 匹配字符串的开头, 并且在 [`MULTILINE`](#re.MULTILINE "re.MULTILINE") 模式也匹配换行后的首个符号。
`$`匹配字符串尾或者换行符的前一个字符,在 [`MULTILINE`](#re.MULTILINE "re.MULTILINE") 模式匹配换行符的前一个字符。 `foo` 匹配 `'foo'` 和 `'foobar'` , 但正则 `foo$` 只匹配 `'foo'`。更有趣的是, 在 `'foo1\nfoo2\n'` 搜索 `foo.$` ,通常匹配 `'foo2'` ,但在 [`MULTILINE`](#re.MULTILINE "re.MULTILINE") 模式 ,可以匹配到 `'foo1'` ;在 `'foo\n'` 搜索 `$` 会找到两个空串:一个在换行前,一个在字符串最后。
`*`对它前面的正则式匹配0到任意次重复, 尽量多的匹配字符串。 `ab*` 会匹配 `'a'`, `'ab'`, 或者 `'a'``后面跟随任意个 ``'b'`。
`+`对它前面的正则式匹配1到任意次重复。 `ab+` 会匹配 `'a'` 后面跟随1个以上到任意个 `'b'`,它不会匹配 `'a'`。
`?`对它前面的正则式匹配0到1次重复。 `ab?` 会匹配 `'a'` 或者 `'ab'`。
`*?`, `+?`, `??``'*'`, `'+'`,和 `'?'` 修饰符都是 *贪婪的*;它们在字符串进行尽可能多的匹配。有时候并不需要这种行为。如果正则式 `<.*>` 希望找到 `'<a> b <c>'`,它将会匹配整个字符串,而不仅是 `'<a>'`。在修饰符之后添加 `?` 将使样式以 *非贪婪`方式或者 :dfn:`最小* 方式进行匹配; 尽量 *少* 的字符将会被匹配。 使用正则式 `<.*?>` 将会仅仅匹配 `'<a>'`。
"{m}"对其之前的正则式指定匹配 *m* 个重复;少于 *m* 的话就会导致匹配失败。比如, `a{6}` 将匹配6个 `'a'` , 但是不能是5个。
"{m, n}"对正则式进行 *m* 到 *n* 次匹配,在 *m* 和 *n* 之间取尽量多。 比如,`a{3,5}` 将匹配 3 到 5个 `'a'`。忽略 *m* 意为指定下界为0,忽略 *n* 指定上界为无限次。 比如 `a{4,}b` 将匹配 `'aaaab'` 或者1000个 `'a'` 尾随一个 `'b'`,但不能匹配 `'aaab'`。逗号不能省略,否则无法辨别修饰符应该忽略哪个边界。
`{m,n}?`前一个修饰符的非贪婪模式,只匹配尽量少的字符次数。比如,对于 `'aaaaaa'`, `a{3,5}` 匹配 5个 `'a'` ,而 `a{3,5}?` 只匹配3个 `'a'`。
`\`转义特殊字符(允许你匹配 `'*'`, `'?'`, 或者此类其他),或者表示一个特殊序列;特殊序列之后进行讨论。
如果你没有使用原始字符串( `r'raw'` )来表达样式,要牢记Python也使用反斜杠作为转义序列;如果转义序列不被Python的分析器识别,反斜杠和字符才能出现在字符串中。如果Python可以识别这个序列,那么反斜杠就应该重复两次。这将导致理解障碍,所以高度推荐,就算是最简单的表达式,也要使用原始字符串。
`[]`用于表示一个字符集合。在一个集合中:
- 字符可以单独列出,比如 `[amk]` 匹配 `'a'`, `'m'`, 或者 `'k'`。
- 可以表示字符范围,通过用 `'-'` 将两个字符连起来。比如 `[a-z]` 将匹配任何小写ASCII字符, `[0-5][0-9]` 将匹配从 `00` 到 `59` 的两位数字, `[0-9A-Fa-f]` 将匹配任何十六进制数位。 如果 `-` 进行了转义 (比如 `[a\-z]`)或者它的位置在首位或者末尾(如 `[-a]` 或 `[a-]`),它就只表示普通字符 `'-'`。
- 特殊字符在集合中,失去它的特殊含义。比如 `[(+*)]` 只会匹配这几个文法字符 `'('`, `'+'`, `'*'`, or `')'`。
- 字符类如 `\w` 或者 `\S` (如下定义) 在集合内可以接受,它们可以匹配的字符由 [`ASCII`](#re.ASCII "re.ASCII") 或者 [`LOCALE`](#re.LOCALE "re.LOCALE") 模式决定。
- 不在集合范围内的字符可以通过 *取反* 来进行匹配。如果集合首字符是 `'^'` ,所有 *不* 在集合内的字符将会被匹配,比如 `[^5]` 将匹配所有字符,除了 `'5'`, `[^^]` 将匹配所有字符,除了 `'^'`. `^` 如果不在集合首位,就没有特殊含义。
- 在集合内要匹配一个字符 `']'`,有两种方法,要么就在它之前加上反斜杠,要么就把它放到集合首位。比如, `[()[\]{}]` 和 `[]()[{}]` 都可以匹配括号。
- [Unicode Technical Standard #18](https://unicode.org/reports/tr18/) \[https://unicode.org/reports/tr18/\] 里的嵌套集合和集合操作支持可能在未来添加。这将会改变语法,所以为了帮助这个改变,一个 [`FutureWarning`](exceptions.xhtml#FutureWarning "FutureWarning") 将会在有多义的情况里被 `raise`,包含以下几种情况,集合由 `'['` 开始,或者包含下列字符序列 `'--'`, `'&&'`, `'~~'`, 和 `'||'`。为了避免警告,需要将它们用反斜杠转义。
在 3.7 版更改: 如果一个字符串构建的语义在未来会改变的话,一个 [`FutureWarning`](exceptions.xhtml#FutureWarning "FutureWarning") 会 `raise` 。
`|``A|B`, *A* 和 *B* 可以是任意正则表达式,创建一个正则表达式,匹配 *A* 或者 *B*. 任意个正则表达式可以用 `'|'` 连接。它也可以在组合(见下列)内使用。扫描目标字符串时, `'|'` 分隔开的正则样式从左到右进行匹配。当一个样式完全匹配时,这个分支就被接受。意思就是,一旦 *A* 匹配成功, *B* 就不再进行匹配,即便它能产生一个更好的匹配。或者说,`'|'` 操作符绝不贪婪。 如果要匹配 `'|'` 字符,使用 `\|`, 或者把它包含在字符集里,比如 `[|]`.
`(...)`(组合),匹配括号内的任意正则表达式,并标识出组合的开始和结尾。匹配完成后,组合的内容可以被获取,并可以在之后用 `\number` 转义序列进行再次匹配,之后进行详细说明。要匹配字符 `'('` 或者 `')'`, 用 `\(` 或 `\)`, 或者把它们包含在字符集合里: `[(]`, `[)]`.
`(?…)`这是个扩展标记法 (一个 `'?'` 跟随 `'('` 并无含义)。 `'?'` 后面的第一个字符决定了这个构建采用什么样的语法。这种扩展通常并不创建新的组合; `(?P<name>...)` 是唯一的例外。 以下是目前支持的扩展。
`(?aiLmsux)`( `'a'`, `'i'`, `'L'`, `'m'`, `'s'`, `'u'`, `'x'` 中的一个或多个) 这个组合匹配一个空字符串;这些字符对正则表达式设置以下标记 [`re.A`](#re.A "re.A") (只匹配ASCII字符), [`re.I`](#re.I "re.I") (忽略大小写), [`re.L`](#re.L "re.L") (语言依赖), [`re.M`](#re.M "re.M") (多行模式), [`re.S`](#re.S "re.S") (点dot匹配全部字符), `re.U` (Unicode匹配), and [`re.X`](#re.X "re.X") (冗长模式)。 (这些标记在 [模块内容](#contents-of-module-re) 中描述) 如果你想将这些标记包含在正则表达式中,这个方法就很有用,免去了在 [`re.compile()`](#re.compile "re.compile") 中传递 *flag* 参数。标记应该在表达式字符串首位表示。
`(?:…)`正则括号的非捕获版本。 匹配在括号内的任何正则表达式,但该分组所匹配的子字符串 *不能* 在执行匹配后被获取或是之后在模式中被引用。
`(?aiLmsux-imsx:…)`(`'a'`, `'i'`, `'L'`, `'m'`, `'s'`, `'u'`, `'x'` 中的0或者多个, 之后可选跟随 `'-'` 在后面跟随 `'i'` , `'m'` , `'s'` , `'x'` 中的一到多个 .) 这些字符为表达式的其中一部分 *设置* 或者 *去除* 相应标记 [`re.A`](#re.A "re.A") (只匹配ASCII), [`re.I`](#re.I "re.I") (忽略大小写), [`re.L`](#re.L "re.L") (语言依赖), [`re.M`](#re.M "re.M") (多行), [`re.S`](#re.S "re.S") (点匹配所有字符), `re.U` (Unicode匹配), and [`re.X`](#re.X "re.X") (冗长模式)。(标记描述在 [模块内容](#contents-of-module-re) .)
`'a'`, `'L'` and `'u'` 作为内联标记是相互排斥的, 所以它们不能结合在一起,或者跟随 `'-'` 。 当他们中的某个出现在内联组中,它就覆盖了括号组内的匹配模式。在Unicode样式中, `(?a:...)` 切换为 只匹配ASCII, `(?u:...)` 切换为Unicode匹配 (默认). 在byte样式中 `(?L:...)` 切换为语言依赖模式, `(?a:...)` 切换为 只匹配ASCII (默认)。这种方式只覆盖组合内匹配,括号外的匹配模式不受影响。
3\.6 新版功能.
在 3.7 版更改: 符号 `'a'`, `'L'` 和 `'u'` 同样可以用在一个组合内。
`(?P<name>…)`(命名组合)类似正则组合,但是匹配到的子串组在外部是通过定义的 *name* 来获取的。组合名必须是有效的Python标识符,并且每个组合名只能用一个正则表达式定义,只能定义一次。一个符号组合同样是一个数字组合,就像这个组合没有被命名一样。
命名组合可以在三种上下文中引用。如果样式是 `(?P<quote>['"]).*?(?P=quote)` (也就是说,匹配单引号或者双引号括起来的字符串):
引用组合 "quote" 的上下文
引用方法
在正则式自身内
- `(?P=quote)` (如示)
- `\1`
处理匹配对象 *m*
- `m.group('quote')`
- `m.end('quote')` (等)
传递到 `re.sub()` 里的 *repl* 参数中
- `\g<quote>`
- `\g<1>`
- `\1`
`(?P=name)`反向引用一个命名组合;它匹配前面那个叫 *name* 的命名组中匹配到的串同样的字串。
`(?#…)`注释;里面的内容会被忽略。
`(?=…)`匹配 `…` 的内容,但是并不消费样式的内容。这个叫做 *lookahead assertion*。比如, `Isaac (?=Asimov)` 匹配 `'Isaac '` 只有在后面是 `'Asimov'` 的时候。
`(?!…)`匹配 `…` 不符合的情况。这个叫 *negative lookahead assertion* (前视取反)。比如说, `Isaac (?!Asimov)` 只有后面 *不* 是 `'Asimov'` 的时候才匹配 `'Isaac '` 。
`(?<=…)`匹配字符串的当前位置,它的前面匹配 `…` 的内容到当前位置。这叫:dfn:positive lookbehind assertion (正向后视断定)。 `(?<=abc)def` 会在 `'abcdef'` 中找到一个匹配,因为后视会往后看3个字符并检查是否包含匹配的样式。包含的匹配样式必须是定长的,意思就是 `abc` 或 `a|b` 是允许的,但是 `a*` 和 `a{3,4}` 不可以。注意以 positive lookbehind assertions 开始的样式,如 `(?<=abc)def` ,并不是从 a 开始搜索,而是从 d 往回看的。你可能更加愿意使用 [`search()`](#re.search "re.search") 函数,而不是 [`match()`](#re.match "re.match") 函数:
```
>>> import re
>>> m = re.search('(?<=abc)def', 'abcdef')
>>> m.group(0)
'def'
```
这个例子搜索一个跟随在连字符后的单词:
```
>>> m = re.search(r'(?<=-)\w+', 'spam-egg')
>>> m.group(0)
'egg'
```
在 3.5 版更改: 添加定长组合引用的支持。
`(?<!…)`匹配当前位置之前不是 `…` 的样式。这个叫:dfn:negative lookbehind assertion (后视断定取非)。类似正向后视断定,包含的样式匹配必须是定长的。由 negative lookbehind assertion 开始的样式可以从字符串搜索开始的位置进行匹配。
`(?(id/name)yes-pattern|no-pattern)`如果给定的 *id* 或 *name* 存在,将会尝试匹配 `yes-pattern` ,否则就尝试匹配 `no-pattern`,`no-pattern` 可选,也可以被忽略。比如, `(<)?(\w+@\w+(?:\.\w+)+)(?(1)>|$)` 是一个email样式匹配,将匹配 `'<user@host.com>'` 或 `'user@host.com'` ,但不会匹配 `'<user@host.com'` ,也不会匹配 `'user@host.com>'`。
由 `'\'` 和一个字符组成的特殊序列在以下列出。 如果普通字符不是ASCII数位或者ASCII字母,那么正则样式将匹配第二个字符。比如,`\$` 匹配字符 `'$'`.
`\number`匹配数字代表的组合。每个括号是一个组合,组合从1开始编号。比如 `(.+) \1` 匹配 `'the the'` 或者 `'55 55'`, 但不会匹配 `'thethe'` (注意组合后面的空格)。这个特殊序列只能用于匹配前面99个组合。如果 *number* 的第一个数位是0, 或者 *number* 是三个八进制数,它将不会被看作是一个组合,而是八进制的数字值。在 `'['` 和 `']'` 字符集合内,任何数字转义都被看作是字符。
`\A`只匹配字符串开始。
`\b`匹配空字符串,但只在单词开始或结尾的位置。一个单词被定义为一个单词字符的序列。注意,通常 `\b` 定义为 `\w` 和 `\W` 字符之间,或者 `\w` 和字符串开始/结尾的边界, 意思就是 `r'\bfoo\b'` 匹配 `'foo'`, `'foo.'`, `'(foo)'`, `'bar foo baz'` 但不匹配 `'foobar'` 或者 `'foo3'`。
默认情况下,Unicode字母和数字是在Unicode样式中使用的,但是可以用 [`ASCII`](#re.ASCII "re.ASCII") 标记来更改。如果 [`LOCALE`](#re.LOCALE "re.LOCALE") 标记被设置的话,词的边界是由当前语言区域设置决定的,`\b` 表示退格字符,以便与Python字符串文本兼容。
`\B`匹配空字符串,但 *不* 能在词的开头或者结尾。意思就是 `r'py\B'` 匹配 `'python'`, `'py3'`, `'py2'`, 但不匹配 `'py'`, `'py.'`, 或者 `'py!'`. `\B` 是 `\b` 的取非,所以Unicode样式的词语是由Unicode字母,数字或下划线构成的,虽然可以用 [`ASCII`](#re.ASCII "re.ASCII") 标志来改变。如果使用了 [`LOCALE`](#re.LOCALE "re.LOCALE") 标志,则词的边界由当前语言区域设置。
`\d`对于 Unicode (str) 样式:匹配任何Unicode十进制数(就是在Unicode字符目录\[Nd\]里的字符)。这包括了 `[0-9]` ,和很多其他的数字字符。如果设置了 [`ASCII`](#re.ASCII "re.ASCII") 标志,就只匹配 `[0-9]` 。
对于8位(bytes)样式:匹配任何十进制数,就是 `[0-9]`。
`\D`匹配任何非十进制数字的字符。就是 `\d` 取非。 如果设置了 [`ASCII`](#re.ASCII "re.ASCII") 标志,就相当于 `[^0-9]` 。
`\s`对于 Unicode (str) 样式:匹配任何Unicode空白字符(包括 `[ \t\n\r\f\v]` ,还有很多其他字符,比如不同语言排版规则约定的不换行空格)。如果 [`ASCII`](#re.ASCII "re.ASCII") 被设置,就只匹配 `[ \t\n\r\f\v]` 。
对于8位(bytes)样式:匹配ASCII中的空白字符,就是 `[ \t\n\r\f\v]` 。
`\S`匹配任何非空白字符。就是 `\s` 取非。如果设置了 [`ASCII`](#re.ASCII "re.ASCII") 标志,就相当于 `[^ \t\n\r\f\v]` 。
`\w`对于 Unicode (str) 样式:匹配Unicode词语的字符,包含了可以构成词语的绝大部分字符,也包括数字和下划线。如果设置了 [`ASCII`](#re.ASCII "re.ASCII") 标志,就只匹配 `[a-zA-Z0-9_]` 。
对于8位(bytes)样式:匹配ASCII字符中的数字和字母和下划线,就是 `[a-zA-Z0-9_]` 。如果设置了 [`LOCALE`](#re.LOCALE "re.LOCALE") 标记,就匹配当前语言区域的数字和字母和下划线。
`\W`匹配任何非词语字符。是 `\w` 取非。如果设置了 [`ASCII`](#re.ASCII "re.ASCII") 标记,就相当于 `[^a-zA-Z0-9_]` 。如果设置了 [`LOCALE`](#re.LOCALE "re.LOCALE") 标志,就匹配当前语言区域的 *非* 词语字符。
`\Z`只匹配字符串尾。
绝大部分Python的标准转义字符也被正则表达式分析器支持。:
```
\a \b \f \n
\r \t \u \U
\v \x \\
```
(注意 `\b` 被用于表示词语的边界,它只在字符集合内表示退格,比如 `[\b]` 。)
`'\u'` 和 `'\U'` 转义序列只在 Unicode 样式中支持。 在 bytes 算啊看会显示错误。 未知的 ASCII 字符转义序列保留在未来使用,会被当作错误来处理。
八进制转义包含为一个有限形式。如果首位数字是 0, 或者有三个八进制数位,那么就认为它是八进制转义。其他的情况,就看作是组引用。对于字符串文本,八进制转义最多有三个数位长。
在 3.3 版更改: 增加了 `'\u'` 和 `'\U'` 转义序列。
在 3.6 版更改: 由 `'\'` 和一个ASCII字符组成的未知转义会被看成错误。
## 模块内容
模块定义了几个函数,常量,和一个例外。有些函数是编译后的正则表达式方法的简化版本(少了一些特性)。绝大部分重要的应用,总是会先将正则表达式编译,之后在进行操作。
在 3.6 版更改: 标志常量现在是 `RegexFlag` 类的实例,这个类是 [`enum.IntFlag`](enum.xhtml#enum.IntFlag "enum.IntFlag") 的子类。
`re.``compile`(*pattern*, *flags=0*)将正则表达式的样式编译为一个 [正则表达式对象](#re-objects) (正则对象),可以用于匹配,通过这个对象的方法 [`match()`](#re.Pattern.match "re.Pattern.match"), [`search()`](#re.Pattern.search "re.Pattern.search") 以及其他如下描述。
这个表达式的行为可以通过指定 *标记* 的值来改变。值可以是以下任意变量,可以通过位的OR操作来结合( `|` 操作符)。
序列
```
prog = re.compile(pattern)
result = prog.match(string)
```
等价于
```
result = re.match(pattern, string)
```
如果需要多次使用这个正则表达式的话,使用 [`re.compile()`](#re.compile "re.compile") 和保存这个正则对象以便复用,可以让程序更加高效。
注解
通过 [`re.compile()`](#re.compile "re.compile") 编译后的样式,和模块级的函数会被缓存, 所以少数的正则表达式使用无需考虑编译的问题。
`re.``A``re.``ASCII`让 `\w`, `\W`, `\b`, `\B`, `\d`, `\D`, `\s` 和 `\S` 只匹配ASCII,而不是Unicode。这只对Unicode样式有效,会被byte样式忽略。相当于前面语法中的内联标志 `(?a)` 。
注意,为了保持向后兼容, `re.U` 标记依然存在(还有他的同义 `re.UNICODE` 和嵌入形式 `(?u)` ) , 但是这些在 Python 3 是冗余的,因为默认字符串已经是Unicode了(并且Unicode匹配不允许byte出现)。
`re.``DEBUG`显示编译时的debug信息,没有内联标记。
`re.``I``re.``IGNORECASE`进行忽略大小写匹配;表达式如 `[A-Z]` 也会匹配小写字符。Unicode匹配(比如 `Ü` 匹配 `ü`)同样有用,除非设置了 [`re.ASCII`](#re.ASCII "re.ASCII") 标记来禁用非ASCII匹配。当前语言区域不会改变这个标记,除非设置了 [`re.LOCALE`](#re.LOCALE "re.LOCALE") 标记。这个相当于内联标记 `(?i)` 。
注意,当设置了 [`IGNORECASE`](#re.IGNORECASE "re.IGNORECASE") 标记,搜索Unicode样式 `[a-z]` 或 `[A-Z]` 的结合时,它将会匹配52个ASCII字符和4个额外的非ASCII字符: 'İ' (U+0130, 拉丁大写的 I 带个点在上面), 'ı' (U+0131, 拉丁小写没有点的 I ), 'ſ' (U+017F, 拉丁小写长 s) and 'K' (U+212A, 开尔文符号).如果使用 [`ASCII`](#re.ASCII "re.ASCII") 标记,就只匹配 'a' 到 'z' 和 'A' 到 'Z' 。
`re.``L``re.``LOCALE`由当前语言区域决定 `\w`, `\W`, `\b`, `\B` 和大小写敏感匹配。这个标记只能对byte样式有效。这个标记不推荐使用,因为语言区域机制很不可靠,它一次只能处理一个 "习惯”,而且只对8位字节有效。Unicode匹配在Python 3 里默认启用,并可以处理不同语言。 这个对应内联标记 `(?L)` 。
在 3.6 版更改: [`re.LOCALE`](#re.LOCALE "re.LOCALE") 只能用于byte样式,而且不能和 [`re.ASCII`](#re.ASCII "re.ASCII") 一起用。
在 3.7 版更改: 设置了 [`re.LOCALE`](#re.LOCALE "re.LOCALE") 标记的编译正则对象不再在编译时依赖语言区域设置。语言区域设置只在匹配的时候影响其结果。
`re.``M``re.``MULTILINE`设置以后,样式字符 `'^'` 匹配字符串的开始,和每一行的开始(换行符后面紧跟的符号);样式字符 `'$'` 匹配字符串尾,和每一行的结尾(换行符前面那个符号)。默认情况下,`’^’` 匹配字符串头,`'$'` 匹配字符串尾。对应内联标记 `(?m)` 。
`re.``S``re.``DOTALL`让 `'.'` 特殊字符匹配任何字符,包括换行符;如果没有这个标记,`'.'` 就匹配 *除了* 换行符的其他任意字符。对应内联标记 `(?s)` 。
`re.``X``re.``VERBOSE`这个标记允许你编写更具可读性更友好的正则表达式。通过分段和添加注释。空白符号会被忽略,除非在一个字符集合当中或者由反斜杠转义,或者在 `*?`, `(?:` or `(?P<…>` 分组之内。当一个行内有 `#` 不在字符集和转义序列,那么它之后的所有字符都是注释。
意思就是下面两个正则表达式等价地匹配一个十进制数字:
```
a = re.compile(r"""\d + # the integral part
\. # the decimal point
\d * # some fractional digits""", re.X)
b = re.compile(r"\d+\.\d*")
```
对应内联标记 `(?x)` 。
`re.``search`(*pattern*, *string*, *flags=0*)扫描整个 *字符串* 找到匹配样式的第一个位置,并返回一个相应的 [匹配对象](#match-objects)。如果没有匹配,就返回一个 `None` ; 注意这和找到一个零长度匹配是不同的。
`re.``match`(*pattern*, *string*, *flags=0*)如果 *string* 开始的0或者多个字符匹配到了正则表达式样式,就返回一个相应的 [匹配对象](#match-objects) 。 如果没有匹配,就返回 `None` ;注意它跟零长度匹配是不同的。
注意即便是 [`MULTILINE`](#re.MULTILINE "re.MULTILINE") 多行模式, [`re.match()`](#re.match "re.match") 也只匹配字符串的开始位置,而不匹配每行开始。
如果你想定位 *string* 的任何位置,使用 [`search()`](#re.search "re.search") 来替代(也可参考 [search() vs. match()](#search-vs-match) )
`re.``fullmatch`(*pattern*, *string*, *flags=0*)如果整个 *string* 匹配到正则表达式样式,就返回一个相应的 [匹配对象](#match-objects) 。 否则就返回一个 `None` ;注意这跟零长度匹配是不同的。
3\.4 新版功能.
`re.``split`(*pattern*, *string*, *maxsplit=0*, *flags=0*)用 *pattern* 分开 *string* 。 如果在 *pattern* 中捕获到括号,那么所有的组里的文字也会包含在列表里。如果 *maxsplit* 非零, 最多进行 *maxsplit* 次分隔, 剩下的字符全部返回到列表的最后一个元素。
```
>>> re.split(r'\W+', 'Words, words, words.')
['Words', 'words', 'words', '']
>>> re.split(r'(\W+)', 'Words, words, words.')
['Words', ', ', 'words', ', ', 'words', '.', '']
>>> re.split(r'\W+', 'Words, words, words.', 1)
['Words', 'words, words.']
>>> re.split('[a-f]+', '0a3B9', flags=re.IGNORECASE)
['0', '3', '9']
```
如果分隔符里有捕获组合,并且匹配到字符串的开始,那么结果将会以一个空字符串开始。对于结尾也是一样
```
>>> re.split(r'(\W+)', '...words, words...')
['', '...', 'words', ', ', 'words', '...', '']
```
这样的话,分隔组将会出现在结果列表中同样的位置。
样式的空匹配将分开字符串,但只在不相临的状况生效。
```
>>> re.split(r'\b', 'Words, words, words.')
['', 'Words', ', ', 'words', ', ', 'words', '.']
>>> re.split(r'\W*', '...words...')
['', '', 'w', 'o', 'r', 'd', 's', '', '']
>>> re.split(r'(\W*)', '...words...')
['', '...', '', '', 'w', '', 'o', '', 'r', '', 'd', '', 's', '...', '', '', '']
```
在 3.1 版更改: 增加了可选标记参数。
在 3.7 版更改: 增加了空字符串的样式分隔。
`re.``findall`(*pattern*, *string*, *flags=0*)对 *string* 返回一个不重复的 *pattern* 的匹配列表, *string* 从左到右进行扫描,匹配按找到的顺序返回。如果样式里存在一到多个组,就返回一个组合列表;就是一个元组的列表(如果样式里有超过一个组合的话)。空匹配也会包含在结果里。
在 3.7 版更改: 非空匹配现在可以在前一个空匹配之后出现了。
`re.``finditer`(*pattern*, *string*, *flags=0*)*pattern* 在 *string* 里所有的非重复匹配,返回为一个迭代器 [iterator](../glossary.xhtml#term-iterator) 保存了 [匹配对象](#match-objects) 。 *string* 从左到右扫描,匹配按顺序排列。空匹配也包含在结果里。
在 3.7 版更改: 非空匹配现在可以在前一个空匹配之后出现了。
`re.``sub`(*pattern*, *repl*, *string*, *count=0*, *flags=0*)返回通过使用 *repl* 替换在 *string* 最左边非重叠出现的 *pattern* 而获得的字符串。 如果样式没有找到,则不加改变地返回 *string*。 *repl* 可以是字符串或函数;如为字符串,则其中任何反斜杠转义序列都会被处理。 也就是说,`\n` 会被转换为一个换行符,`\r` 会被转换为一个回车附,依此类推。 未知的 ASCII 字符转义序列保留在未来使用,会被当作错误来处理。 其他未知转义序列例如 `\&` 会保持原样。 向后引用像是 `\6` 会用样式中第 6 组所匹配到的子字符串来替换。 例如:
```
>>> re.sub(r'def\s+([a-zA-Z_][a-zA-Z_0-9]*)\s*\(\s*\):',
... r'static PyObject*\npy_\1(void)\n{',
... 'def myfunc():')
'static PyObject*\npy_myfunc(void)\n{'
```
如果 *repl* 是一个函数,那它会对每个非重复的 *pattern* 的情况调用。这个函数只能有一个 [匹配对象](#match-objects) 参数,并返回一个替换后的字符串。比如
```
>>> def dashrepl(matchobj):
... if matchobj.group(0) == '-': return ' '
... else: return '-'
>>> re.sub('-{1,2}', dashrepl, 'pro----gram-files')
'pro--gram files'
>>> re.sub(r'\sAND\s', ' & ', 'Baked Beans And Spam', flags=re.IGNORECASE)
'Baked Beans & Spam'
```
样式可以是一个字符串或者一个 [样式对象](#re-objects) 。
可选参数 *count* 是要替换的最大次数;*count* 必须是非负整数。如果忽略这个参数,或者设置为0,所有的匹配都会被替换。空匹配只在不相临连续的情况被更替,所以 `sub('x*', '-', 'abxd')` 返回 `'-a-b--d-'` 。
在字符串类型的 *repl* 参数里,如上所述的转义和向后引用中,`\g<name>` 会使用命名组合 `name`,(在 `(?P<name>…)` 语法中定义) `\g<number>` 会使用数字组;`\g<2>` 就是 `\2`,但它避免了二义性,如 `\g<2>0`。 `\20` 就会被解释为组20,而不是组2后面跟随一个字符 `'0'`。向后引用 `\g<0>` 把 *pattern* 作为一整个组进行引用。
在 3.1 版更改: 增加了可选标记参数。
在 3.5 版更改: 不匹配的组合替换为空字符串。
在 3.6 版更改: *pattern* 中的未知转义(由 `'\'` 和一个 ASCII 字符组成)被视为错误。
在 3.7 版更改: *repl* 中的未知转义(由 `'\'` 和一个 ASCII 字符组成)被视为错误。
在 3.7 版更改: 样式中的空匹配相邻接时会被替换。
`re.``subn`(*pattern*, *repl*, *string*, *count=0*, *flags=0*)行为与 [`sub()`](#re.sub "re.sub") 相同,但是返回一个元组 `(字符串, 替换次数)`.
在 3.1 版更改: 增加了可选标记参数。
在 3.5 版更改: 不匹配的组合替换为空字符串。
`re.``escape`(*pattern*)转义 *pattern* 中的特殊字符。如果你想对任意可能包含正则表达式元字符的文本字符串进行匹配,它就是有用的。比如
```
>>> print(re.escape('python.exe'))
python\.exe
>>> legal_chars = string.ascii_lowercase + string.digits + "!#$%&'*+-.^_`|~:"
>>> print('[%s]+' % re.escape(legal_chars))
[abcdefghijklmnopqrstuvwxyz0123456789!\#\$%\&'\*\+\-\.\^_`\|\~:]+
>>> operators = ['+', '-', '*', '/', '**']
>>> print('|'.join(map(re.escape, sorted(operators, reverse=True))))
/|\-|\+|\*\*|\*
```
这个函数不能用在 [`sub()`](#re.sub "re.sub") 和 [`subn()`](#re.subn "re.subn") 的替换字符串里,只有反斜杠应该被转义,比如说
```
>>> digits_re = r'\d+'
>>> sample = '/usr/sbin/sendmail - 0 errors, 12 warnings'
>>> print(re.sub(digits_re, digits_re.replace('\\', r'\\'), sample))
/usr/sbin/sendmail - \d+ errors, \d+ warnings
```
在 3.3 版更改: `'_'` 不再被转义。
在 3.7 版更改: 只有在正则表达式中可以产生特殊含义的字符会被转义。
`re.``purge`()清除正则表达式缓存。
*exception* `re.``error`(*msg*, *pattern=None*, *pos=None*)`raise` 一个例外。当传递到函数的字符串不是一个有效正则表达式的时候(比如,包含一个不匹配的括号)或者其他错误在编译时或匹配时产生。如果字符串不包含样式匹配,是不会被视为错误的。错误实例有以下附加属性:
`msg`未格式化的错误消息。
`pattern`正则表达式样式。
`pos`编译失败的 *pattern* 的位置索引(可以是 `None` )。
`lineno`对应 *pos* (可以是 `None`) 的行号。
`colno`对应 *pos* (可以是 `None`) 的列号。
在 3.5 版更改: 添加了附加属性。
## 正则表达式对象 (正则对象)
编译后的正则表达式对象支持一下方法和属性:
`Pattern.``search`(*string*\[, *pos*\[, *endpos*\]\])扫描整个 *string* 寻找第一个匹配的位置, 并返回一个相应的 [匹配对象](#match-objects)。如果没有匹配,就返回 `None` ;注意它和零长度匹配是不同的。
可选的第二个参数 *pos* 给出了字符串中开始搜索的位置索引;默认为 `0`,它不完全等价于字符串切片; `'^'` 样式字符匹配字符串真正的开头,和换行符后面的第一个字符,但不会匹配索引规定开始的位置。
可选参数 *endpos* 限定了字符串搜索的结束;它假定字符串长度到 *endpos* , 所以只有从 `pos` 到 `endpos - 1` 的字符会被匹配。如果 *endpos* 小于 *pos*,就不会有匹配产生;另外,如果 *rx* 是一个编译后的正则对象, `rx.search(string, 0, 50)` 等价于 `rx.search(string[:50], 0)`。
```
>>> pattern = re.compile("d")
>>> pattern.search("dog") # Match at index 0
<re.Match object; span=(0, 1), match='d'>
>>> pattern.search("dog", 1) # No match; search doesn't include the "d"
```
`Pattern.``match`(*string*\[, *pos*\[, *endpos*\]\])如果 *string* 的 *开始位置* 能够找到这个正则样式的任意个匹配,就返回一个相应的 [匹配对象](#match-objects)。如果不匹配,就返回 `None` ;注意它与零长度匹配是不同的。
可选参数 *pos* 和 *endpos* 与 [`search()`](#re.Pattern.search "re.Pattern.search") 含义相同。
```
>>> pattern = re.compile("o")
>>> pattern.match("dog") # No match as "o" is not at the start of "dog".
>>> pattern.match("dog", 1) # Match as "o" is the 2nd character of "dog".
<re.Match object; span=(1, 2), match='o'>
```
如果你想定位匹配在 *string* 中的位置,使用 [`search()`](#re.Pattern.search "re.Pattern.search") 来替代(另参考 [search() vs. match()](#search-vs-match))。
`Pattern.``fullmatch`(*string*\[, *pos*\[, *endpos*\]\])如果整个 *string* 匹配这个正则表达式,就返回一个相应的 [匹配对象](#match-objects) 。 否则就返回 `None` ; 注意跟零长度匹配是不同的。
可选参数 *pos* 和 *endpos* 与 [`search()`](#re.Pattern.search "re.Pattern.search") 含义相同。
```
>>> pattern = re.compile("o[gh]")
>>> pattern.fullmatch("dog") # No match as "o" is not at the start of "dog".
>>> pattern.fullmatch("ogre") # No match as not the full string matches.
>>> pattern.fullmatch("doggie", 1, 3) # Matches within given limits.
<re.Match object; span=(1, 3), match='og'>
```
3\.4 新版功能.
`Pattern.``split`(*string*, *maxsplit=0*)等价于 [`split()`](#re.split "re.split") 函数,使用了编译后的样式。
`Pattern.``findall`(*string*\[, *pos*\[, *endpos*\]\])类似函数 [`findall()`](#re.findall "re.findall") , 使用了编译后样式,但也可以接收可选参数 *pos* 和 *endpos* ,限制搜索范围,就像 [`search()`](#re.search "re.search")。
`Pattern.``finditer`(*string*\[, *pos*\[, *endpos*\]\])类似函数 `finiter()` , 使用了编译后样式,但也可以接收可选参数 *pos* 和 *endpos* ,限制搜索范围,就像 [`search()`](#re.search "re.search")。
`Pattern.``sub`(*repl*, *string*, *count=0*)等价于 [`sub()`](#re.sub "re.sub") 函数,使用了编译后的样式。
`Pattern.``subn`(*repl*, *string*, *count=0*)等价于 [`subn()`](#re.subn "re.subn") 函数,使用了编译后的样式。
`Pattern.``flags`正则匹配标记。这是可以传递给 [`compile()`](#re.compile "re.compile") 的参数,任何 `(?…)` 内联标记,隐性标记比如 `UNICODE` 的结合。
`Pattern.``groups`捕获组合的数量。
`Pattern.``groupindex`映射由 `(?P<id>)` 定义的命名符号组合和数字组合的字典。如果没有符号组,那字典就是空的。
`Pattern.``pattern`编译对象的原始样式字符串。
在 3.7 版更改: 添加 [`copy.copy()`](copy.xhtml#copy.copy "copy.copy") 和 [`copy.deepcopy()`](copy.xhtml#copy.deepcopy "copy.deepcopy") 函数的支持。编译后的正则表达式对象被认为是原子性的。
## 匹配对象
匹配对象总是有一个布尔值 `True`。如果没有匹配的话 [`match()`](#re.Pattern.match "re.Pattern.match") 和 [`search()`](#re.Pattern.search "re.Pattern.search") 返回 `None` 所以你可以简单的用 `if` 语句来判断是否匹配
```
match = re.search(pattern, string)
if match:
process(match)
```
匹配对象支持以下方法和属性:
`Match.``expand`(*template*)对 *template* 进行反斜杠转义替换并且返回,就像 [`sub()`](#re.Pattern.sub "re.Pattern.sub") 方法中一样。转义如同 `\n` 被转换成合适的字符,数字引用(`\1`, `\2`)和命名组合(`\g<1>`, `\g<name>`) 替换为相应组合的内容。
在 3.5 版更改: 不匹配的组合替换为空字符串。
`Match.``group`(\[*group1*, *...*\])返回一个或者多个匹配的子组。如果只有一个参数,结果就是一个字符串,如果有多个参数,结果就是一个元组(每个参数对应一个项),如果没有参数,组1默认到0(整个匹配都被返回)。 如果一个组N 参数值为 0,相应的返回值就是整个匹配字符串;如果它是一个范围 \[1..99\],结果就是相应的括号组字符串。如果一个组号是负数,或者大于样式中定义的组数,一个 [`IndexError`](exceptions.xhtml#IndexError "IndexError") 索引错误就 `raise`。如果一个组包含在样式的一部分,并被匹配多次,就返回最后一个匹配。:
```
>>> m = re.match(r"(\w+) (\w+)", "Isaac Newton, physicist")
>>> m.group(0) # The entire match
'Isaac Newton'
>>> m.group(1) # The first parenthesized subgroup.
'Isaac'
>>> m.group(2) # The second parenthesized subgroup.
'Newton'
>>> m.group(1, 2) # Multiple arguments give us a tuple.
('Isaac', 'Newton')
```
如果正则表达式使用了 `(?P<name>…)` 语法, *groupN* 参数就也可能是命名组合的名字。如果一个字符串参数在样式中未定义为组合名,一个 [`IndexError`](exceptions.xhtml#IndexError "IndexError") 就 `raise`。
一个相对复杂的例子
```
>>> m = re.match(r"(?P<first_name>\w+) (?P<last_name>\w+)", "Malcolm Reynolds")
>>> m.group('first_name')
'Malcolm'
>>> m.group('last_name')
'Reynolds'
```
命名组合同样可以通过索引值引用
```
>>> m.group(1)
'Malcolm'
>>> m.group(2)
'Reynolds'
```
如果一个组匹配成功多次,就只返回最后一个匹配
```
>>> m = re.match(r"(..)+", "a1b2c3") # Matches 3 times.
>>> m.group(1) # Returns only the last match.
'c3'
```
`Match.``__getitem__`(*g*)这个等价于 `m.group(g)`。这允许更方便的引用一个匹配
```
>>> m = re.match(r"(\w+) (\w+)", "Isaac Newton, physicist")
>>> m[0] # The entire match
'Isaac Newton'
>>> m[1] # The first parenthesized subgroup.
'Isaac'
>>> m[2] # The second parenthesized subgroup.
'Newton'
```
3\.6 新版功能.
`Match.``groups`(*default=None*)返回一个元组,包含所有匹配的子组,在样式中出现的从1到任意多的组合。 *default* 参数用于不参与匹配的情况,默认为 `None`。
例如
```
>>> m = re.match(r"(\d+)\.(\d+)", "24.1632")
>>> m.groups()
('24', '1632')
```
如果我们使小数点可选,那么不是所有的组都会参与到匹配当中。这些组合默认会返回一个 `None` ,除非指定了 *default* 参数。
```
>>> m = re.match(r"(\d+)\.?(\d+)?", "24")
>>> m.groups() # Second group defaults to None.
('24', None)
>>> m.groups('0') # Now, the second group defaults to '0'.
('24', '0')
```
`Match.``groupdict`(*default=None*)返回一个字典,包含了所有的 *命名* 子组。key就是组名。 *default* 参数用于不参与匹配的组合;默认为 `None`。 例如
```
>>> m = re.match(r"(?P<first_name>\w+) (?P<last_name>\w+)", "Malcolm Reynolds")
>>> m.groupdict()
{'first_name': 'Malcolm', 'last_name': 'Reynolds'}
```
`Match.``start`(\[*group*\])`Match.``end`(\[*group*\])返回 *group* 匹配到的字串的开始和结束标号。*group* 默认为0(意思是整个匹配的子串)。如果 *group* 存在,但未产生匹配,就返回 `-1` 。对于一个匹配对象 *m*, 和一个未参与匹配的组 *g* ,组 *g* (等价于 `m.group(g)`)产生的匹配是
```
m.string[m.start(g):m.end(g)]
```
注意 `m.start(group)` 将会等于 `m.end(group)` ,如果 *group* 匹配一个空字符串的话。比如,在 `m = re.search('b(c?)', 'cba')` 之后,`m.start(0)` 为 1, `m.end(0)` 为 2, `m.start(1)` 和 `m.end(1)` 都是 2, `m.start(2)` raise 一个 [`IndexError`](exceptions.xhtml#IndexError "IndexError") 例外。
这个例子会从email地址中移除掉 *remove\_this*
```
>>> email = "tony@tiremove_thisger.net"
>>> m = re.search("remove_this", email)
>>> email[:m.start()] + email[m.end():]
'tony@tiger.net'
```
`Match.``span`(\[*group*\])对于一个匹配 *m* , 返回一个二元组 `(m.start(group), m.end(group))` 。 注意如果 *group* 没有在这个匹配中,就返回 `(-1, -1)` 。*group* 默认为0,就是整个匹配。
`Match.``pos`*pos* 的值,会传递给 [`search()`](#re.Pattern.search "re.Pattern.search") 或 [`match()`](#re.Pattern.match "re.Pattern.match") 的方法 a [正则对象](#re-objects) 。这个是正则引擎开始在字符串搜索一个匹配的索引位置。
`Match.``endpos`*endpos* 的值,会传递给 [`search()`](#re.Pattern.search "re.Pattern.search") 或 [`match()`](#re.Pattern.match "re.Pattern.match") 的方法 a [正则对象](#re-objects) 。这个是正则引擎停止在字符串搜索一个匹配的索引位置。
`Match.``lastindex`捕获组的最后一个匹配的整数索引值,或者 `None` 如果没有匹配产生的话。比如,对于字符串 `'ab'`,表达式 `(a)b`, `((a)(b))`, 和 `((ab))` 将得到 `lastindex == 1` , 而 `(a)(b)` 会得到 `lastindex == 2` 。
`Match.``lastgroup`最后一个匹配的命名组名字,或者 `None` 如果没有产生匹配的话。
`Match.``re`返回产生这个实例的 [正则对象](#re-objects) , 这个实例是由 正则对象的 [`match()`](#re.Pattern.match "re.Pattern.match") 或 [`search()`](#re.Pattern.search "re.Pattern.search") 方法产生的。
`Match.``string`传递到 [`match()`](#re.Pattern.match "re.Pattern.match") 或 [`search()`](#re.Pattern.search "re.Pattern.search") 的字符串。
在 3.7 版更改: 添加了对 [`copy.copy()`](copy.xhtml#copy.copy "copy.copy") 和 [`copy.deepcopy()`](copy.xhtml#copy.deepcopy "copy.deepcopy") 的支持。匹配对象被看作是原子性的。
## 正则表达式例子
### 检查对子
在这个例子里,我们使用以下辅助函数来更好的显示匹配对象:
```
def displaymatch(match):
if match is None:
return None
return '<Match: %r, groups=%r>' % (match.group(), match.groups())
```
假设你在写一个扑克程序,一个玩家的一手牌为五个字符的串,每个字符表示一张牌,"a" 就是 A, "k" K, "q" Q, "j" J, "t" 为 10, "2" 到 "9" 表示2 到 9。
要看给定的字符串是否有效,我们可以按照以下步骤
```
>>> valid = re.compile(r"^[a2-9tjqk]{5}$")
>>> displaymatch(valid.match("akt5q")) # Valid.
"<Match: 'akt5q', groups=()>"
>>> displaymatch(valid.match("akt5e")) # Invalid.
>>> displaymatch(valid.match("akt")) # Invalid.
>>> displaymatch(valid.match("727ak")) # Valid.
"<Match: '727ak', groups=()>"
```
最后一手牌,`"727ak"` ,包含了一个对子,或者两张同样数值的牌。要用正则表达式匹配它,应该使用向后引用如下
```
>>> pair = re.compile(r".*(.).*\1")
>>> displaymatch(pair.match("717ak")) # Pair of 7s.
"<Match: '717', groups=('7',)>"
>>> displaymatch(pair.match("718ak")) # No pairs.
>>> displaymatch(pair.match("354aa")) # Pair of aces.
"<Match: '354aa', groups=('a',)>"
```
要找到对子包含的是哪一张牌,应该按照下面的方式使用 [`group()`](#re.Match.group "re.Match.group") 方法:
```
>>> pair.match("717ak").group(1)
'7'
# Error because re.match() returns None, which doesn't have a group() method:
>>> pair.match("718ak").group(1)
Traceback (most recent call last):
File "<pyshell#23>", line 1, in <module>
re.match(r".*(.).*\1", "718ak").group(1)
AttributeError: 'NoneType' object has no attribute 'group'
>>> pair.match("354aa").group(1)
'a'
```
### 模拟 scanf()
Python 目前没有一个类似c函数 `scanf()` 的替代品。正则表达式通常比 `scanf()` 格式字符串要更强大一些,但也带来更多复杂性。下面的表格提供了 `scanf()` 格式符和正则表达式大致相同的映射。
`scanf()` 格式符
正则表达式
`%c`
`.`
`%5c`
`.{5}`
`%d`
`[-+]?\d+`
`%e`, `%E`, `%f`, `%g`
`[-+]?(\d+(\.\d*)?|\.\d+)([eE][-+]?\d+)?`
`%i`
`[-+]?(0[xX][\dA-Fa-f]+|0[0-7]*|\d+)`
`%o`
`[-+]?[0-7]+`
`%s`
`\S+`
`%u`
`\d+`
`%x`, `%X`
`[-+]?(0[xX])?[\dA-Fa-f]+`
从文件名和数字提取字符串
```
/usr/sbin/sendmail - 0 errors, 4 warnings
```
你可以使用 `scanf()` 格式化
```
%s - %d errors, %d warnings
```
等价的正则表达式是:
```
(\S+) - (\d+) errors, (\d+) warnings
```
### search() vs. match()
Python 提供了两种不同的操作:基于 [`re.match()`](#re.match "re.match") 检查字符串开头,或者 [`re.search()`](#re.search "re.search") 检查字符串的任意位置(默认Perl中的行为)。
例如
```
>>> re.match("c", "abcdef") # No match
>>> re.search("c", "abcdef") # Match
<re.Match object; span=(2, 3), match='c'>
```
在 [`search()`](#re.search "re.search") 中,可以用 `'^'` 作为开始来限制匹配到字符串的首位
```
>>> re.match("c", "abcdef") # No match
>>> re.search("^c", "abcdef") # No match
>>> re.search("^a", "abcdef") # Match
<re.Match object; span=(0, 1), match='a'>
```
注意 [`MULTILINE`](#re.MULTILINE "re.MULTILINE") 多行模式中函数 [`match()`](#re.match "re.match") 只匹配字符串的开始,但使用 [`search()`](#re.search "re.search") 和以 `'^'` 开始的正则表达式会匹配每行的开始
```
>>> re.match('X', 'A\nB\nX', re.MULTILINE) # No match
>>> re.search('^X', 'A\nB\nX', re.MULTILINE) # Match
<re.Match object; span=(4, 5), match='X'>
```
### 建立一个电话本
[`split()`](#re.split "re.split") 将字符串用参数传递的样式分隔开。这个方法对于转换文本数据到易读而且容易修改的数据结构,是很有用的,如下面的例子证明。
首先,这里是输入。通常是一个文件,这里我们用三引号字符串语法
```
>>> text = """Ross McFluff: 834.345.1254 155 Elm Street
...
... Ronald Heathmore: 892.345.3428 436 Finley Avenue
... Frank Burger: 925.541.7625 662 South Dogwood Way
...
...
... Heather Albrecht: 548.326.4584 919 Park Place"""
```
条目用一个或者多个换行符分开。现在我们将字符串转换为一个列表,每个非空行都有一个条目:
```
>>> entries = re.split("\n+", text)
>>> entries
['Ross McFluff: 834.345.1254 155 Elm Street',
'Ronald Heathmore: 892.345.3428 436 Finley Avenue',
'Frank Burger: 925.541.7625 662 South Dogwood Way',
'Heather Albrecht: 548.326.4584 919 Park Place']
```
最终,将每个条目分割为一个由名字、姓氏、电话号码和地址组成的列表。我们为 [`split()`](#re.split "re.split") 使用了 `maxsplit` 形参,因为地址中包含有被我们作为分割模式的空格符:
```
>>> [re.split(":? ", entry, 3) for entry in entries]
[['Ross', 'McFluff', '834.345.1254', '155 Elm Street'],
['Ronald', 'Heathmore', '892.345.3428', '436 Finley Avenue'],
['Frank', 'Burger', '925.541.7625', '662 South Dogwood Way'],
['Heather', 'Albrecht', '548.326.4584', '919 Park Place']]
```
`:?` 样式匹配姓后面的冒号,因此它不出现在结果列表中。如果 `maxsplit` 设置为 `4` ,我们还可以从地址中获取到房间号:
```
>>> [re.split(":? ", entry, 4) for entry in entries]
[['Ross', 'McFluff', '834.345.1254', '155', 'Elm Street'],
['Ronald', 'Heathmore', '892.345.3428', '436', 'Finley Avenue'],
['Frank', 'Burger', '925.541.7625', '662', 'South Dogwood Way'],
['Heather', 'Albrecht', '548.326.4584', '919', 'Park Place']]
```
### 文字整理
[`sub()`](#re.sub "re.sub") 替换字符串中出现的样式的每一个实例。这个例子证明了使用 [`sub()`](#re.sub "re.sub") 来整理文字,或者随机化每个字符的位置,除了首位和末尾字符
```
>>> def repl(m):
... inner_word = list(m.group(2))
... random.shuffle(inner_word)
... return m.group(1) + "".join(inner_word) + m.group(3)
>>> text = "Professor Abdolmalek, please report your absences promptly."
>>> re.sub(r"(\w)(\w+)(\w)", repl, text)
'Poefsrosr Aealmlobdk, pslaee reorpt your abnseces plmrptoy.'
>>> re.sub(r"(\w)(\w+)(\w)", repl, text)
'Pofsroser Aodlambelk, plasee reoprt yuor asnebces potlmrpy.'
```
### 找到所有副词
[`findall()`](#re.findall "re.findall") 匹配样式 *所有* 的出现,不仅是像 [`search()`](#re.search "re.search") 中的第一个匹配。比如,如果一个作者希望找到文字中的所有副词,他可能会按照以下方法用 [`findall()`](#re.findall "re.findall")
```
>>> text = "He was carefully disguised but captured quickly by police."
>>> re.findall(r"\w+ly", text)
['carefully', 'quickly']
```
### 找到所有副词和位置
如果需要匹配样式的更多信息, [`finditer()`](#re.finditer "re.finditer") 可以起到作用,它提供了 [匹配对象](#match-objects) 作为返回值,而不是字符串。继续上面的例子,如果一个作者希望找到所有副词和它的位置,可以按照下面方法使用 [`finditer()`](#re.finditer "re.finditer")
```
>>> text = "He was carefully disguised but captured quickly by police."
>>> for m in re.finditer(r"\w+ly", text):
... print('%02d-%02d: %s' % (m.start(), m.end(), m.group(0)))
07-16: carefully
40-47: quickly
```
### 原始字符记法
原始字符串记法 (`r"text"`) 保持正则表达式正常。否则,每个正则式里的反斜杠(`'\'`) 都必须前缀一个反斜杠来转义。比如,下面两行代码功能就是完全一致的
```
>>> re.match(r"\W(.)\1\W", " ff ")
<re.Match object; span=(0, 4), match=' ff '>
>>> re.match("\\W(.)\\1\\W", " ff ")
<re.Match object; span=(0, 4), match=' ff '>
```
当需要匹配一个字符反斜杠,它必须在正则表达式中转义。在原始字符串记法,就是 `r"\\"`。否则就必须用 `"\\\\"`,来表示同样的意思
```
>>> re.match(r"\\", r"\\")
<re.Match object; span=(0, 1), match='\\'>
>>> re.match("\\\\", r"\\")
<re.Match object; span=(0, 1), match='\\'>
```
### 写一个词法分析器
一个 [词法器或词法分析器](https://en.wikipedia.org/wiki/Lexical_analysis) \[https://en.wikipedia.org/wiki/Lexical\_analysis\] 分析字符串,并分类成目录组。 这是写一个编译器或解释器的第一步。
文字目录是由正则表达式指定的。这个技术是通过将这些样式合并为一个主正则式,并且循环匹配来实现的
```
import collections
import re
Token = collections.namedtuple('Token', ['type', 'value', 'line', 'column'])
def tokenize(code):
keywords = {'IF', 'THEN', 'ENDIF', 'FOR', 'NEXT', 'GOSUB', 'RETURN'}
token_specification = [
('NUMBER', r'\d+(\.\d*)?'), # Integer or decimal number
('ASSIGN', r':='), # Assignment operator
('END', r';'), # Statement terminator
('ID', r'[A-Za-z]+'), # Identifiers
('OP', r'[+\-*/]'), # Arithmetic operators
('NEWLINE', r'\n'), # Line endings
('SKIP', r'[ \t]+'), # Skip over spaces and tabs
('MISMATCH', r'.'), # Any other character
]
tok_regex = '|'.join('(?P<%s>%s)' % pair for pair in token_specification)
line_num = 1
line_start = 0
for mo in re.finditer(tok_regex, code):
kind = mo.lastgroup
value = mo.group()
column = mo.start() - line_start
if kind == 'NUMBER':
value = float(value) if '.' in value else int(value)
elif kind == 'ID' and value in keywords:
kind = value
elif kind == 'NEWLINE':
line_start = mo.end()
line_num += 1
continue
elif kind == 'SKIP':
continue
elif kind == 'MISMATCH':
raise RuntimeError(f'{value!r} unexpected on line {line_num}')
yield Token(kind, value, line_num, column)
statements = '''
IF quantity THEN
total := total + price * quantity;
tax := price * 0.05;
ENDIF;
'''
for token in tokenize(statements):
print(token)
```
这个词法器产生以下输出
```
Token(type='IF', value='IF', line=2, column=4)
Token(type='ID', value='quantity', line=2, column=7)
Token(type='THEN', value='THEN', line=2, column=16)
Token(type='ID', value='total', line=3, column=8)
Token(type='ASSIGN', value=':=', line=3, column=14)
Token(type='ID', value='total', line=3, column=17)
Token(type='OP', value='+', line=3, column=23)
Token(type='ID', value='price', line=3, column=25)
Token(type='OP', value='*', line=3, column=31)
Token(type='ID', value='quantity', line=3, column=33)
Token(type='END', value=';', line=3, column=41)
Token(type='ID', value='tax', line=4, column=8)
Token(type='ASSIGN', value=':=', line=4, column=12)
Token(type='ID', value='price', line=4, column=15)
Token(type='OP', value='*', line=4, column=21)
Token(type='NUMBER', value=0.05, line=4, column=23)
Token(type='END', value=';', line=4, column=27)
Token(type='ENDIF', value='ENDIF', line=5, column=4)
Token(type='END', value=';', line=5, column=9)
```
[Frie09](#id1)Friedl, Jeffrey. Mastering Regular Expressions. 第三版, O’Reilly Media, 2009. 第三版不再使用Python, 但第一版提供了编写正则表达式的良好细节。
### 导航
- [索引](../genindex.xhtml "总目录")
- [模块](../py-modindex.xhtml "Python 模块索引") |
- [下一页](difflib.xhtml "模块 difflib 是一个计算差异的助手") |
- [上一页](string.xhtml "string --- 常见的字符串操作") |
- ![](https://box.kancloud.cn/a721fc7ec672275e257bbbfde49a4d4e_16x16.png)
- [Python](https://www.python.org/) »
- zh\_CN 3.7.3 [文档](../index.xhtml) »
- [Python 标准库](index.xhtml) »
- [文本处理服务](text.xhtml) »
- $('.inline-search').show(0); |
© [版权所有](../copyright.xhtml) 2001-2019, Python Software Foundation.
Python 软件基金会是一个非盈利组织。 [请捐助。](https://www.python.org/psf/donations/)
最后更新于 5月 21, 2019. [发现了问题](../bugs.xhtml)?
使用[Sphinx](http://sphinx.pocoo.org/)1.8.4 创建。
- Python文档内容
- Python 有什么新变化?
- Python 3.7 有什么新变化
- 摘要 - 发布重点
- 新的特性
- 其他语言特性修改
- 新增模块
- 改进的模块
- C API 的改变
- 构建的改变
- 性能优化
- 其他 CPython 实现的改变
- 已弃用的 Python 行为
- 已弃用的 Python 模块、函数和方法
- 已弃用的 C API 函数和类型
- 平台支持的移除
- API 与特性的移除
- 移除的模块
- Windows 专属的改变
- 移植到 Python 3.7
- Python 3.7.1 中的重要变化
- Python 3.7.2 中的重要变化
- Python 3.6 有什么新变化A
- 摘要 - 发布重点
- 新的特性
- 其他语言特性修改
- 新增模块
- 改进的模块
- 性能优化
- Build and C API Changes
- 其他改进
- 弃用
- 移除
- 移植到Python 3.6
- Python 3.6.2 中的重要变化
- Python 3.6.4 中的重要变化
- Python 3.6.5 中的重要变化
- Python 3.6.7 中的重要变化
- Python 3.5 有什么新变化
- 摘要 - 发布重点
- 新的特性
- 其他语言特性修改
- 新增模块
- 改进的模块
- Other module-level changes
- 性能优化
- Build and C API Changes
- 弃用
- 移除
- Porting to Python 3.5
- Notable changes in Python 3.5.4
- What's New In Python 3.4
- 摘要 - 发布重点
- 新的特性
- 新增模块
- 改进的模块
- CPython Implementation Changes
- 弃用
- 移除
- Porting to Python 3.4
- Changed in 3.4.3
- What's New In Python 3.3
- 摘要 - 发布重点
- PEP 405: Virtual Environments
- PEP 420: Implicit Namespace Packages
- PEP 3118: New memoryview implementation and buffer protocol documentation
- PEP 393: Flexible String Representation
- PEP 397: Python Launcher for Windows
- PEP 3151: Reworking the OS and IO exception hierarchy
- PEP 380: Syntax for Delegating to a Subgenerator
- PEP 409: Suppressing exception context
- PEP 414: Explicit Unicode literals
- PEP 3155: Qualified name for classes and functions
- PEP 412: Key-Sharing Dictionary
- PEP 362: Function Signature Object
- PEP 421: Adding sys.implementation
- Using importlib as the Implementation of Import
- 其他语言特性修改
- A Finer-Grained Import Lock
- Builtin functions and types
- 新增模块
- 改进的模块
- 性能优化
- Build and C API Changes
- 弃用
- Porting to Python 3.3
- What's New In Python 3.2
- PEP 384: Defining a Stable ABI
- PEP 389: Argparse Command Line Parsing Module
- PEP 391: Dictionary Based Configuration for Logging
- PEP 3148: The concurrent.futures module
- PEP 3147: PYC Repository Directories
- PEP 3149: ABI Version Tagged .so Files
- PEP 3333: Python Web Server Gateway Interface v1.0.1
- 其他语言特性修改
- New, Improved, and Deprecated Modules
- 多线程
- 性能优化
- Unicode
- Codecs
- 文档
- IDLE
- Code Repository
- Build and C API Changes
- Porting to Python 3.2
- What's New In Python 3.1
- PEP 372: Ordered Dictionaries
- PEP 378: Format Specifier for Thousands Separator
- 其他语言特性修改
- New, Improved, and Deprecated Modules
- 性能优化
- IDLE
- Build and C API Changes
- Porting to Python 3.1
- What's New In Python 3.0
- Common Stumbling Blocks
- Overview Of Syntax Changes
- Changes Already Present In Python 2.6
- Library Changes
- PEP 3101: A New Approach To String Formatting
- Changes To Exceptions
- Miscellaneous Other Changes
- Build and C API Changes
- 性能
- Porting To Python 3.0
- What's New in Python 2.7
- The Future for Python 2.x
- Changes to the Handling of Deprecation Warnings
- Python 3.1 Features
- PEP 372: Adding an Ordered Dictionary to collections
- PEP 378: Format Specifier for Thousands Separator
- PEP 389: The argparse Module for Parsing Command Lines
- PEP 391: Dictionary-Based Configuration For Logging
- PEP 3106: Dictionary Views
- PEP 3137: The memoryview Object
- 其他语言特性修改
- New and Improved Modules
- Build and C API Changes
- Other Changes and Fixes
- Porting to Python 2.7
- New Features Added to Python 2.7 Maintenance Releases
- Acknowledgements
- Python 2.6 有什么新变化
- Python 3.0
- Changes to the Development Process
- PEP 343: The 'with' statement
- PEP 366: Explicit Relative Imports From a Main Module
- PEP 370: Per-user site-packages Directory
- PEP 371: The multiprocessing Package
- PEP 3101: Advanced String Formatting
- PEP 3105: print As a Function
- PEP 3110: Exception-Handling Changes
- PEP 3112: Byte Literals
- PEP 3116: New I/O Library
- PEP 3118: Revised Buffer Protocol
- PEP 3119: Abstract Base Classes
- PEP 3127: Integer Literal Support and Syntax
- PEP 3129: Class Decorators
- PEP 3141: A Type Hierarchy for Numbers
- 其他语言特性修改
- New and Improved Modules
- Deprecations and Removals
- Build and C API Changes
- Porting to Python 2.6
- Acknowledgements
- What's New in Python 2.5
- PEP 308: Conditional Expressions
- PEP 309: Partial Function Application
- PEP 314: Metadata for Python Software Packages v1.1
- PEP 328: Absolute and Relative Imports
- PEP 338: Executing Modules as Scripts
- PEP 341: Unified try/except/finally
- PEP 342: New Generator Features
- PEP 343: The 'with' statement
- PEP 352: Exceptions as New-Style Classes
- PEP 353: Using ssize_t as the index type
- PEP 357: The 'index' method
- 其他语言特性修改
- New, Improved, and Removed Modules
- Build and C API Changes
- Porting to Python 2.5
- Acknowledgements
- What's New in Python 2.4
- PEP 218: Built-In Set Objects
- PEP 237: Unifying Long Integers and Integers
- PEP 289: Generator Expressions
- PEP 292: Simpler String Substitutions
- PEP 318: Decorators for Functions and Methods
- PEP 322: Reverse Iteration
- PEP 324: New subprocess Module
- PEP 327: Decimal Data Type
- PEP 328: Multi-line Imports
- PEP 331: Locale-Independent Float/String Conversions
- 其他语言特性修改
- New, Improved, and Deprecated Modules
- Build and C API Changes
- Porting to Python 2.4
- Acknowledgements
- What's New in Python 2.3
- PEP 218: A Standard Set Datatype
- PEP 255: Simple Generators
- PEP 263: Source Code Encodings
- PEP 273: Importing Modules from ZIP Archives
- PEP 277: Unicode file name support for Windows NT
- PEP 278: Universal Newline Support
- PEP 279: enumerate()
- PEP 282: The logging Package
- PEP 285: A Boolean Type
- PEP 293: Codec Error Handling Callbacks
- PEP 301: Package Index and Metadata for Distutils
- PEP 302: New Import Hooks
- PEP 305: Comma-separated Files
- PEP 307: Pickle Enhancements
- Extended Slices
- 其他语言特性修改
- New, Improved, and Deprecated Modules
- Pymalloc: A Specialized Object Allocator
- Build and C API Changes
- Other Changes and Fixes
- Porting to Python 2.3
- Acknowledgements
- What's New in Python 2.2
- 概述
- PEPs 252 and 253: Type and Class Changes
- PEP 234: Iterators
- PEP 255: Simple Generators
- PEP 237: Unifying Long Integers and Integers
- PEP 238: Changing the Division Operator
- Unicode Changes
- PEP 227: Nested Scopes
- New and Improved Modules
- Interpreter Changes and Fixes
- Other Changes and Fixes
- Acknowledgements
- What's New in Python 2.1
- 概述
- PEP 227: Nested Scopes
- PEP 236: future Directives
- PEP 207: Rich Comparisons
- PEP 230: Warning Framework
- PEP 229: New Build System
- PEP 205: Weak References
- PEP 232: Function Attributes
- PEP 235: Importing Modules on Case-Insensitive Platforms
- PEP 217: Interactive Display Hook
- PEP 208: New Coercion Model
- PEP 241: Metadata in Python Packages
- New and Improved Modules
- Other Changes and Fixes
- Acknowledgements
- What's New in Python 2.0
- 概述
- What About Python 1.6?
- New Development Process
- Unicode
- 列表推导式
- Augmented Assignment
- 字符串的方法
- Garbage Collection of Cycles
- Other Core Changes
- Porting to 2.0
- Extending/Embedding Changes
- Distutils: Making Modules Easy to Install
- XML Modules
- Module changes
- New modules
- IDLE Improvements
- Deleted and Deprecated Modules
- Acknowledgements
- 更新日志
- Python 下一版
- Python 3.7.3 最终版
- Python 3.7.3 发布候选版 1
- Python 3.7.2 最终版
- Python 3.7.2 发布候选版 1
- Python 3.7.1 最终版
- Python 3.7.1 RC 2版本
- Python 3.7.1 发布候选版 1
- Python 3.7.0 正式版
- Python 3.7.0 release candidate 1
- Python 3.7.0 beta 5
- Python 3.7.0 beta 4
- Python 3.7.0 beta 3
- Python 3.7.0 beta 2
- Python 3.7.0 beta 1
- Python 3.7.0 alpha 4
- Python 3.7.0 alpha 3
- Python 3.7.0 alpha 2
- Python 3.7.0 alpha 1
- Python 3.6.6 final
- Python 3.6.6 RC 1
- Python 3.6.5 final
- Python 3.6.5 release candidate 1
- Python 3.6.4 final
- Python 3.6.4 release candidate 1
- Python 3.6.3 final
- Python 3.6.3 release candidate 1
- Python 3.6.2 final
- Python 3.6.2 release candidate 2
- Python 3.6.2 release candidate 1
- Python 3.6.1 final
- Python 3.6.1 release candidate 1
- Python 3.6.0 final
- Python 3.6.0 release candidate 2
- Python 3.6.0 release candidate 1
- Python 3.6.0 beta 4
- Python 3.6.0 beta 3
- Python 3.6.0 beta 2
- Python 3.6.0 beta 1
- Python 3.6.0 alpha 4
- Python 3.6.0 alpha 3
- Python 3.6.0 alpha 2
- Python 3.6.0 alpha 1
- Python 3.5.5 final
- Python 3.5.5 release candidate 1
- Python 3.5.4 final
- Python 3.5.4 release candidate 1
- Python 3.5.3 final
- Python 3.5.3 release candidate 1
- Python 3.5.2 final
- Python 3.5.2 release candidate 1
- Python 3.5.1 final
- Python 3.5.1 release candidate 1
- Python 3.5.0 final
- Python 3.5.0 release candidate 4
- Python 3.5.0 release candidate 3
- Python 3.5.0 release candidate 2
- Python 3.5.0 release candidate 1
- Python 3.5.0 beta 4
- Python 3.5.0 beta 3
- Python 3.5.0 beta 2
- Python 3.5.0 beta 1
- Python 3.5.0 alpha 4
- Python 3.5.0 alpha 3
- Python 3.5.0 alpha 2
- Python 3.5.0 alpha 1
- Python 教程
- 课前甜点
- 使用 Python 解释器
- 调用解释器
- 解释器的运行环境
- Python 的非正式介绍
- Python 作为计算器使用
- 走向编程的第一步
- 其他流程控制工具
- if 语句
- for 语句
- range() 函数
- break 和 continue 语句,以及循环中的 else 子句
- pass 语句
- 定义函数
- 函数定义的更多形式
- 小插曲:编码风格
- 数据结构
- 列表的更多特性
- del 语句
- 元组和序列
- 集合
- 字典
- 循环的技巧
- 深入条件控制
- 序列和其它类型的比较
- 模块
- 有关模块的更多信息
- 标准模块
- dir() 函数
- 包
- 输入输出
- 更漂亮的输出格式
- 读写文件
- 错误和异常
- 语法错误
- 异常
- 处理异常
- 抛出异常
- 用户自定义异常
- 定义清理操作
- 预定义的清理操作
- 类
- 名称和对象
- Python 作用域和命名空间
- 初探类
- 补充说明
- 继承
- 私有变量
- 杂项说明
- 迭代器
- 生成器
- 生成器表达式
- 标准库简介
- 操作系统接口
- 文件通配符
- 命令行参数
- 错误输出重定向和程序终止
- 字符串模式匹配
- 数学
- 互联网访问
- 日期和时间
- 数据压缩
- 性能测量
- 质量控制
- 自带电池
- 标准库简介 —— 第二部分
- 格式化输出
- 模板
- 使用二进制数据记录格式
- 多线程
- 日志
- 弱引用
- 用于操作列表的工具
- 十进制浮点运算
- 虚拟环境和包
- 概述
- 创建虚拟环境
- 使用pip管理包
- 接下来?
- 交互式编辑和编辑历史
- Tab 补全和编辑历史
- 默认交互式解释器的替代品
- 浮点算术:争议和限制
- 表示性错误
- 附录
- 交互模式
- 安装和使用 Python
- 命令行与环境
- 命令行
- 环境变量
- 在Unix平台中使用Python
- 获取最新版本的Python
- 构建Python
- 与Python相关的路径和文件
- 杂项
- 编辑器和集成开发环境
- 在Windows上使用 Python
- 完整安装程序
- Microsoft Store包
- nuget.org 安装包
- 可嵌入的包
- 替代捆绑包
- 配置Python
- 适用于Windows的Python启动器
- 查找模块
- 附加模块
- 在Windows上编译Python
- 其他平台
- 在苹果系统上使用 Python
- 获取和安装 MacPython
- IDE
- 安装额外的 Python 包
- Mac 上的图形界面编程
- 在 Mac 上分发 Python 应用程序
- 其他资源
- Python 语言参考
- 概述
- 其他实现
- 标注
- 词法分析
- 行结构
- 其他形符
- 标识符和关键字
- 字面值
- 运算符
- 分隔符
- 数据模型
- 对象、值与类型
- 标准类型层级结构
- 特殊方法名称
- 协程
- 执行模型
- 程序的结构
- 命名与绑定
- 异常
- 导入系统
- importlib
- 包
- 搜索
- 加载
- 基于路径的查找器
- 替换标准导入系统
- Package Relative Imports
- 有关 main 的特殊事项
- 开放问题项
- 参考文献
- 表达式
- 算术转换
- 原子
- 原型
- await 表达式
- 幂运算符
- 一元算术和位运算
- 二元算术运算符
- 移位运算
- 二元位运算
- 比较运算
- 布尔运算
- 条件表达式
- lambda 表达式
- 表达式列表
- 求值顺序
- 运算符优先级
- 简单语句
- 表达式语句
- 赋值语句
- assert 语句
- pass 语句
- del 语句
- return 语句
- yield 语句
- raise 语句
- break 语句
- continue 语句
- import 语句
- global 语句
- nonlocal 语句
- 复合语句
- if 语句
- while 语句
- for 语句
- try 语句
- with 语句
- 函数定义
- 类定义
- 协程
- 最高层级组件
- 完整的 Python 程序
- 文件输入
- 交互式输入
- 表达式输入
- 完整的语法规范
- Python 标准库
- 概述
- 可用性注释
- 内置函数
- 内置常量
- 由 site 模块添加的常量
- 内置类型
- 逻辑值检测
- 布尔运算 — and, or, not
- 比较
- 数字类型 — int, float, complex
- 迭代器类型
- 序列类型 — list, tuple, range
- 文本序列类型 — str
- 二进制序列类型 — bytes, bytearray, memoryview
- 集合类型 — set, frozenset
- 映射类型 — dict
- 上下文管理器类型
- 其他内置类型
- 特殊属性
- 内置异常
- 基类
- 具体异常
- 警告
- 异常层次结构
- 文本处理服务
- string — 常见的字符串操作
- re — 正则表达式操作
- 模块 difflib 是一个计算差异的助手
- textwrap — Text wrapping and filling
- unicodedata — Unicode 数据库
- stringprep — Internet String Preparation
- readline — GNU readline interface
- rlcompleter — GNU readline的完成函数
- 二进制数据服务
- struct — Interpret bytes as packed binary data
- codecs — Codec registry and base classes
- 数据类型
- datetime — 基础日期/时间数据类型
- calendar — General calendar-related functions
- collections — 容器数据类型
- collections.abc — 容器的抽象基类
- heapq — 堆队列算法
- bisect — Array bisection algorithm
- array — Efficient arrays of numeric values
- weakref — 弱引用
- types — Dynamic type creation and names for built-in types
- copy — 浅层 (shallow) 和深层 (deep) 复制操作
- pprint — 数据美化输出
- reprlib — Alternate repr() implementation
- enum — Support for enumerations
- 数字和数学模块
- numbers — 数字的抽象基类
- math — 数学函数
- cmath — Mathematical functions for complex numbers
- decimal — 十进制定点和浮点运算
- fractions — 分数
- random — 生成伪随机数
- statistics — Mathematical statistics functions
- 函数式编程模块
- itertools — 为高效循环而创建迭代器的函数
- functools — 高阶函数和可调用对象上的操作
- operator — 标准运算符替代函数
- 文件和目录访问
- pathlib — 面向对象的文件系统路径
- os.path — 常见路径操作
- fileinput — Iterate over lines from multiple input streams
- stat — Interpreting stat() results
- filecmp — File and Directory Comparisons
- tempfile — Generate temporary files and directories
- glob — Unix style pathname pattern expansion
- fnmatch — Unix filename pattern matching
- linecache — Random access to text lines
- shutil — High-level file operations
- macpath — Mac OS 9 路径操作函数
- 数据持久化
- pickle —— Python 对象序列化
- copyreg — Register pickle support functions
- shelve — Python object persistence
- marshal — Internal Python object serialization
- dbm — Interfaces to Unix “databases”
- sqlite3 — SQLite 数据库 DB-API 2.0 接口模块
- 数据压缩和存档
- zlib — 与 gzip 兼容的压缩
- gzip — 对 gzip 格式的支持
- bz2 — 对 bzip2 压缩算法的支持
- lzma — 用 LZMA 算法压缩
- zipfile — 在 ZIP 归档中工作
- tarfile — Read and write tar archive files
- 文件格式
- csv — CSV 文件读写
- configparser — Configuration file parser
- netrc — netrc file processing
- xdrlib — Encode and decode XDR data
- plistlib — Generate and parse Mac OS X .plist files
- 加密服务
- hashlib — 安全哈希与消息摘要
- hmac — 基于密钥的消息验证
- secrets — Generate secure random numbers for managing secrets
- 通用操作系统服务
- os — 操作系统接口模块
- io — 处理流的核心工具
- time — 时间的访问和转换
- argparse — 命令行选项、参数和子命令解析器
- getopt — C-style parser for command line options
- 模块 logging — Python 的日志记录工具
- logging.config — 日志记录配置
- logging.handlers — Logging handlers
- getpass — 便携式密码输入工具
- curses — 终端字符单元显示的处理
- curses.textpad — Text input widget for curses programs
- curses.ascii — Utilities for ASCII characters
- curses.panel — A panel stack extension for curses
- platform — Access to underlying platform's identifying data
- errno — Standard errno system symbols
- ctypes — Python 的外部函数库
- 并发执行
- threading — 基于线程的并行
- multiprocessing — 基于进程的并行
- concurrent 包
- concurrent.futures — 启动并行任务
- subprocess — 子进程管理
- sched — 事件调度器
- queue — 一个同步的队列类
- _thread — 底层多线程 API
- _dummy_thread — _thread 的替代模块
- dummy_threading — 可直接替代 threading 模块。
- contextvars — Context Variables
- Context Variables
- Manual Context Management
- asyncio support
- 网络和进程间通信
- asyncio — 异步 I/O
- socket — 底层网络接口
- ssl — TLS/SSL wrapper for socket objects
- select — Waiting for I/O completion
- selectors — 高级 I/O 复用库
- asyncore — 异步socket处理器
- asynchat — 异步 socket 指令/响应 处理器
- signal — Set handlers for asynchronous events
- mmap — Memory-mapped file support
- 互联网数据处理
- email — 电子邮件与 MIME 处理包
- json — JSON 编码和解码器
- mailcap — Mailcap file handling
- mailbox — Manipulate mailboxes in various formats
- mimetypes — Map filenames to MIME types
- base64 — Base16, Base32, Base64, Base85 数据编码
- binhex — 对binhex4文件进行编码和解码
- binascii — 二进制和 ASCII 码互转
- quopri — Encode and decode MIME quoted-printable data
- uu — Encode and decode uuencode files
- 结构化标记处理工具
- html — 超文本标记语言支持
- html.parser — 简单的 HTML 和 XHTML 解析器
- html.entities — HTML 一般实体的定义
- XML处理模块
- xml.etree.ElementTree — The ElementTree XML API
- xml.dom — The Document Object Model API
- xml.dom.minidom — Minimal DOM implementation
- xml.dom.pulldom — Support for building partial DOM trees
- xml.sax — Support for SAX2 parsers
- xml.sax.handler — Base classes for SAX handlers
- xml.sax.saxutils — SAX Utilities
- xml.sax.xmlreader — Interface for XML parsers
- xml.parsers.expat — Fast XML parsing using Expat
- 互联网协议和支持
- webbrowser — 方便的Web浏览器控制器
- cgi — Common Gateway Interface support
- cgitb — Traceback manager for CGI scripts
- wsgiref — WSGI Utilities and Reference Implementation
- urllib — URL 处理模块
- urllib.request — 用于打开 URL 的可扩展库
- urllib.response — Response classes used by urllib
- urllib.parse — Parse URLs into components
- urllib.error — Exception classes raised by urllib.request
- urllib.robotparser — Parser for robots.txt
- http — HTTP 模块
- http.client — HTTP协议客户端
- ftplib — FTP protocol client
- poplib — POP3 protocol client
- imaplib — IMAP4 protocol client
- nntplib — NNTP protocol client
- smtplib —SMTP协议客户端
- smtpd — SMTP Server
- telnetlib — Telnet client
- uuid — UUID objects according to RFC 4122
- socketserver — A framework for network servers
- http.server — HTTP 服务器
- http.cookies — HTTP state management
- http.cookiejar — Cookie handling for HTTP clients
- xmlrpc — XMLRPC 服务端与客户端模块
- xmlrpc.client — XML-RPC client access
- xmlrpc.server — Basic XML-RPC servers
- ipaddress — IPv4/IPv6 manipulation library
- 多媒体服务
- audioop — Manipulate raw audio data
- aifc — Read and write AIFF and AIFC files
- sunau — 读写 Sun AU 文件
- wave — 读写WAV格式文件
- chunk — Read IFF chunked data
- colorsys — Conversions between color systems
- imghdr — 推测图像类型
- sndhdr — 推测声音文件的类型
- ossaudiodev — Access to OSS-compatible audio devices
- 国际化
- gettext — 多语种国际化服务
- locale — 国际化服务
- 程序框架
- turtle — 海龟绘图
- cmd — 支持面向行的命令解释器
- shlex — Simple lexical analysis
- Tk图形用户界面(GUI)
- tkinter — Tcl/Tk的Python接口
- tkinter.ttk — Tk themed widgets
- tkinter.tix — Extension widgets for Tk
- tkinter.scrolledtext — 滚动文字控件
- IDLE
- 其他图形用户界面(GUI)包
- 开发工具
- typing — 类型标注支持
- pydoc — Documentation generator and online help system
- doctest — Test interactive Python examples
- unittest — 单元测试框架
- unittest.mock — mock object library
- unittest.mock 上手指南
- 2to3 - 自动将 Python 2 代码转为 Python 3 代码
- test — Regression tests package for Python
- test.support — Utilities for the Python test suite
- test.support.script_helper — Utilities for the Python execution tests
- 调试和分析
- bdb — Debugger framework
- faulthandler — Dump the Python traceback
- pdb — The Python Debugger
- The Python Profilers
- timeit — 测量小代码片段的执行时间
- trace — Trace or track Python statement execution
- tracemalloc — Trace memory allocations
- 软件打包和分发
- distutils — 构建和安装 Python 模块
- ensurepip — Bootstrapping the pip installer
- venv — 创建虚拟环境
- zipapp — Manage executable Python zip archives
- Python运行时服务
- sys — 系统相关的参数和函数
- sysconfig — Provide access to Python's configuration information
- builtins — 内建对象
- main — 顶层脚本环境
- warnings — Warning control
- dataclasses — 数据类
- contextlib — Utilities for with-statement contexts
- abc — 抽象基类
- atexit — 退出处理器
- traceback — Print or retrieve a stack traceback
- future — Future 语句定义
- gc — 垃圾回收器接口
- inspect — 检查对象
- site — Site-specific configuration hook
- 自定义 Python 解释器
- code — Interpreter base classes
- codeop — Compile Python code
- 导入模块
- zipimport — Import modules from Zip archives
- pkgutil — Package extension utility
- modulefinder — 查找脚本使用的模块
- runpy — Locating and executing Python modules
- importlib — The implementation of import
- Python 语言服务
- parser — Access Python parse trees
- ast — 抽象语法树
- symtable — Access to the compiler's symbol tables
- symbol — 与 Python 解析树一起使用的常量
- token — 与Python解析树一起使用的常量
- keyword — 检验Python关键字
- tokenize — Tokenizer for Python source
- tabnanny — 模糊缩进检测
- pyclbr — Python class browser support
- py_compile — Compile Python source files
- compileall — Byte-compile Python libraries
- dis — Python 字节码反汇编器
- pickletools — Tools for pickle developers
- 杂项服务
- formatter — Generic output formatting
- Windows系统相关模块
- msilib — Read and write Microsoft Installer files
- msvcrt — Useful routines from the MS VC++ runtime
- winreg — Windows 注册表访问
- winsound — Sound-playing interface for Windows
- Unix 专有服务
- posix — The most common POSIX system calls
- pwd — 用户密码数据库
- spwd — The shadow password database
- grp — The group database
- crypt — Function to check Unix passwords
- termios — POSIX style tty control
- tty — 终端控制功能
- pty — Pseudo-terminal utilities
- fcntl — The fcntl and ioctl system calls
- pipes — Interface to shell pipelines
- resource — Resource usage information
- nis — Interface to Sun's NIS (Yellow Pages)
- Unix syslog 库例程
- 被取代的模块
- optparse — Parser for command line options
- imp — Access the import internals
- 未创建文档的模块
- 平台特定模块
- 扩展和嵌入 Python 解释器
- 推荐的第三方工具
- 不使用第三方工具创建扩展
- 使用 C 或 C++ 扩展 Python
- 自定义扩展类型:教程
- 定义扩展类型:已分类主题
- 构建C/C++扩展
- 在Windows平台编译C和C++扩展
- 在更大的应用程序中嵌入 CPython 运行时
- Embedding Python in Another Application
- Python/C API 参考手册
- 概述
- 代码标准
- 包含文件
- 有用的宏
- 对象、类型和引用计数
- 异常
- 嵌入Python
- 调试构建
- 稳定的应用程序二进制接口
- The Very High Level Layer
- Reference Counting
- 异常处理
- Printing and clearing
- 抛出异常
- Issuing warnings
- Querying the error indicator
- Signal Handling
- Exception Classes
- Exception Objects
- Unicode Exception Objects
- Recursion Control
- 标准异常
- 标准警告类别
- 工具
- 操作系统实用程序
- 系统功能
- 过程控制
- 导入模块
- Data marshalling support
- 语句解释及变量编译
- 字符串转换与格式化
- 反射
- 编解码器注册与支持功能
- 抽象对象层
- Object Protocol
- 数字协议
- Sequence Protocol
- Mapping Protocol
- 迭代器协议
- 缓冲协议
- Old Buffer Protocol
- 具体的对象层
- 基本对象
- 数值对象
- 序列对象
- 容器对象
- 函数对象
- 其他对象
- Initialization, Finalization, and Threads
- 在Python初始化之前
- 全局配置变量
- Initializing and finalizing the interpreter
- Process-wide parameters
- Thread State and the Global Interpreter Lock
- Sub-interpreter support
- Asynchronous Notifications
- Profiling and Tracing
- Advanced Debugger Support
- Thread Local Storage Support
- 内存管理
- 概述
- 原始内存接口
- Memory Interface
- 对象分配器
- 默认内存分配器
- Customize Memory Allocators
- The pymalloc allocator
- tracemalloc C API
- 示例
- 对象实现支持
- 在堆中分配对象
- Common Object Structures
- Type 对象
- Number Object Structures
- Mapping Object Structures
- Sequence Object Structures
- Buffer Object Structures
- Async Object Structures
- 使对象类型支持循环垃圾回收
- API 和 ABI 版本管理
- 分发 Python 模块
- 关键术语
- 开源许可与协作
- 安装工具
- 阅读指南
- 我该如何...?
- ...为我的项目选择一个名字?
- ...创建和分发二进制扩展?
- 安装 Python 模块
- 关键术语
- 基本使用
- 我应如何 ...?
- ... 在 Python 3.4 之前的 Python 版本中安装 pip ?
- ... 只为当前用户安装软件包?
- ... 安装科学计算类 Python 软件包?
- ... 使用并行安装的多个 Python 版本?
- 常见的安装问题
- 在 Linux 的系统 Python 版本上安装
- 未安装 pip
- 安装二进制编译扩展
- Python 常用指引
- 将 Python 2 代码迁移到 Python 3
- 简要说明
- 详情
- 将扩展模块移植到 Python 3
- 条件编译
- 对象API的更改
- 模块初始化和状态
- CObject 替换为 Capsule
- 其他选项
- Curses Programming with Python
- What is curses?
- Starting and ending a curses application
- Windows and Pads
- Displaying Text
- User Input
- For More Information
- 实现描述器
- 摘要
- 定义和简介
- 描述器协议
- 发起调用描述符
- 描述符示例
- Properties
- 函数和方法
- Static Methods and Class Methods
- 函数式编程指引
- 概述
- 迭代器
- 生成器表达式和列表推导式
- 生成器
- 内置函数
- itertools 模块
- The functools module
- Small functions and the lambda expression
- Revision History and Acknowledgements
- 引用文献
- 日志 HOWTO
- 日志基础教程
- 进阶日志教程
- 日志级别
- 有用的处理程序
- 记录日志中引发的异常
- 使用任意对象作为消息
- 优化
- 日志操作手册
- 在多个模块中使用日志
- 在多线程中使用日志
- 使用多个日志处理器和多种格式化
- 在多个地方记录日志
- 日志服务器配置示例
- 处理日志处理器的阻塞
- Sending and receiving logging events across a network
- Adding contextual information to your logging output
- Logging to a single file from multiple processes
- Using file rotation
- Use of alternative formatting styles
- Customizing LogRecord
- Subclassing QueueHandler - a ZeroMQ example
- Subclassing QueueListener - a ZeroMQ example
- An example dictionary-based configuration
- Using a rotator and namer to customize log rotation processing
- A more elaborate multiprocessing example
- Inserting a BOM into messages sent to a SysLogHandler
- Implementing structured logging
- Customizing handlers with dictConfig()
- Using particular formatting styles throughout your application
- Configuring filters with dictConfig()
- Customized exception formatting
- Speaking logging messages
- Buffering logging messages and outputting them conditionally
- Formatting times using UTC (GMT) via configuration
- Using a context manager for selective logging
- 正则表达式HOWTO
- 概述
- 简单模式
- 使用正则表达式
- 更多模式能力
- 修改字符串
- 常见问题
- 反馈
- 套接字编程指南
- 套接字
- 创建套接字
- 使用一个套接字
- 断开连接
- 非阻塞的套接字
- 排序指南
- 基本排序
- 关键函数
- Operator 模块函数
- 升序和降序
- 排序稳定性和排序复杂度
- 使用装饰-排序-去装饰的旧方法
- 使用 cmp 参数的旧方法
- 其它
- Unicode 指南
- Unicode 概述
- Python's Unicode Support
- Reading and Writing Unicode Data
- Acknowledgements
- 如何使用urllib包获取网络资源
- 概述
- Fetching URLs
- 处理异常
- info and geturl
- Openers and Handlers
- Basic Authentication
- Proxies
- Sockets and Layers
- 脚注
- Argparse 教程
- 概念
- 基础
- 位置参数介绍
- Introducing Optional arguments
- Combining Positional and Optional arguments
- Getting a little more advanced
- Conclusion
- ipaddress模块介绍
- 创建 Address/Network/Interface 对象
- 审查 Address/Network/Interface 对象
- Network 作为 Address 列表
- 比较
- 将IP地址与其他模块一起使用
- 实例创建失败时获取更多详细信息
- Argument Clinic How-To
- The Goals Of Argument Clinic
- Basic Concepts And Usage
- Converting Your First Function
- Advanced Topics
- 使用 DTrace 和 SystemTap 检测CPython
- Enabling the static markers
- Static DTrace probes
- Static SystemTap markers
- Available static markers
- SystemTap Tapsets
- 示例
- Python 常见问题
- Python常见问题
- 一般信息
- 现实世界中的 Python
- 编程常见问题
- 一般问题
- 核心语言
- 数字和字符串
- 性能
- 序列(元组/列表)
- 对象
- 模块
- 设计和历史常见问题
- 为什么Python使用缩进来分组语句?
- 为什么简单的算术运算得到奇怪的结果?
- 为什么浮点计算不准确?
- 为什么Python字符串是不可变的?
- 为什么必须在方法定义和调用中显式使用“self”?
- 为什么不能在表达式中赋值?
- 为什么Python对某些功能(例如list.index())使用方法来实现,而其他功能(例如len(List))使用函数实现?
- 为什么 join()是一个字符串方法而不是列表或元组方法?
- 异常有多快?
- 为什么Python中没有switch或case语句?
- 难道不能在解释器中模拟线程,而非得依赖特定于操作系统的线程实现吗?
- 为什么lambda表达式不能包含语句?
- 可以将Python编译为机器代码,C或其他语言吗?
- Python如何管理内存?
- 为什么CPython不使用更传统的垃圾回收方案?
- CPython退出时为什么不释放所有内存?
- 为什么有单独的元组和列表数据类型?
- 列表是如何在CPython中实现的?
- 字典是如何在CPython中实现的?
- 为什么字典key必须是不可变的?
- 为什么 list.sort() 没有返回排序列表?
- 如何在Python中指定和实施接口规范?
- 为什么没有goto?
- 为什么原始字符串(r-strings)不能以反斜杠结尾?
- 为什么Python没有属性赋值的“with”语句?
- 为什么 if/while/def/class语句需要冒号?
- 为什么Python在列表和元组的末尾允许使用逗号?
- 代码库和插件 FAQ
- 通用的代码库问题
- 通用任务
- 线程相关
- 输入输出
- 网络 / Internet 编程
- 数据库
- 数学和数字
- 扩展/嵌入常见问题
- 可以使用C语言中创建自己的函数吗?
- 可以使用C++语言中创建自己的函数吗?
- C很难写,有没有其他选择?
- 如何从C执行任意Python语句?
- 如何从C中评估任意Python表达式?
- 如何从Python对象中提取C的值?
- 如何使用Py_BuildValue()创建任意长度的元组?
- 如何从C调用对象的方法?
- 如何捕获PyErr_Print()(或打印到stdout / stderr的任何内容)的输出?
- 如何从C访问用Python编写的模块?
- 如何从Python接口到C ++对象?
- 我使用Setup文件添加了一个模块,为什么make失败了?
- 如何调试扩展?
- 我想在Linux系统上编译一个Python模块,但是缺少一些文件。为什么?
- 如何区分“输入不完整”和“输入无效”?
- 如何找到未定义的g++符号__builtin_new或__pure_virtual?
- 能否创建一个对象类,其中部分方法在C中实现,而其他方法在Python中实现(例如通过继承)?
- Python在Windows上的常见问题
- 我怎样在Windows下运行一个Python程序?
- 我怎么让 Python 脚本可执行?
- 为什么有时候 Python 程序会启动缓慢?
- 我怎样使用Python脚本制作可执行文件?
- *.pyd 文件和DLL文件相同吗?
- 我怎样将Python嵌入一个Windows程序?
- 如何让编辑器不要在我的 Python 源代码中插入 tab ?
- 如何在不阻塞的情况下检查按键?
- 图形用户界面(GUI)常见问题
- 图形界面常见问题
- Python 是否有平台无关的图形界面工具包?
- 有哪些Python的GUI工具是某个平台专用的?
- 有关Tkinter的问题
- “为什么我的电脑上安装了 Python ?”
- 什么是Python?
- 为什么我的电脑上安装了 Python ?
- 我能删除 Python 吗?
- 术语对照表
- 文档说明
- Python 文档贡献者
- 解决 Bug
- 文档错误
- 使用 Python 的错误追踪系统
- 开始为 Python 贡献您的知识
- 版权
- 历史和许可证
- 软件历史
- 访问Python或以其他方式使用Python的条款和条件
- Python 3.7.3 的 PSF 许可协议
- Python 2.0 的 BeOpen.com 许可协议
- Python 1.6.1 的 CNRI 许可协议
- Python 0.9.0 至 1.2 的 CWI 许可协议
- 集成软件的许可和认可
- Mersenne Twister
- 套接字
- Asynchronous socket services
- Cookie management
- Execution tracing
- UUencode and UUdecode functions
- XML Remote Procedure Calls
- test_epoll
- Select kqueue
- SipHash24
- strtod and dtoa
- OpenSSL
- expat
- libffi
- zlib
- cfuhash
- libmpdec