函数 open() 返回文件对象,通常的用法需要两个参数:open(filename, mode)。
~~~
>>> f = open('/tmp/workfile', 'w')
~~~
第一个参数是一个标识文件名的字符串。第二个参数是由有限的字母组成的字符串,描述了文件将会被如何使用。可选的 _模式_ 有: 'r',此选项使文件只读; 'w' ,此选项使文件只写(对于同名文件,该操作使原有文件被覆盖); 'a' ,此选项以追加方式打开文件; 'r+' ,此选项以读写方式打开文件; 模式 参数是可选的。如果没有指定,默认为 'r' 模式。
在 Windows 平台上, 'b' 模式以二进制方式打开文件,所以可能会有类似于 'rb' , 'wb' ,'r+b' 等等模式组合。Windows 平台上文本文件与二进制文件是有区别的,读写文本文件时,行尾会自动添加行结束符。这种后台操作方式对 ASCII 文本文件没有什么问题,但是操作 JPEG 或 EXE这样的二进制文件时就会产生破坏。在操作这些文件时一定要记得以二进制模式打开。在 Unix 上,加一个 'b' 模式也一样是无害的,所以你可以一切二进制文件处理中平台无关的使用它。
### 7.2.1\. 文件对象方法
本节中的示例都默认文件对象 f 已经创建。
要读取文件内容,需要调用 f.read(size),该方法读取若干数量的数据并以字符串形式返回其内容,_size_ 是可选的数值,指定字符串长度。如果没有指定 _size_ 或者指定为负数,就会读取并返回整个文件。当文件大小为当前机器内存两倍时,就会产生问题。反之,会尽可能按比较大的 _size_ 读取和返回数据。如果到了文件末尾,f.read() 会返回一个空字符串(”“):
~~~
>>> f.read()
'This is the entire file.\n'
>>> f.read()
''
~~~
f.readline() 从文件中读取单独一行,字符串结尾会自动加上一个换行符( \n ),只有当文件最后一行没有以换行符结尾时,这一操作才会被忽略。这样返回值就不会有混淆,如果 f.readline()返回一个空字符串,那就表示到达了文件末尾,如果是一个空行,就会描述为 '\n',一个只包含换行符的字符串:
~~~
>>> f.readline()
'This is the first line of the file.\n'
>>> f.readline()
'Second line of the file\n'
>>> f.readline()
''
~~~
f.readlines() 返回一个列表,其中包含了文件中所有的数据行。如果给定了 _sizehint_ 参数,就会读入多于一行的比特数,从中返回多行文本。这个功能通常用于高效读取大型行文件,避免了将整个文件读入内存。这种操作只返回完整的行。
~~~
>>> f.readlines()
['This is the first line of the file.\n', 'Second line of the file\n']
~~~
一种替代的方法是通过遍历文件对象来读取文件行。这是一种内存高效、快速,并且代码简介的方式:
~~~
>>> for line in f:
... print(line, end='')
...
This is the first line of the file.
Second line of the file
~~~
虽然这种替代方法更简单,但并不具备细节控制能力。因为这两种方法处理行缓存的方式不同,千万不能搞混。
f.write(string) 方法将 string 的内容写入文件,并返回写入字符的长度:
~~~
>>> f.write('This is a test\n')
15
~~~
想要写入其他非字符串内容,首先要将它转换为字符串:
~~~
>>> value = ('the answer', 42)
>>> s = str(value)
>>> f.write(s)
18
~~~
f.tell() 返回一个整数,代表文件对象在文件中的指针位置,该数值计量了自文件开头到指针处的比特数。需要改变文件对象指针话话,使用 f.seek(offset,from_what)。指针在该操作中从指定的引用位置移动 _offset_ 比特,引用位置由 _from_what_ 参数指定。 _from_what_ 值为 0 表示自文件起始处开始,1 表示自当前文件指针位置开始,2 表示自文件末尾开始。_from_what_ 可以忽略,其默认值为零,此时从文件头开始:
~~~
>>> f = open('/tmp/workfile', 'rb+')
>>> f.write(b'0123456789abcdef')
16
>>> f.seek(5) # Go to the 6th byte in the file
5
>>> f.read(1)
b'5'
>>> f.seek(-3, 2) # Go to the 3rd byte before the end
13
>>> f.read(1)
b'd'
~~~
在文本文件中(那些没有使用 b 模式选项打开的文件),只允许从文件头开始计算相对位置(使用 seek(0, 2) 从文件尾计算时就会引发异常)。
当你使用完一个文件时,调用 f.close() 方法就可以关闭它并释放其占用的所有系统资源。 在调用f.close() 方法后,试图再次使用文件对象将会自动失败。
~~~
>>> f.close()
>>> f.read()
Traceback (most recent call last):
File "", line 1, in ?
ValueError: I/O operation on closed file
~~~
用关键字 with 处理文件对象是个好习惯。它的先进之处在于文件用完后会自动关闭,就算发生异常也没关系。它是 try-finally 块的简写:
~~~
>>> with open('/tmp/workfile', 'r') as f:
... read_data = f.read()
>>> f.closed
True
~~~
文件对象还有一些不太常用的附加方法,比如 isatty() 和 truncate() 在库参考手册中有文件对象的完整指南。
### 7.2.2. pickle 模块
我们可以很容易的读写文件中的字符串。数值就要多费点儿周折,因为 read() 方法只会返回字符串,应该将其传入 int() 这样的方法中,就可以将 '123' 这样的字符转为对应的数值 123。不过,当你需要保存更为复杂的数据类型,例如列表、字典,类的实例,事情就会变得更复杂了。
好在用户不必要非得自己编写和调试保存复杂数据类型的代码。 Python 提供了一个名为 pickle 的标准模块。这是一个令人赞叹的模块,几乎可以把任何 Python 对象(甚至是一些 Python 代码段!)表达为为字符串,这一过程称之为封装 ( _pickling_ )。从字符串表达出重新构造对象称之为拆封( _unpickling_ )。封装状态中的对象可以存储在文件或对象中,也可以通过网络在远程的机器之间传输。
如果你有一个对象 x,一个以写模式打开的文件对象 f,封装对象的最简单的方法只需要一行代码:
`pickle.dump(x, f)`
如果 f 是一个以读模式打开的文件对象,就可以重装拆封这个对象:
`x = pickle.load(f)`
(如果不想把封装的数据写入文件,这里还有一些其它的变化可用。完整的 pickle 文档请见 Python 库参考手册)。
pickle 是存储 Python 对象以供其它程序或其本身以后调用的标准方法。提供这一组技术的是一个持久化对象( _persistent_ 对象)。因为 pickle 的用途很广泛,很多 Python 扩展的作者都非常注意类似矩阵这样的新数据类型是否适合封装和拆封。
- Python 入门指南
- 1. 开胃菜
- 2. 使用 Python 解释器
- 2.1. 调用 Python 解释器
- 2.2. 解释器及其环境
- 3. Python 简介
- 3.1. 将 Python 当做计算器
- 3.2. 编程的第一步
- 4. 深入 Python 流程控制
- 4.1. if 语句
- 4.2. for 语句
- 4.3. range() 函数
- 4.4. break 和 continue 语句, 以及循环中的 else 子句
- 4.5. pass 语句
- 4.6. 定义函数
- 4.7. 深入 Python 函数定义
- 4.8. 插曲:编码风格
- 5. 数据结构
- 5.1. 关于列表更多的内容
- 5.2. del 语句
- 5.3. 元组和序列
- 5.4. 集合
- 5.5. 字典
- 5.6. 循环技巧
- 5.7. 深入条件控制
- 5.8. 比较序列和其它类型
- 6. 模块
- 6.1. 深入模块
- 6.2. 标准模块
- 6.3. dir() 函数
- 6.4. 包
- 7. 输入和输出
- 7.1. 格式化输出
- 7.2. 文件读写
- 8. 错误和异常
- 8.1. 语法错误
- 8.2. 异常
- 8.3. 异常处理
- 8.4. 抛出异常
- 8.5. 用户自定义异常
- 8.6. 定义清理行为
- 8.7. 预定义清理行为
- 9. 类
- 9.1. 术语相关
- 9.2. Python 作用域和命名空间
- 9.3. 初识类
- 9.4. 一些说明
- 9.5. 继承
- 9.6. 私有变量
- 9.7. 补充
- 9.8. 异常也是类
- 9.9. 迭代器
- 9.10. 生成器
- 9.11. 生成器表达式
- 10. Python 标准库概览
- 10.1. 操作系统接口
- 10.2. 文件通配符
- 10.3. 命令行参数
- 10.4. 错误输出重定向和程序终止
- 10.5. 字符串正则匹配
- 10.6. 数学
- 10.7. 互联网访问
- 10.8. 日期和时间
- 10.9. 数据压缩
- 10.10. 性能度量
- 10.11. 质量控制
- 10.12. “瑞士军刀”
- 11. 标准库浏览 – Part II
- 11.1. 输出格式
- 11.2. 模板
- 11.3. 使用二进制数据记录布局
- 11.4. 多线程
- 11.5. 日志
- 11.6. 弱引用
- 11.7. 列表工具
- 11.8. 十进制浮点数算法
- 12. 接下来?
- 13. 交互式输入行编辑历史回溯
- 13.1. 行编辑
- 13.2. 历史回溯
- 13.3. 快捷键绑定
- 13.4. 其它交互式解释器
- 14. 浮点数算法:争议和限制
- 14.1. 表达错误
- 15. 附录
- 15.1. 交互模式