## 11.2 生物信息学
计算生物学(computational biology)研究如何用计算机来解决生物学问题,主要研究内 容包括对生物系统的数学建模、对生物数据的分析、模拟等。本节介绍计算生物学的一个分 支——生物信息学①。
生物信息学(bioinformatics)主要研究生物信息的存储、获取和分析,这里所说的生物 信息主要是指基因组信息。近年来,通过庞大的项目合作,生物学家对人类基因组和其他生 物的基因组进行测序,获得了大量的数据。针对以指数方式增长的数据,生物信息学应用算 法、数据库、机器学习等技术,来解决 DNA 和蛋白质序列的分析、序列分类、基因在序列 中的定位、不同序列的比对、蛋白质结构及功能的预测和新药物新疗法的发现等问题。生物 信息学已成为处于生命科学和计算机科学前沿的一门有战略意义的学科,对医学、生物技术 以及社会的许多领域都有重要影响。
生物信息的表示 为了利用计算机来处理生物信息,首先要将生物信息表示成计算机中的数据。例如,听上去很复杂的 DNA 和蛋白质的链状分子,出乎意料地很容易表示——用符号序列即可。
DNA 是由 4 种单体,即以 A(腺嘌呤)、C(胞嘧啶)、G(鸟嘌呤)、T(胸腺嘧啶)代 表的 4 中核苷酸聚合成的生物大分子。蛋白质是另一类由 20 种单体,即以 A、C、D、W 等 表示的 20 种氨基酸聚合成的大分子。在链状分子的特定位置上,只能出现某种确定的单体(“字符”),而不是几种可能字符的组合,因此分子链可以用一维的、不分岔的。有方向的 字符序列来表示。例如,DNA 分子可表示成如“AGTGATG”一样的字符序列。
测定 DNA 和蛋白质链状分子的字符序列是从微观结构研究生物的出发点。 除了序列数据,生物信息还包括结构和功能数据、基因表达数据、生化反应通路数据、表现型和临床数据等。
生物信息数据库
数据库技术是管理大量数据的计算机技术,目的是使用户能够方便、高效地访问大量数据。过去数十年间,随着人类基因组测序工程和其他生物测序项目的完成或推进,以及诸如 DNA 微阵列等高效实验技术的出现,产生并积累了大量的生物信息(如前面所说的核苷酸 序列和氨基酸序列),因此需要利用数据库技术将这些信息组织、存储起来。有了生物信息 数据库,生物学家们通过易用的 GUI 来访问数据库,既可以读取数据,也可以添加新数据 或者修订老数据。当然,更重要的工作是利用各种算法来处理数据库中的生物数据。生物学 未来的新发现很可能是通过分析数据库中的生物数据获得的,而非仅仅依赖于传统的实验。
> ① 也有说生物信息学和计算生物学是一回事的。
互联网上有很多生物数据库,例如 EMBL(核苷酸序列数据库)、GenBank(基因序列 数据库)、PDB(蛋白质数据库)等等。
生物数据分析
建立了生物信息数据库之后,生物学家接下来的研究重点就转向了数据分析。庞大的生 物信息数据库对数据分析技术提出了具有挑战性的问题,人工分析 DNA 序列早已成为不可 能完成的任务,传统的计算机算法也越来越显示出不足,这促使生物信息学去寻求新的算法 来解决问题。
序列分析是生物信息学的主要研究内容。例如,通过分析数据库中的成千上万种有机体 的 DNA 序列,可以识别特定序列的结构和功能、特定序列在不同物种之间的不同形式、相 同物种内部特定序列的不同形式。又如,通过对一组序列进行比较,可以发现功能之间的相 似性或者物种之间的联系。还可以在一个基因组中搜索蛋白质编码基因、RNA 基因和其他 功能序列,可以利用 DNA 序列来识别蛋白质。
下面介绍基因组比对的基本思想和方法。当生物学家通过实验获得了一个基因序列,他 接着就要确定这个基因序列的功能。为此,他以这个基因序列作为输入,到基因序列数据库 中去搜索与之相似的、已知功能的基因序列,因为生物学家认为基因序列相似意味着功能相 似。一种衡量基因序列相似性的方法是基因组比对(genome alignment),该方法将两个基 因序列对齐(如果序列长度不同可以在序列中插入一些空白位置),然后为对齐的每一对(代 表核苷酸的)字符打分,所有分数的总和就是两个序列的相似度。例如,对于两个基因序列 AGTGATG 和 GTTAG,适当插入空白(用下划线字符“_”表示)后可以按如下方式对准:
```
A G T G A T G
_ G T T A _ G
```
假如按如下规则打分:
| | A | C | G | T | _ |
| --- | --- | --- | --- | --- | --- |
| A | 5 | -1 | -2 | -1 | -3 |
| C | -1 | 5 | -3 | -2 | -4 |
| G | -2 | -3 | 5 | -2 | -2 |
| T | -1 | -2 | -2 | 5 | -1 |
| _ | -3 | -4 | -2 | -1 | |
则该对准方案的得分为 14。当然也可以按别的方式对准,但上面给出的对准方案是得分最高的。这个最优对准方案可以利用动态规划算法求得。 另外,计算机科学中最新的机器学习和数据挖掘技术能够实现更复杂的数据分析,很自然地成为当今生物信息学所倚重的方法。机器学习和数据挖掘的领域界线并不明显,它们都 是关于从大量数据中发现知识、模式、规则的技术。具体技术包括神经网络、隐马尔可夫模 型、支持向量机、聚类分析等,这些技术都非常适合生物信息的分析和处理。例如,对大量 蛋白质序列进行聚类分析,可以将所有蛋白质序列分组,使得同组的蛋白质序列非常相似, 而不同组的蛋白质非常不相似。
- 前言
- 第 1 章 计算与计算思维
- 1.1 什么是计算?
- 1.1.1 计算机与计算
- 1.1.2 计算机语言
- 1.1.3 算法
- 1.1.4 实现
- 1.2 什么是计算思维?
- 1.2.1 计算思维的基本原则
- 1.2.2 计算思维的具体例子
- 1.2.3 日常生活中的计算思维
- 1.2.4 计算思维对其他学科的影响
- 1.3 初识 Python
- 1.3.1 Python 简介
- 1.3.2 第一个程序
- 1.3.3 程序的执行方式
- 1.3.4 Python 语言的基本成分
- 1.4 程序排错
- 1.5 练习
- 第 2 章 用数据表示现实世界
- 2.1 数据和数据类型
- 2.1.1 数据是对现实的抽象
- 2.1.1 常量与变量
- 2.1.2 数据类型
- 2.1.3 Python 的动态类型*
- 2.2 数值类型
- 2.2.1 整数类型 int
- 2.2.2 长整数类型 long
- 2.2.3 浮点数类型 float
- 2.2.4 数学库模块 math
- 2.2.5 复数类型 complex*
- 2.3 字符串类型 str
- 2.3.1 字符串类型的字面值形式
- 2.3.2 字符串类型的操作
- 2.3.3 字符的机内表示
- 2.3.4 字符串类型与其他类型的转换
- 2.3.5 字符串库 string
- 2.4 布尔类型 bool
- 2.4.1 关系运算
- 2.4.2 逻辑运算
- 2.4.3 布尔代数运算定律*
- 2.4.4 Python 中真假的表示与计算*
- 2.5 列表和元组类型
- 2.5.1 列表类型 list
- 2.5.2 元组类型 tuple
- 2.6 数据的输入和输出
- 2.6.1 数据的输入
- 2.6.2 数据的输出
- 2.6.3 格式化输出
- 2.7 编程案例:查找问题
- 2.8 练习
- 第 3 章 数据处理的流程控制
- 3.1 顺序控制结构
- 3.2 分支控制结构
- 3.2.1 单分支结构
- 3.2.2 两路分支结构
- 3.2.3 多路分支结构
- 3.3 异常处理
- 3.3.1 传统的错误检测方法
- 3.3.2 传统错误检测方法的缺点
- 3.3.3 异常处理机制
- 3.4 循环控制结构
- 3.4.1 for 循环
- 3.4.2 while 循环
- 3.4.3 循环的非正常中断
- 3.4.4 嵌套循环
- 3.5 结构化程序设计
- 3.5.1 程序开发过程
- 3.5.2 结构化程序设计的基本内容
- 3.6 编程案例:如何求 n 个数据的最大值?
- 3.6.1 几种解题策略
- 3.6.2 经验总结
- 3.7 Python 布尔表达式用作控制结构*
- 3.8 练习
- 第 4 章 模块化编程
- 4.1 模块化编程基本概念
- 4.1.1 模块化设计概述
- 4.1.2 模块化编程
- 4.1.3 编程语言对模块化编程的支持
- 4.2 Python 语言中的函数
- 4.2.1 用函数减少重复代码 首先看一个简单的用字符画一棵树的程序:
- 4.2.2 用函数改善程序结构
- 4.2.3 用函数增强程序的通用性
- 4.2.4 小结:函数的定义与调用
- 4.2.5 变量的作用域
- 4.2.6 函数的返回值
- 4.3 自顶向下设计
- 4.3.1 顶层设计
- 4.3.2 第二层设计
- 4.3.3 第三层设计
- 4.3.4 第四层设计
- 4.3.5 自底向上实现与单元测试
- 4.3.6 开发过程小结
- 4.4 Python 模块*
- 4.4.1 模块的创建和使用
- 4.4.2 Python 程序架构
- 4.4.3 标准库模块
- 4.4.4 模块的有条件执行
- 4.5 练习
- 第 5 章 图形编程
- 5.1 概述
- 5.1.1 计算可视化
- 5.1.2 图形是复杂数据
- 5.1.3 用对象表示复杂数据
- 5.2 Tkinter 图形编程
- 5.2.1 导入模块及创建根窗口
- 5.2.2 创建画布
- 5.2.3 在画布上绘图
- 5.2.4 图形的事件处理
- 5.3 编程案例
- 5.3.1 统计图表
- 5.3.2 计算机动画
- 5.4 软件的层次化设计:一个案例
- 5.4.1 层次化体系结构
- 5.4.2 案例:图形库 graphics
- 5.4.3 graphics 与面向对象
- 5.5 练习
- 第 6 章 大量数据的表示和处理
- 6.1 概述
- 6.2 有序的数据集合体
- 6.2.1 字符串
- 6.2.2 列表
- 6.2.3 元组
- 6.3 无序的数据集合体
- 6.3.1 集合
- 6.3.2 字典
- 6.4 文件
- 6.4.1 文件的基本概念
- 6.4.2 文件操作
- 6.4.3 编程案例:文本文件分析
- 6.4.4 缓冲
- 6.4.5 二进制文件与随机存取*
- 6.5 几种高级数据结构*
- 6.5.1 链表
- 6.5.2 堆栈
- 6.5.3 队列
- 6.6 练习
- 第 7 章 面向对象思想与编程
- 7.1 数据与操作:两种观点
- 7.1.1 面向过程观点
- 7.1.2 面向对象观点
- 7.1.3 类是类型概念的发展
- 7.2 面向对象编程
- 7.2.1 类的定义
- 7.2.2 对象的创建
- 7.2.3 对象方法的调用
- 7.2.4 编程实例:模拟炮弹飞行
- 7.2.5 类与模块化
- 7.2.6 对象的集合体
- 7.3 超类与子类*
- 7.3.1 继承
- 7.3.2 覆写
- 7.3.3 多态性
- 7.4 面向对象设计*
- 7.5 练习
- 第 8 章 图形用户界面
- 8.1 图形用户界面概述
- 8.1.1 程序的用户界面
- 8.1.2 图形界面的组成
- 8.1.3 事件驱动
- 8.2 GUI 编程
- 8.2.1 UI 编程概述
- 8.2.2 初识 Tkinter
- 8.2.3 常见 GUI 构件的用法
- 8.2.4 布局
- 8.2.5 对话框*
- 8.3 Tkinter 事件驱动编程
- 8.3.1 事件和事件对象
- 8.3.2 事件处理
- 8.4 模型-视图设计方法
- 8.4.1 将 GUI 应用程序封装成对象
- 8.4.2 模型与视图
- 8.4.3 编程案例:汇率换算器
- 8.5 练习
- 第 9 章 模拟与并发
- 9.1 模拟
- 9.1.1 计算机建模
- 9.1.2 随机问题的建模与模拟
- 9.1.3 编程案例:乒乓球比赛模拟
- 9.2 原型法
- 9.3 并行计算*
- 9.3.1 串行、并发与并行
- 9.3.2 进程与线程
- 9.3.3 多线程编程的应用
- 9.3.4 Python 多线程编程
- 9.3.5 小结
- 9.4 练习
- 第 10 章 算法设计和分析
- 10.1 枚举法
- 10.2 递归
- 10.3 分治法
- 10.4 贪心法
- 10.5 算法分析
- 10.5.1 算法复杂度
- 10.5.2 算法分析实例
- 10.6 不可计算的问题
- 10.7 练习
- 第 11 章 计算+X
- 11.1 计算数学
- 11.2 生物信息学
- 11.3 计算物理学
- 11.4 计算化学
- 11.5 计算经济学
- 11.6 练习
- 附录
- 1 Python 异常处理参考
- 2 Tkinter 画布方法
- 3 Tkinter 编程参考
- 3.1 构件属性值的设置
- 3.2 构件的标准属性
- 3.3 各种构件的属性
- 3.4 对话框
- 3.5 事件
- 参考文献