11.2 生物信息学 · 程序设计思想与方法

## 11.2 生物信息学计算生物学（computational biology）研究如何用计算机来解决生物学问题，主要研究内容包括对生物系统的数学建模、对生物数据的分析、模拟等。本节介绍计算生物学的一个分支——生物信息学①。生物信息学（bioinformatics）主要研究生物信息的存储、获取和分析，这里所说的生物信息主要是指基因组信息。近年来，通过庞大的项目合作，生物学家对人类基因组和其他生物的基因组进行测序，获得了大量的数据。针对以指数方式增长的数据，生物信息学应用算法、数据库、机器学习等技术，来解决 DNA 和蛋白质序列的分析、序列分类、基因在序列中的定位、不同序列的比对、蛋白质结构及功能的预测和新药物新疗法的发现等问题。生物信息学已成为处于生命科学和计算机科学前沿的一门有战略意义的学科，对医学、生物技术以及社会的许多领域都有重要影响。生物信息的表示为了利用计算机来处理生物信息，首先要将生物信息表示成计算机中的数据。例如，听上去很复杂的 DNA 和蛋白质的链状分子，出乎意料地很容易表示——用符号序列即可。 DNA 是由 4 种单体，即以 A（腺嘌呤）、C（胞嘧啶）、G（鸟嘌呤）、T（胸腺嘧啶）代表的 4 中核苷酸聚合成的生物大分子。蛋白质是另一类由 20 种单体，即以 A、C、D、W 等表示的 20 种氨基酸聚合成的大分子。在链状分子的特定位置上，只能出现某种确定的单体（“字符”），而不是几种可能字符的组合，因此分子链可以用一维的、不分岔的。有方向的字符序列来表示。例如，DNA 分子可表示成如“AGTGATG”一样的字符序列。测定 DNA 和蛋白质链状分子的字符序列是从微观结构研究生物的出发点。除了序列数据，生物信息还包括结构和功能数据、基因表达数据、生化反应通路数据、表现型和临床数据等。生物信息数据库数据库技术是管理大量数据的计算机技术，目的是使用户能够方便、高效地访问大量数据。过去数十年间，随着人类基因组测序工程和其他生物测序项目的完成或推进，以及诸如 DNA 微阵列等高效实验技术的出现，产生并积累了大量的生物信息（如前面所说的核苷酸序列和氨基酸序列），因此需要利用数据库技术将这些信息组织、存储起来。有了生物信息数据库，生物学家们通过易用的 GUI 来访问数据库，既可以读取数据，也可以添加新数据或者修订老数据。当然，更重要的工作是利用各种算法来处理数据库中的生物数据。生物学未来的新发现很可能是通过分析数据库中的生物数据获得的，而非仅仅依赖于传统的实验。 > ① 也有说生物信息学和计算生物学是一回事的。互联网上有很多生物数据库，例如 EMBL（核苷酸序列数据库）、GenBank（基因序列数据库）、PDB（蛋白质数据库）等等。生物数据分析建立了生物信息数据库之后，生物学家接下来的研究重点就转向了数据分析。庞大的生物信息数据库对数据分析技术提出了具有挑战性的问题，人工分析 DNA 序列早已成为不可能完成的任务，传统的计算机算法也越来越显示出不足，这促使生物信息学去寻求新的算法来解决问题。序列分析是生物信息学的主要研究内容。例如，通过分析数据库中的成千上万种有机体的 DNA 序列，可以识别特定序列的结构和功能、特定序列在不同物种之间的不同形式、相同物种内部特定序列的不同形式。又如，通过对一组序列进行比较，可以发现功能之间的相似性或者物种之间的联系。还可以在一个基因组中搜索蛋白质编码基因、RNA 基因和其他功能序列，可以利用 DNA 序列来识别蛋白质。下面介绍基因组比对的基本思想和方法。当生物学家通过实验获得了一个基因序列，他接着就要确定这个基因序列的功能。为此，他以这个基因序列作为输入，到基因序列数据库中去搜索与之相似的、已知功能的基因序列，因为生物学家认为基因序列相似意味着功能相似。一种衡量基因序列相似性的方法是基因组比对（genome alignment），该方法将两个基因序列对齐（如果序列长度不同可以在序列中插入一些空白位置），然后为对齐的每一对（代表核苷酸的）字符打分，所有分数的总和就是两个序列的相似度。例如，对于两个基因序列 AGTGATG 和 GTTAG，适当插入空白（用下划线字符“_”表示）后可以按如下方式对准： ``` A G T G A T G _ G T T A _ G ``` 假如按如下规则打分： | | A | C | G | T | _ | | --- | --- | --- | --- | --- | --- | | A | 5 | -1 | -2 | -1 | -3 | | C | -1 | 5 | -3 | -2 | -4 | | G | -2 | -3 | 5 | -2 | -2 | | T | -1 | -2 | -2 | 5 | -1 | | _ | -3 | -4 | -2 | -1 | | 则该对准方案的得分为 14。当然也可以按别的方式对准，但上面给出的对准方案是得分最高的。这个最优对准方案可以利用动态规划算法求得。另外，计算机科学中最新的机器学习和数据挖掘技术能够实现更复杂的数据分析，很自然地成为当今生物信息学所倚重的方法。机器学习和数据挖掘的领域界线并不明显，它们都是关于从大量数据中发现知识、模式、规则的技术。具体技术包括神经网络、隐马尔可夫模型、支持向量机、聚类分析等，这些技术都非常适合生物信息的分析和处理。例如，对大量蛋白质序列进行聚类分析，可以将所有蛋白质序列分组，使得同组的蛋白质序列非常相似，而不同组的蛋白质非常不相似。