生物信息学
维基百科,自由的百科全书
生物学 |
生物学警告 |
动物学领域 |
动物学 - 动物生理学 |
解剖学 - 胚胎学 |
神经生物学 - 发育生物学 |
昆虫学 - 動物行為學 - 组织学 |
植物学领域 |
植物学 - 植物病理学 |
藻类学 - 植物生理学 |
微生物学/免疫学领域 |
微生物学 - 病毒学 |
免疫学 |
生物化学领域 |
生物化学 - 蛋白质力学 |
糖类生化学 - 脂质生化学 |
代谢生化学 |
进化及生态学领域 |
进化生物学 - 生物分布学 |
系统分类学 - 古生物学 |
演化論 - 分类学 - 生态学 |
生物技术学 - 基因工程 |
酶工程学 - 生物工程 |
代谢工程学 - 基因组学 |
细胞及分子生物学领域 |
分子生物学 - 细胞学 |
遗传学 - 基因组学 |
生物物理领域 |
生物物理学 - 结构生物学 |
生物医学光电学 - 医学工程 |
生物医学领域 |
毒理学 - 传染病学 |
放射生物学 - 肿瘤生物学 |
生物信息领域 |
生物信息学 - 生物数学 |
系统生物学 - 仿生学 |
环境生物学领域 |
生物地理学 - 大气生物学 |
海洋生物学 - 淡水生物学 |
历史与人物 |
生物学家列表 |
民间科学家 |
诺贝尔生理医学奖 |
诺贝尔化学奖 |
相关科学 |
医学 - 人类学 |
农学 - 心理学 |
关于 |
维基生物学工程 |
其他 |
生物与医学词汇译名表 |
生物信息學利用应用数学、信息学、统计学和计算机科学的方法研究生物学的问题。目前的生物信息学基本上只是分子生物学与信息技术(尤其是因特网技术)的结合体。生物信息学的研究材料和结果就是各种各样的生物学数据,其研究工具是计算机,研究方法包括对生物学数据的搜索(收集和筛选)、处理(编辑、整理、管理和显示)及利用(计算、模拟)。目前主要的研究方向有:序列比对,基因识别,基因重组,蛋白质结构预测,基因表达,蛋白质反应的预测,以及建立进化论的模型。
生物学技术往往生成大量的嘈杂数据。与数据挖掘类似,生物信息学利用数学工具从大量数据中提取有用的生物学信息。生物信息学所要处理的典型问题包括:重新组装在散弹法DNA测序过程中被打散的DNA序列,从蛋白质的氨基酸序列预测蛋白质结构,利用mRNA微阵列或质谱仪的数据检验基因调控的假说。
某些人将计算生物学作为生物信息学的同义词处理,在英文版的Wikipedia里就是如此;但是另外一些人认为计算生物学和生物信息学应当被当作不同的条目处理,因为生物信息学更加侧重于生物学领域中计算方法的使用和发展,而计算生物学强调应用信息学技术对生物学领域中的假说进行检验,并尝试发展新的理论。
目录 |
[编辑] 主要研究方向
[编辑] 序列分析
1977年,噬菌体Φ-X174成为第一个被完整测定基因组顺序的生物体。自此以后,越来越多生物体的DNA序列被人类测定。通过对这些序列的分析,人们希望获知其中对应蛋白质编码的基因和基因调控序列。不同物种间的基因比对既能够解释和预测他们蛋白质的功能的相似性,又能够揭示不同物种间的联系。由于数据量巨大,依靠人工分析DNA序列早已变得不切实际,这使得人们不得不采用计算机分析数千种生物体的数十亿个核苷酸组成的DNA序列。由于DNA序列中普遍存在变异现象,这些计算机程序需要识别大量相关但是不完全相同的序列。即便是在DNA测序的过程中,也存在着不确定的因素。在DNA测序的散弹法(The Institute for Genomic Research依此技术测定了第一个细菌的基因组)中,完整的DNA链被打散为成千上万条长约600到800个核苷酸的DNA片段。这些DNA片段的两端相互重叠,只有依照正确的顺序组合,才能还原为完整的DNA序列。对于较大的基因组,散弹法能够迅速的测定DNA片段的序列,但将它们组装起来的工作则相当复杂。在人类基因组计划中,该基因重组过程花费了几个月的CPU时间(on a circa-2000 vintage DEC Alpha computer)。由于现今几乎所有基因序列均由散弹法测定,基因重组算法是信息生物学研究的重点课题。
基因组中并不是所有的核苷酸都构成基因,所以序列分析的另一个研究课题是对基因组中的基因和基因调控序列进行自动识别。在较高等的生物体中,DNA序列的大部分并没有明显的作用。但是,这些所谓的“垃圾DNA”却可能具有未被识别的功能。
[编辑] 基因组注释
在基因组学中,对基因和其他生物特征的标注称为基因组注释。1995年,Owen White(在1995年完成的人类首次为独立的生物体——流感嗜血杆菌——测序的工作中,他是组员之一)设计出了第一套基因组注释软件系统。该系统能够自动识别基因、转录基因和其他生物学特征,并能够初步的分析它们的功能。大多数现今的注释系统的与之类似,但用以分析DNA序列的软件在不断进化之中。
[编辑] 计算进化生物学
进化生物学研究物种的起源和演化。引入信息学到进化生物学中,使得研究者能够:
- 通过度量DNA序列的改变研究众多生物体间的进化关系(超越了以前基于身体和生理特征观察的研究方法)
- 通过整个基因组的比对,研究更为复杂的进化论课题,如基因复制,基因横向迁移等
- 为种群进化建立复杂的计算模型,以预测种群随时间的演化
- 保存大量物种的遗传信息
未来的研究工作包括重建业已相当复杂的进化树。
计算进化生物学常常与采用遗传算法的计算机科学相混淆。后者受到生物进化原理的启发,发展出一套软件用于改进配方、算法、集成电路设计等等。
[编辑] 生物多样性的度量
对一个特定的生态系统,小到一层生物膜、一滴海水、一铲泥土,大到整个地球,其中全体物种的基因组成分可被定义为这个生态系统的生物多样性。搜集各物种的名称、描述、分布、遗传信息、地位、种群大小、栖息地,和各生物体间的相互作用等信息,可以建立一个数据库。有专门的软件用于搜寻、分析和可视化这些信息,更重要的是,它们还能够帮助人们相互交流这些信息。计算机能够模拟相应的模型,以计算种群动态演变,遗传健康状态等等。
该领域的一个重要前景是为濒危物种建立基因银行,即将各物种的基因组信息保存下来。这样即便在将来这些物种灭绝了,人类也可能利用它们的基因组信息重新创造出它们。
[编辑] 蛋白质结构预测
蛋白质结构预测是生物信息学的重要应用。蛋白质的氨基酸序列(也称为一级结构)可以容易的由它的基因编码序列获得。在绝大多数情况下,在蛋白质的原生环境中,其结构由它的氨基酸序列唯一的决定。蛋白质的结构对于理解蛋白质的功能十分重要。这些结构信息通常被称为二级、三级、四级结构。目前尚没有普遍可行方案实现这些结构的准确预测;大多数方案为启发式的。
同源性是生物信息学中的一个重要概念。在基因组的研究中,同源性被用以分析基因的功能:若两基因同源,则它们的功能可能相近;在蛋白质结构的研究中,同源性被用于寻找在形成蛋白质结构和蛋白质反应中起关键作用的蛋白质片断。在一种被称为同源建模的技术中,这些信息可与已知结构的蛋白质相比较,从而预测未知结构的蛋白质。目前为止,这是唯一可靠的预测蛋白质结构的方法。
人类血色素和豆类血色素间的相似性是以上方法的一个实例。两种血色素有相同的功能,均能够在各自的生物体内运输氧气。尽管它们的氨基酸序列大不相同,它们的蛋白质结构几乎一样。
[编辑] 蛋白质表达分析
通过蛋白质微阵列技术或高通量质谱分析对生物标本进行测量所获得的数据中,包含有大量生物标本内蛋白质的信息。生物信息学被广泛的应用于这些数据的分析。对于前者,生物信息学所面临的问题与RNA微阵列数据分析中遇到的问题相似;对于后者,生物信息学将所获得的大量质谱数据与通过已知蛋白质数据库预测的数据进行比较,并使用复杂的统计学方法进一步分析。
[编辑] 比较基因组学
比较基因组学的核心课题是识别和建立不同生物体的基因或其他基因组特征的联系。这些跨基因组的联系使得我们能够跟踪基因组的进化过程。基因组进化由多个不同层次的事件完成。在最低的层次,单个核苷酸上发生了点变异。在较高的层次,大的染色体片段经历了复制、横向迁移、逆转、调换、删除和插入等过程。在最高的层次上,整个基因组会经历杂交、倍交、内共生等变异,并迅速产生新的物种。
[编辑] 基因表达分析
多种生物学技术可以用于测量基因的表达,如微阵列,表达序列标签(expressed sequence tag),基因表达连续分析(serial analysis of gene expression),大规模平行信号测序(massively parallel signature sequencing),多元原位杂交法(multiplexed in-situ hybridization)等。所有这些方法均严重依赖于环境并能产生大量高噪音的数据。生物信息学致力于发展一套统计学工具以从中提取有用的信息。
[编辑] 调控分析
调控是指当细胞受到外信号刺激之后其内发生的一些列反应过程的总和。生物信息学技术被用于分析调控的各个步骤。例如,基因表达的数据可用于分析基因调控。对于一个单细胞生物体,我们可以用生物芯片技术观察受到不同外界刺激、处于细胞周期不同状态的细胞,并将采集到的数据利用聚类算法分析,以寻找表达相似的基因或样本。该结果可用于多种深入的分析。
[编辑] 生物系统模拟
系统生物学通过对细胞子系统的计算机模拟,分析这些细胞过程间的复杂联系,并将分析结果可视化。例如,人工生命就通过计算机模拟简单的生物形式,以帮助人类了解进化过程。
[编辑] 软件工具
BLAST(基本局域联配搜寻工具)和FASTA是目前使用得最为频繁的两套数据库搜索程序。它们的功能相近,都是把用户提交的一个核酸序列或蛋白质序列拿去与指定的数据库中的全部序列作比较。一般认为,BLAST运行速度快,对蛋白质序列的搜寻更为有效。FASTA运行较慢,对核酸序列更为敏感。也有基于网页交互的软件如STING,用于结构生物信息学的分析。
基因组学主题 |
基因组计划 | 糖组学 | 人类基因组计划 | 蛋白质组学 |
化学基因组学 | 结构基因组学 | 药物遗传学 | 药物基因组学 | 毒理基因组学 |
生物信息学 | 化学信息学 | 系统生物学 |
|
---|
解剖学 | 太空生物学 | 生物化学 | 生物信息学 | 植物学 | 细胞生物学 | 生态学 | 发展生物学 | 进化生物学 | 遗传学 | 基因组学 | 海洋生物学 | 人类生物学 | 微生物学 | 分子生物学 | 生命的起源 | 古生物学 | 寄生虫学 | 病理学 | 生理学 | 分类学 | 动物学 |