生物信息学在蛋白质组学中的应用

来源：内容来源于网络浏览量：1918次

【导读】摘要：生物信息学是一门新兴的边缘学科，基因组合蛋白质组研究与生物信息学技术互相推动，并行发展，而生物信息学在蛋白质研究中将发挥特殊作用。本文就生物信息学技术在蛋白质数值库以及蛋白质...

摘要：生物信息学是一门新兴的边缘学科，基因组合蛋白质组研究与生物信息学技术互相推动，并行发展，而生物信息学在蛋白质研究中将发挥特殊作用。本文就生物信息学技术在蛋白质数值库以及蛋白质结构分析与功能预测中的应用做一综述。
关键词：生物信息学蛋白质组数值库结构分析功能预测
1前言
20世纪80年代，随着基因组学和蛋白质组学的发展，数值量迅速增加，生物信息学(bioinformatics)就应运而生。它研究的ZD内容为基因组(Genomics)和蛋白质组学(Proteomics)。其在基因组学中的应用已经相当成熟，各种数值库已经被人们广泛的使用。而今,随着功能基因组学的信息量不断的增加,也显得越来越重要。
2
2.1蛋白质组学的产生及其重要意义
在20世纪中后期，随着DNA双螺旋结构的提出和蛋白质空间结构的解析，生生命科学的研究进入了分子生物学时代，而遗传信息载体DNA和生命功能的体现者蛋白质的研究，成为了其主要内容。90年代初期启动的庞大的人类基因组计划，已经取得巨大的成就，人类基因组序列草图绘制完成后，生命科学研究跨入了后基因组时代。然而，人们清醒地识到基因仅是遗传信息的载体，而生命活动的执行者是基因的表达产物蛋白质，它是生命现象复杂性和多变性的直接体现者。《自然》和《科学》杂志在2001年2月公布人类基因组草图的同时，分别发表了“Andnowfortheproteome”和“Proteomicsingenomeland”的评述和展望，将蛋白质组学的地位提到前所未有的高度，认为蛋白质组学将成为新世纪Zda战略资源人类基因争夺战的战略制高点之一，从此蛋白质组学的研究受到了广泛的关注。
蛋白质组一词是澳大利亚学者马克威尔金斯在1994年Zxian提出来的，它是指基因组表达的所有相应的蛋白质，也可以说是指细胞或组织或机体全部蛋白质的存在及其活动方式。蛋白质组学是从整体的蛋白质水平上,在一个更加深入、更加贴近生命本质的层次上去探讨和发现生命活动的规律和重要生理、病理现象的本质等。蛋白质组学的研究对揭示生命活动规律，探讨重大疾病机制，疾病诊断和FZ、新药的开发提供重要的理论基础。
2.2生物信息学在蛋白质组学中的蛋白质数值库的应用
2.2.1蛋白质组数值库
蛋白质组数值库是蛋白质组学研究的主要内容之一。通过构建不同环境条件下组织或细胞全部蛋白质的数值库来研究蛋白质表达的差异情况。与其他数值库相比,目前大部分蛋白质组数值库都有以下几个方面的特点:（1）由于蛋白质相关数值的种类繁多,蛋白质组数值库的种类也多种多样,如双向电泳数值库、基于蛋白序列的数值库、蛋白质一级或高级结构数值库、蛋白质相互作用数值库等等;（2）新速度快,网络上的蛋白质组数值库的数值几乎每天都在更新;（3）网共享程度高,越来越多的数值库资源与互联网相互配合,使得蛋白质相关数值的利用率的提高。蛋白质组数值库的主要内容即集中在基于双向电泳结果的数值库和基于蛋白质序列信息的数值库。
2.2.1.1基于双向电泳图谱的数值库
双向电泳技术是蛋白质组学研究中Z重要的实验技术之一，所以基于双向电泳图片的数值库也成了蛋白质组学研究中主要内容。这些数值库有以下几个特点:(1)据直观。以蛋白质双向电泳图片为索引，将图片放在互联网上，每一个蛋白点的信息(等电点、分子量等等)都可以通过点击图片上相应位置的蛋白点得到;（2）双向电泳图片为基础，并与其他数值(蛋白质序列、结构和功能等信息)进行整合。目前，主要有水稻蛋白质组数值库(TheRiceProteomeDatabase)、SWISS-2DPAGE、大肠杆菌双向电泳数值库(ECO-2DBASE)、酵母蛋白质组数值库(YPD)、造血干细胞蛋白质组数值库(HSC-2DPAGE)、SIENA-2DPAGE、PHCI-2DPAGE等等。
如水稻蛋白质组数值库TheRiceProteomeDatabase(http://gene64.dna.affrc.go.jp/PD/):水稻基因组测序完成之后,关于水稻蛋白质组的数值库也随之建立了起来。从双向电泳实验中分离鉴定出水稻组织或细胞器中的蛋白质，经分析后获得关于这些蛋白质的各种信息，对这些数值进行总结整合之后，水稻蛋白质组学数值库逐渐建立了起来，可供研究人员通过网络方便使用。这个数值库可以从以下四个方面为研究人员提供服务：务:（1）在数值库的2-D参考胶上选择相应的蛋白点，获得该蛋白点的各种信息;（2）输入与蛋白相关的关键词(蛋白质名字、序列号)查询蛋白相关信息;（3）根据蛋白质的分子量和pI值来查询该蛋白的相关信息;（4）由蛋白质的氨基酸序列查询某类相似蛋白质的信息。这个蛋白质组数值库与其他的数值库相比有三点特殊性:（1）数值库中的2-D参照胶里包含了某个组织或细胞里几乎所有的蛋白质,每一个蛋白点的位置都在图片上展示了出来,信息量大且直观;（2）每一个蛋白点的信息都可以在链接的一个网页上找到,包括分子量、等电点、表达水平和氨基酸序列等等;(3)MASCOT搜索页会提供有关蛋白的质谱检测结果。
2.2.1.2基于蛋白质序列信息的数值库
基于蛋白质序列信息的数值库是生物信息学数值库中Z基本的数值库，这些数值库以氨基酸残基顺序为基本内容，并附有注释信息（计算机的序列分析结果和生物学家查阅文献的结果）。基于蛋白质序列的数值库很多，主要有蛋白质信息资源数值库（PIR）、SWISS-PROT数值库、蛋白质序列数值库NRL-3D和TrEMBL等等。
比如蛋白质信息资源数值库（PIR）；蛋白质信息资源数值库(http://pir.georgetown.edu/)由佐治堂大学创立,收集的序列用来研究蛋白质在进化中的关系。该数值库建立较早(雏形可追溯到20世纪60年代)，内容非常全面。数值库现在已经和其它3个数值ZX建立了国际联盟:美国华盛顿的乔治城大学全国生物医学研究基金会(NBRF)、慕尼黑蛋白质序列信息ZX(MIPS)和日本国际蛋白质信息数值库(JIPD)。这3个ZX共同制作和发布一个“野生型(wild-type)”蛋白质序列数值库。这是一个国际蛋白质序列数值库,它包含所有序列已知的自然界中野生型蛋白质的信息。PIR数值库按数值的性质分为四个部分:
PIR1中的序列已经经过验证,注释十分详尽;PIR2中大部分序列已经经过验证,但还含有尚未确定的冗余序列;PIR3中的序列还没有经过检验,注释也还没有加入;PIR4中的信息都由其他渠道获得,没有经过验证也没有加入注释。
2.2.1.3其他蛋白质组数值库
蛋白质生物信息学包含很多方面的内容：如蛋白质大分子的结构、相互作用等等，所以，除了上述的一些数值库之外，还有很多关于构象、相互作用等方面的数值库，如（1）PDB(ProteinDataBank,蛋白质三维结构坐标库www.pdb.bnl.gov),即美国国家实验室(BrookhavenNationalLaboratory,BNL)蛋白结构数值库。（2）Predictome(http://visant.bu.edu/)蛋白质功能预测数值库,为44个基因组和蛋白之间的功能联系提供预测；（3）PROSITE(http://cn.expasy.org/prosite/)蛋白质家族和功能域数值库,包含大量具有生物学意义的位点、模型等信息；（4）MSDB，由伦敦学院(ImperialCollegeLon-don)Hammersmith分校的蛋白质组学系负责维护，是基于质谱应用的数值库，属于混合数值库。
将生物信息学的实验思路引入蛋白质组学的实验方案后，实验人员可以通过互联网上的信息设计实验方案，避免了很多重复性的劳动，少走很多弯路，为蛋白质组学的发展提供了可靠的信息资源。值得一提的是，上文提到的大多数数值库都能实现数值接收、在线查询和空间结构的可是化浏览等多种功能。而且，几乎所有这些数值库都是免费的，都可以免费下载或提供免费服务，使得蛋白质组学可以在生物信息学的辅助之下快速发展。
2.2.2生物信息学与蛋白质分析
在蛋白质组分析过程中，生物信息学的作用不仅仅体现在数值库的查阅和资料的整合中，生物信息学软件在蛋白质组研究领域的作用根式至关重要的。蛋白质分析软件应用主要集中在结合蛋白质组研究中的分离技术和坚定技术识别蛋白质（如2-DE）图像分析、Edman降解的序列组合、质谱数值的综合分析等），对有价值的未知蛋白质进行分析和预测（包括序列分析、结构预测、结构域、电点等性质的检测等）、针对蛋白质的分析预测方法应用的工具有4个方面。
2.2.2.1蛋白质一级结构分析
根据20中氨基酸的理化性质可以分析电泳等实验中的未知蛋白质，同样也可以分析已知蛋白质的物化性质。ExPASy(ExPASy是由Swiss2Prot；TrEMBL;EMBL等多个数值库的集合,主要专注的领域是蛋白质分子和蛋白质组学。)工具包中提供了一系列相应程序,①AACompIdent。它与把氨基酸序列在SWISS-PROT库中搜索不同,AACompIdent利用未知蛋白的氨基酸组成去确认具有相同组成的已知蛋白。这个程序需要的信息比较多，包括有氨基酸组成、蛋白质的名称、pI和Mw(如果已知)以及它们的估算误差、所属物种、标准蛋白的氨基酸组成、标准蛋白的SWISS-PROT编号等,用户还需要在6种氨基酸“组合”中作出选择。然后在SWISS-PROT或TrEM2BL数值库中搜索组成相似蛋白。②AACompSim。与前者类似,是AACompIdent的一个变种。但比较多在SWISS-PROT中进行。也可以用于发现蛋白质之间较弱的相似关系。③PROPSEARCH。不属于ExPASy工具包,是蛋白质氨基酸序列同源性的检索,提供免费的查询,并通过电子邮件的形式反馈给提问者的网页。设计PROPSEARCH的目的是为了通过排比方法查询一个新的蛋白质序列失败时,查找公认的蛋白质家族而设计的。PROPSEARCH可以通过氨基酸组分来查询,同时也可以通过其他的特性来进行查询,如从序列中计算所得的分子量、挑选的二肽组分的含量等。
2.2.2.2蛋白质的物理性质预测
从蛋白质序列出发，预测蛋白质的许多物理性质，包括等电点、分子量、酶切特性、疏水性、电荷分布等。相关工具有：①ComputepI/MW(等电点和分子量工具)。是ExPASy工具包中的程序,对PI的确定是基于早起研究中将蛋白质从中性到酸性变性条件下迁移过程所获的PK值。但对于碱性蛋白质有局限，计算出的等电点可能不准确。分子量的计算是把序列中的每个氨基酸的同位素的品军分子量加在一起，再加一个水分子的分子量。②PeptideMass(酶切特性工具)。是ExPASy工具包中的程序,主要针对肽段图谱的分析试验,分析蛋白质在各种蛋白
酶和化学试剂处理后的内切产物。可预测水解结果的酶和试剂包括胰蛋白酶、糜蛋白酶、LysC、溴化氰、ArgC、AspN和GluC(双羧酯或磷酸酯)等。半胱氨酸和甲硫氨酸可在计算产物肽段前加以修饰。③TGREASE(疏水性工具)。是FAS-TA工具包中的程序,能够沿着蛋白质序列长度计算其疏水性(疏水性是每种氨基酸的固有特性,影响蛋白质的三级空间结构)。这个程序的疏水性预测方法依赖与疏水性的衡量尺度，它将每种氨基酸的物理性质与疏水性相联系,沿着蛋白质序列计算每个残基位点的移动平均疏水性,并给出疏水性和序列曲线。用这个程序还可以发现膜蛋白的跨膜区和高疏水性区的明显相关性。④SAPS(电荷分布工具)
蛋白质序列统计分析,对提交的序列给出大量全面的分析数值。输出结果首先是按照种类对氨基酸的统计计数,然后是电荷分布分析(包括正/负电荷聚集区的位置,高度带电和不带电区域，电荷传播和模式等)，Z后给出高疏水性和跨膜域、重复结构和多重态以及周期性分析。
2.2.2.3蛋白质二级结构预测
二级结构是指α螺旋和β折叠等规则的蛋白质局部结构元件。蛋白质的二级结构预测的基本依据是每一段相邻的氨基酸残基具有形成一定二级结构的倾向。因此,进行二级结构预测需要通过统计和分析发现这些倾向或者规律。蛋白质二级结构预测的方法有3种。一是由已知结构统计各种氨基酸残基形成二级结构
的构象趋势,其中Z常用的是Chou和Fasman法;二是基于氨基酸的物理化学性质,包括堆积性、疏水性、电荷性、氢键形成能力等;三是通过序列比对,由已知三维结构的同源蛋白推断未知蛋白的二级结构。各种方法预测的准确率随蛋白质类型的不同而变化。一般对于α螺旋预测精度较好,对β折叠差些,而对除α螺旋和β折叠等之外的无规则二级结构则效果很差。①nnPredict。用神经网络方法预测二级结构,使用FASTA格式文件。蛋白质结构类型分为全α蛋白、全β蛋白和α/β蛋白,输出结果包括“H”(螺旋)、“E”(折叠)和“β”(转角)。该方法在实际的实例预测中,准确率超过65%，而对全α蛋白则能达到79%的准确率。②Predict2Protein。提供了序列搜索和结构预测服务,它先在SWISS-PROT中搜索相似序列，用MaxHom算法构建多序列比对的profile，再在数值库中搜索相似的profile，然后用一套PHD程序来预测相应的结构特征,不仅仅给每个残基分配1个二级结构类型,他还对序列的每个位点的预测可信度给予统计分析。这个方法的平均预测准确率达到72%,Z佳残基预测准确率可高达90%。③SSPRED。与PredictProtein相似,特点是在对比时特别注意非保守位点的替换,并利用比对结果作出预测结果,然后删除简单不合理的结果单元。
2.2.2.4蛋白质的三维结构
蛋白质三维结构是预测时Z复杂和Z困难的预测技术。序列差异较大的蛋白质序列也可能折叠成类似的三维构象。由于蛋白质的折叠过程并不十分清晰,从理论上解决蛋白质折叠的问题还有待进一步的科学发展,但也有了一些有一定作用的三维结构预测方法。即与已知结构的序列比较,同源模建,threading算法和
折叠识别方法。常见的预测算法有:SWISS-MODEL(自动蛋白质同源模建服务器)、CPHmodels等。
2.2.3生物信息学与蛋白质功能
生物信息学发展到今天不仅可以对蛋白质组数值进行分析和预测，而且可以对已知或者未知的基因产物进行功能上全面的分析和预测。
生物信息学Z常用的分析方法是模式识别。主要是利用存在于蛋白质序列结构中的某些特殊的特征模体来识别相关蛋白质性质。换而言之，就是从新的蛋白序列中发现标志性的序列或者结构，以此建立模式，然后在已经建立好的已知蛋白质数值库中，搜集于此相似的模式，来确定未知蛋白质的归属，从而预测它的功能。
许多基因是在特定时期和条件下被激活，才能表达出来，在正常人工模拟的环境下根本无法表达。类似于这样的恩未知蛋白质也需要通过生物信息学的方法计算分析预测，以获得它的功能信息。

3结语
信息技术的创新与提升，必将为蛋白质组学的深入探究开启一扇希望的明窗。我们有理由相信，与生物信息学携手前行的蛋白质组学必将为人类开启生命科学的奥秘。

尊敬的客户：

本公司有腺病毒载体AVV、Talen质粒、免疫共沉淀co-IP产品，您可以通过网页拨打本公司的服务热线了解更多产品的详细信息，至善至美的服务是我们永无止境的追求，欢迎新老客户放心选购自己心仪产品，我们将竭诚为您服务！

仪器网-专业分析仪器服务平台,实验室仪器设备交易网,仪器行业专业网络宣传媒体。

2004-09-18 09:23:03

标签：

收藏(0) 赞(0) 踩(0)

随时了解更多仪器资讯，求购、招标、中标信息实时更新，厂商招商信息随时看。大量、齐全、专业的仪器信息尽在仪器网（yiqi.com）。扫一扫关注仪器网官方微信，随时随地查看仪器用户采购、招标需求！