蛋白质性质和结构预测.ppt_第1页
蛋白质性质和结构预测.ppt_第2页
蛋白质性质和结构预测.ppt_第3页
蛋白质性质和结构预测.ppt_第4页
蛋白质性质和结构预测.ppt_第5页
已阅读5页,还剩81页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

,Initial exon:初始外显子 Internal exon:内部外显子 Terminal exon:终端外显子 Single-exon gene:单外显子基因 Promoter:启动子 Poly-A signal: Poly-A点 DNA的负链,能编码蛋白质,合成RNA的模板 DNA的正链就是与mRNA序列相同的那一个DNA单链,只不过U代替了T。 DNA的正、负链是互补的。,蛋白质序列分析,蛋白质序列分析与结构预测,主要内容,一、蛋白质性质预测 二、蛋白质结构预测 三、蛋白质结构3D视图观察,/tools/#proteome,一、蛋白质性质预测,在蛋白质的研究领域,蛋白质性质的研究是必要的,而且是非常基础的。 以往都需要针对未知蛋白质进行一系列的实验摸索,比如pI,Mw等的测定,然后才有可能得到比较精确的结果,这样的摸索往往费时耗资。 pI:等电位点,Mw:分子量 现在人们已经充分地了解了组成蛋白质的20个氨基酸的物理化学性质,并由此产生许多基于序列以及结构的预测工具来预测未知蛋白质的性质以及通过已知性质来预测蛋白质。,1,Compute pI/Mw,/tools/pi_tool.html,Compute pI/Mw is a tool which allows the computation of the theoretical pI (isoelectric point) and Mw (molecular weight) for a list of UniProt Knowledgebase (Swiss-Prot or TrEMBL) entries or for user entered sequences 。,序列,gi|4506183|ref|NP_002779.1| proteasome alpha 3 subunit isoform 1 Homo sapiens MSSIGTGYDLSASTFSPDGRVFQVEYAMKAVENSSTAIGIRCKDGVVFGVEKLVLSKLYEEGSNKRLFNVDRHVGMAVAGLLADARSLADIAREEASNFRSNFGYNIPLKHLADRVAMYVHAYTLYSAVRPFGCSFMLGSYSVNDGAQLYMIDPSGVSYGYWGCAIGKARQAAKTEIEKLQMKEMTCRDIVKEVAKIIYIVHDEVKDKAFELELSWVGELTNGRHEIVPKDIREEAEKYAKESLKEEDESDDDNM,结果,2,ProtParam tool,ProtParam computes various physico-chemical properties that can be deduced from a protein sequence. No additional information is required about the protein under consideration。,/tools/protparam.html,理化性质预测软件,可预测参数,ProtParam is a tool which allows the computation of various physical and chemical parameters for a given protein stored in Swiss-Prot or TrEMBL or for a user entered sequence. The computed parameters include the molecular weight, theoretical pI, amino acid composition, atomic composition, extinction coefficient, estimated half-life, instability index, aliphatic index and grand average of hydropathicity (GRAVY) 。 分子量、等电位点、氨基酸组成、原子组成、消光系数、估计半衰期、不稳定指数、脂肪指数、总平均亲水性,输入序列:NP_002779,结果,结果,蛋白质的鉴定,在对未知蛋白质进行理化性质分析之后,一般就可以对它进行一般性的鉴定,这样可以从性质上对蛋白质属于什么蛋白质作出一个判断。 相应的工具软件通过输入未知蛋白质的氨基酸组成测量值与数据库中蛋白质的氨基酸组成的理论值相比较预测蛋白质。通过比较每个蛋白质会得到一个分值,这个分值表示未知蛋白质与已知蛋白质之间的差异程度。 同时鉴定中还可以掺入pI、相对分子质量、物种以及关键词等因素以获得更好的结果。,3,AACompIdent tool,/tools/aacomp/,蛋白质鉴定软件,About,AACompIdent is a tool which allows the identification of a protein from its amino acid composition . It searches the Swiss-Prot and / or TrEMBL databases for proteins, whose amino acid compositions are closest to the amino acid composition given. AACompIdent是一种工具,它可以从蛋白质的氨基酸组成来鉴定蛋白质 。它搜索Swiss-Prot 和/或 TrEMBL,找到与给定蛋白质具有最接近氨基酸组成的蛋白质。,AAComIdent是通过氨基酸组成来鉴定未知蛋白质的工具。 这个程序是通过将未知蛋白质的氨基酸组成测量值与数据库中蛋白质的氨基酸组成的理论值相比较预测蛋白质。 通过比较每个蛋白质会得到一个分值,这个分值表示未知蛋白质与已知蛋白质之间的差异程度。 然后击中的蛋白质通过分数的高低进行排列显示,同时鉴定中还可以掺入pI、相对分子量、物种以及关键词等因素以获得更好的结果。,输入的数据,1,Amino acid composition of the protein to identify. 2,A name for this protein, so that you can recognize it later in the results. 3,The pI and Mw of that protein, if known, as well as error ranges that reflect the accuracy of these estimates. 4,The species or group of species for which you would like to perform the search (example: HOMO SAPIENS or MAMMALIA). This will produce the list of proteins from this species, as well as a list of proteins independently of species. You may also just specify ALL for all Swiss-Prot / TrEMBL entries; If in doubt about the search term to use, consult the Swiss-Prot list of species. 5,For scan in Swiss-Prot only: the keyword for which you would like to perform the search (example: ZINC-FINGER). This will produce the list of proteins matching this keyword. You may also just specify ALL for all Swiss-Prot entries; If in doubt about the exact keyword to use, consult the list of keywords used in Swiss-Prot. 6,Amino acid composition of a known protein, obtained in the same run as the amino acid composition of the unknown protein. This is for calibration; if you do not have a calibration protein, leave NULL. 7,The Swiss-Prot identifier (ID) of the calibration protein (example: ALBU_HUMAN). 8,Your e-mail address. The search results will be mailed back to you automatically (this should take about 15 minutes).,AACompIdent tool 输入界面,结果,4,信号肽预测工具,线粒体蛋白质的定向转运 引自Molecular Biology of the Cell. 4th ed. 2002,信号肽(signal peptide),是引导新合成肽链转移到内质网上的一段多肽,位于新合成肽链的N端,一般1630个氨基酸残基,含有6-15个带正电荷的非极性氨基酸,由于信号肽又是引导肽链进入内质网腔的一段序列,又称开始转移序列(start transfer sequence)。,真核生物基因的一般结构示意图,SignalP信号肽预测工具,http:/www.cbs.dtu.dk/services/SignalP/,序列数据,/uniprot/Q9BS26.fasta Q9BS26|TXND4_HUMAN Thioredoxin domain-containing protein 4 - Homo sapiens (Human). MHPAVFLSLPDLRCSLLLLVTWVFTPVTTEITSLDTENIDEILNNADVALVNFYADWCRFSQMLHPIFEEASDVIKEEFPNENQVVFARVDCDQHSDIAQRYRISKYPTLKLFRNGMMMKREYRGQRSVKALADYIRQQKSDPIQEIRDLAEITTLDRSKRNIIGYFEQKDSDNYRVFERVANILHDDCAFLSAFGDVSKPERYSGDNIIYKPPGHSAPDMVYLGAMTNFDVTYNWIQDKCVPLVREITFENGEELTEEGLPFLILFHMKEDTESLEIFQNEVARQLISEKGTINFLHADCDKFRHPLLHIQKTPADCPVIAIDSFRHMYVFGDFKDVLIPGKLKQFVFDLHSGKLHREFHHGPDPTDTAPGEQAQDVASSPPESSFQKLAPSEYRYTLLRDRDEL,图形显示,data,序列NP_002779,gi|4506183|ref|NP_002779.1| proteasome alpha 3 subunit isoform 1 Homo sapiens MSSIGTGYDLSASTFSPDGRVFQVEYAMKAVENSSTAIGIRCKDGVVFGVEKLVLSKLYEEGSNKRLFNVDRHVGMAVAGLLADARSLADIAREEASNFRSNFGYNIPLKHLADRVAMYVHAYTLYSAVRPFGCSFMLGSYSVNDGAQLYMIDPSGVSYGYWGCAIGKARQAAKTEIEKLQMKEMTCRDIVKEVAKIIYIVHDEVKDKAFELELSWVGELTNGRHEIVPKDIREEAEKYAKESLKEEDESDDDNM,无信号肽,5,跨模结构分析,跨膜结构一般在蛋白质结构中序列的相似性不大,但结构却极其相似,因此在序列搜索中可能没有很显著的结果,所以常用的BLAST之类的相似性或者同源性搜索就无效。,G蛋白耦联型受体为7次跨膜蛋白,TMpred,/software/TMPRED_form.html,算法简介,The TMpred program makes a prediction of membrane-spanning regions and their orientation. The algorithm is based on the statistical analysis of TMbase, a database of naturally occuring transmembrane proteins. The prediction is made using a combination of several weight-matrices for scoring 。 TMpred程序预测跨膜区和它们的方向。该算法是基于对TMbase的统计分析, TMbase是一个自然发生的跨膜蛋白数据库。作出的预测是通过几个权重计分矩阵的结合得到的。,序列,gi|4506183|ref|NP_002779.1| proteasome alpha 3 subunit isoform 1 Homo sapiens MSSIGTGYDLSASTFSPDGRVFQVEYAMKAVENSSTAIGIRCKDGVVFGVEKLVLSKLYEEGSNKRLFNV DRHVGMAVAGLLADARSLADIAREEASNFRSNFGYNIPLKHLADRVAMYVHAYTLYSAVRPFGCSFMLGS YSVNDGAQLYMIDPSGVSYGYWGCAIGKARQAAKTEIEKLQMKEMTCRDIVKEVAKIIYIVHDEVKDKAF ELELSWVGELTNGRHEIVPKDIREEAEKYAKESLKEEDESDDDNM,结果,6,卷曲螺旋预测,卷曲螺旋是控制蛋白质寡聚化的元件 这种结构中的两个螺旋通过其疏水性界面相互缠绕在一起形成一个十分稳定的结构 /software/COILS_form.html,7,糖基化位点预测,http:/www.cbs.dtu.dk/services/NetNGlyc/ The NetNglyc server predicts N-Glycosylation sites in human proteins using artificial neural networks that examine the sequence context of Asn-Xaa-Ser/Thr sequons.,二、蛋白质结构预测,蛋白质结构预测问题 序列结构功能,.-Gly-Ala-Glu-Phe-.,FUNCTION,结构预测问题,.-Gly-Ala-Glu-Phe-.,FUNCTION,解决方法,.-Gly-Ala-Glu-Phe-.,FUNCTION,寻找一种从蛋白质的氨基酸线性序列到蛋白质所有原子三维坐标的一种映射,蛋白质序列: 二级结构,二级结构预测,二级结构预测,1)二级结构预测概述 2)蛋白质二级结构预测方法 (1)经验参数法 (2) GOR方法 (3) Lim方法 (4) 同源分析法 (5) 人工神经网络方法 3)利用进化信息预测蛋白质的二级结构,1)二级结构预测概述,蛋白质 序列:,二级结构:,QLMGERIRARRKKLK, STHHHHHHHHHHHHT,1)蛋白质的二级结构预测的基本依据是:每一段相邻的氨基酸残基具有形成一定二级结构的倾向。 2)二级结构预测问题是模式分类问题。 3)二级结构预测的目标:判断每一段中心的残基是否处于螺旋、折叠、转角(或其它状态)之一的二级结构态,即三态。,预测方法,预测主要有两大类方法: (1)理论分析方法 通过理论计算(如分子力学、分子动力学计算)进行结构预测。 (2)统计的方法(模式识别或模式分类) 对已知结构的蛋白质进行统计分析,建立序列到结构的映射模型,进而对未知结构的蛋白质根据映射模型直接从氨基酸序列预测结构。,预测方法发展,二级结构预测的方法大体分为三代: 第一代是基于单个氨基酸残基统计分析:从有限的数据集中提取各种残基形成特定二级结构的倾向,以此作为二级结构预测的依据。 第二代预测方法是基于氨基酸片段的统计分析:统计的对象是氨基酸片段;片段的长度通常为11-21;片段体现了中心残基所处的环境;在预测中心残基的二级结构时,以残基在特定环境形成特定二级结构的倾向作为预测依据 。,预测方法发展,第一代和第二代预测方法对三态预测的准确率都小于70%,而对折叠预测的准确率仅为2848%,主要原因是只利用了局部信息。 第三代方法(考虑多条序列):运用长程信息和蛋白质序列的进化信息;准确度有了比较大的提高。,2)蛋白质二级结构预测方法,(1)经验参数法 蛋白质二级结构的组成规律性比较强 三种基本二级结构平均占氨基酸残基的85% 各种二级结构非均匀地分布在蛋白质中,可供参考的一些原则,有些蛋白质中含有大量的螺旋: 如血红蛋白和肌红蛋白 而一些蛋白质中则不含或者仅含很少的螺旋: 如铁氧蛋白 有些蛋白质的二级结构以折叠为主: 如免疫球蛋白,可供参考的一些原则,每种氨基酸出现在各种二级结构中倾向或者频率是不同的,例如: Glu主要出现在螺旋中 Asp和Gly主要分布在转角中 Pro也常出现在转角中,但是绝不会出现在螺旋中。 可以根据每种氨基酸残基形成二级结构的倾向性或者统计规律进行二级结构预测。,ChouFasman方法,介绍一种Chou 和Fasman在70年代提出来一种基于单个氨基酸残基统计的经验预测方法。 通过统计分析,获得每个残基出现于特定二级结构构象的倾向性因子,进而利用这些倾向性因子预测蛋白质的二级结构。,公式,一个氨基酸残基的构象倾向性因子定义为 Pi = Ai / Ti (i= ,c, t) 式中下标i表示构象态:如螺旋、折叠、无规卷曲、转角等; Ti是所有被统计残基处于构象态i的比例; Ai是A残基处于构象态i 的比例; Pi大于1.0表示该残基倾向于形成二级结构构象i,小于1.0则表示倾向于形成其它构象。,例,数据库1000个残基,300个处于,其中残基A有100个,这100个残基中处于的有75个,则A对的倾向性因子,课堂练习,假定数据库中有1830个残基, 780个处于螺旋态,1050个处于非螺旋态,库中共有390个丙氨酸(A),有240个A处于螺旋态,其余150个 A 处于非螺旋态。计算丙氨酸的的P值。,倾向性因子乘以100。,发现关于二级结构的经验规则,延伸 成核区 延伸,基本思想是在序列中寻找规则二级结构的成核位点和终止位点。 扫描输入的氨基酸序列,利用一组规则发现可能成为特定二级结构成核区域的短序列,然后对于成核区域进行扩展,不断扩大成核区域,直到倾向性因子小于1.0为止。,(i)螺旋规则,延伸 螺旋核 延伸,1,沿蛋白质序列寻找螺旋核。 相邻的6个残基中如果有至少4个残基倾向于形成螺旋,则认为是螺旋核。 2,从螺旋核向两端延伸 直至四肽片段的螺旋倾向性因子的平均值 1.03,则预测为螺旋。,(ii)折叠规则,相邻6个残基中若有4个倾向于形成折叠,则认为是折叠核。折叠核向两端延伸直至4个残基的平均折叠倾向性因子P1.05,则预测为折叠。,延伸 折叠核 延伸,(iii)转角规则。,(2) GOR方法,是一种基于信息论和贝叶斯统计学的方法 GOR将蛋白质序列当作一连串的信息值来处理 GOR方法不仅考虑被预测位置本身氨基酸残基种类的影响,而且考虑相邻残基种类对该位置构象的影响,序列窗口 中心残基,窗口中各个残基对中心残基二级结构的支持程度,(3)Lim方法立体化学方法,氨基酸的理化性质对二级结构影响较大 在进行结构预测时考虑氨基酸残基的物理化学性质,如疏水性、极性、侧链基团的大小等, 可根据残基各方面的性质及残基之间的组合预测可能形成的二级结构 “疏水性”是氨基酸的一种重要性质,疏水性的氨基酸倾向于远离周围水分子,将自己包埋进蛋白质的内部。,螺旋的形成规律,在一段序列中发现第i、i+3、i+4位(如1、4、5)是疏水残基时,这一片段就被预测为螺旋。 当发现第i、i+1、i+4位(如7,8,11)为疏水残基时,这一片段也被预测为螺旋。,对于折叠的形成规律:,对于折叠,也存在着一些特征的亲疏水残基间隔模式,埋藏的折叠通常由连续的疏水残基组成,一侧暴露的折叠则通常具有亲水-疏水的两残基重复模式。 原则上,通过在序列中搜寻特殊的亲疏水残基间隔模式,就可以预测螺旋和折叠。,(4) 同源分析法,将待预测的片段与数据库中已知二级结构的片段进行相似性比较,利用打分矩阵计算出相似性得分,根据相似性得分以及数据库中的构象态,构建出待预测片段的二级结构。 该方法对数据库中同源序列的存在非常敏感,若数据库中有相似性大于30%的序列,则预测准确率可大大上升。 将待预测二级结构的蛋白质U与多个同源序列进行多重比对,对于U的每个残基位置,其构象态由多个同源序列对应位置的构象态决定,或取出现次数最多的构象态,或对各种可能的构象态给出得分值。,(5) 人工神经网络方法,(6) 综合方法,综合方法不仅包括各种预测方法的综合,而且也包括结构实验结果、序列对比结果、蛋白质结构分类预测结果等信息的综合。 多个程序同时预测,综合评判得出一致结果 序列比对与二级结构预测 双重预测 首先预测蛋白质的结构类型 然后再预测二级结构,3)利用进化信息预测蛋白质的二级结构,蛋白质序列家

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论