(完整版)生物信息学复习题及答案(陶士珩)_第1页
(完整版)生物信息学复习题及答案(陶士珩)_第2页
(完整版)生物信息学复习题及答案(陶士珩)_第3页
(完整版)生物信息学复习题及答案(陶士珩)_第4页
(完整版)生物信息学复习题及答案(陶士珩)_第5页
已阅读5页,还剩5页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、生物信息学复习题一、名词解释生物信息学,二级数据库,FASTA序列格式,genbank序列格式,EntreZ , BLAST 查询序列(query),打分矩阵(SCOri ng matrix ),空位(gap),空位罚分,E 值, 低复杂度区域,点矩阵( dot matrix ),多序列比对,分子钟,系统发育(phylOgeny ),进化树的二歧分叉结构, 直系同源, 旁系同源, 外类群,有根树, 除权配对算法(UPGM)邻接法构树,最大简约法构树,最大似然法构树,一致 树(COnSenSUS tree),bootstrap ,开放阅读框(ORF,密码子偏性(codon bias), 基因预测

2、的从头分析法,结构域(doma in),超家族,模体(motif),序列表谱(profile ),PAM矩阵,BLOSUMPSI-BLAST, RefSeq, PDB数据库,GenPep, 折叠子, TrEMBL,MMDBSCOP,PROSITE,Gene Ontology ConSortium ,表谱( profile )。二、问答题1)生物信息学与计算生物学有什么区别与联系?2)试述生物信息学研究的基本方法。3)试述生物学与生物信息学的相互关系。4)美国国家生物技术信息中心(NCBl)的主要工作是什么?请列举 3个以上NCBl 维护的数据库。5)序列的相似性与同源性有什么区别与联系?6)B

3、LAST套件的 blastn、blastp、blastx、tblastn 和 tblastx 子工具的用途 什么?7)简述BLAST搜索的算法。8)什么是物种的标记序列?9)什么是多序列比对过程的三个步骤?10)简述构建进化树的步骤。11)简述除权配对法(UPGMlA的算法思想。12)简述邻接法(NJ的算法思想。13)简述最大简约法(MP的算法思想。14)简述最大似然法(ML的算法思想。15)UPGM构树法不精确的原因是什么?16) 在MEGA软件中,提供了多种碱基替换距离模型,试列举其中2种,解释其 含义。17)试述DNA序列分析的流程及代表性分析工具。18)如何用BLAST发现新基因?19

4、)试述SCOPS白质分类方案。20)试述SWISS-PRO中的数据来源。21)TrEMBL哪两个部分?22)试述 PSI-BLAST 搜索的 5个步骤。三、操作与计算题1)如何获取访问号为 U49845的ge nba nk文件?解释如下gen ba nk文件 的LOCUSt提供的信息:LOCUS SCU49845 5028 bp DNAlinear PLN21-JUN-19992)利用 EntreZ 检索系统,对核酸数据搜索,输入如下信息,将获得什么结果:AF114696:AF114714ACCN3)相比使用BLAST套件搜索数据库,BLAST2工具在结果呈现上有什么 优点?4) MEGA如何

5、将其它多序列比对格式文件转化为MEGE格式的多序列比 对文件?5)什么简约信息位点Pi ?6)以下软件的主要用途是什么?RePeatMasker, CpGPlot, SPIiCe View, Genscan, ORF finder, n eural n etwork promoter PrediCt ion.7)为下面的序列比对确定比对得分:匹配得分 =+1 ,失配得分=0 ,空 位得分=-1。TGTACGGCTATATC - -CGCCT- TA8) 用UPGM重建系统发生树,距离矩阵如下:物种ABCDB9C811D12J'10E15181359)画出4个物种的3棵不同的无根树.这4

6、个物种在某位置上的核苷酸分别是T,T,C和C,为每个内部节点推断的祖先序列标出最可能的候 选核苷酸,3棵可能的无根树中有几棵是一样简约的(因为他们有最 小替换数)?有几棵树的替换树是2?有大于2个替换的树吗?10)如何将所研究的蛋白质与其他相关蛋白质做结构比对。答案部分一、名词解释:生物信息学: 研究大量生物数据复杂关系的学科,其特征是多学科交叉,以互 联网为媒介,数据库为载体。利用数学知识建立各种数学模型;利用计算机为工 具对实验所得大量生物学数据进行储存、检索、处理及分析,并以生物学知识对 结果进行解释。二级数据库:在一级数据库、实验数据和理论分析的基础上针对特定目标衍生而 来,是对生物学

7、知识和信息的进一步的整理。P11 ,第2段。FASTAff列格式:是将DNA或者蛋白质序列表示为一个带有一些标记的核苷酸或 者氨基酸字符串,大于号( )表示一个新文件的开始,其他无特殊要求。 genbank序列格式:是GenBank数据库的基本信息单位,是最为广泛的生物信息 学序列格式之一。该文件格式按域划分为4个部分:第一部分包含整个记录的信 息(描述符);第二部分包含注释;第三部分是引文区,提供了这个记录的科学 依据;第四部分是核苷酸序列本身,以“ ”结尾。P13,第2段。EntreZ检索系统:是NCBl开发的核心检索系统,集成了 NCBl的各种数据库, 具有链接的数据库多,使用方便,能够

8、进行交叉索引等特点。P83-85。BLAST基本局部比对搜索工具,用于相似性搜索的工具,对需要进行检索的序 列与数据库中的每个序列做相似性比较。P94查询序列(query Sequence):也称被检索序列,用来在数据库中检索并进行相 似性比较的序列。P9 8,第1段。打分矩阵( Scoring matrix ):在相似性检索中对序列两两比对的质量评估方法。 包括基于理论(如考虑核酸和氨基酸之间的类似性)和实际进化距离(如PAM)两类方法。P29,第2段。空位( gap): 在序列比对时,由于序列长度不同,需要插入一个或几个位点以 取得最佳比对结果, 这样在其中一序列上产生中断现象, 这些中断

9、的位点称为空 位。P29,第2段。空位罚分 :空位罚分是为了补偿插入和缺失对序列相似性的影响, 序列中的空位 的引入不代表真正的进化事件, 所以要对其进行罚分, 空位罚分的多少直接影响 对比的结果。P37,倒数第2段。E值:衡量序列之间相似性是否显著的期望值。E值大小说明了可以找到与查询 序列(query )相匹配的随机或无关序列的概率,E值越接近零,越不可能找到其他匹配序列,E值越小意味着序列的相似性偶然发生的机会越小,也即相似性 越能反映真实的生物学意义。 P95低复杂度区域:BLAST搜索的过滤选项。指序列中包含的重复度高的区域,如PoIy(A)O P100,第一段。点矩阵(dot ma

10、trix ):构建一个二维矩阵,其 X轴是一条序列,Y轴是另一个 序列,然后在2个序列相同碱基的对应位置(X, y)加点,如果两条序列完全相 同则会形成一条主对角线, 如果两条序列相似则会出现一条或者几条直线; 如果 完全没有相似性则不能连成直线。P39-41 o多序列比对: 通过序列的相似性检索得到许多相似性序列, 将这些序列做一个总 体的比对,以观察它们在结构上的异同,来回答大量的生物学问题。P48,需要概括。分子钟:认为分子进化速率是恒定的或者几乎恒定的假说, 从而可以通过分子进 化推断出物种起源的时间。 P112-113系统发育分析: 通过一组相关的基因或者蛋白质的多序列比对或其他性状

11、, 可以 研究推断不同物种或基因之间的进化关系。P112,第一段。进化树的二歧分叉结构: 指在进化树上任何一个分支节点, 一个父分支都只能被 分成两个子分支。P113,最后一段。系统发育图: P114直系同源: 指由于物种形成事件来自一个共同祖先的不同物种中的同源序列, 具 有相似或不同的功能。 P28, P146旁系(并系)同源: 指同一个物种中具有共同祖先,通过基因重复产生的一组基 因,这些基因在功能上的可能发生了改变。P28, P147外类群:是进化树中处于一组被分析物种之外的, 具有相近亲缘关系的物种。 P120 有根树: 能够确定所有分析物种的共同祖先的进化树。 P113除权配对算法

12、(UPGMA:最初,每个序列归为一类,然后找到距离最近的两类 将其归为一类,定义为一个节点,重复这个过程,直到所有的聚类被加入,最终 产生树根。 P119邻接法( neighbor-joining method ) :是一种不仅仅计算两两比对距离,还对 整个树的长度进行最小化,从而对树的拓扑结构进行限制,能够克服UPGM算法 要求进化速率保持恒定的缺陷。 P118。最大简约法(MP :在一系列能够解释序列差异的的进化树中找到具有最少核酸或氨基酸替换的进化树。 P120最大似然法(ML :它对每个可能的进化位点分配一个概率, 然后综合所有位点, 找到概率最大的进化树。 最大似然法允许采用不同的进

13、化模型对变异进行分析评 估,并在此基础上构建系统发育树。 P122一 致树( consensus tree ) :在同一算法中产生多个最优树,合并这些最优树得 到的树即一致树。 P121自举法检验( Bootstrap ): 放回式抽样统计法。通过对数据集多次重复取样, 构建多个进化树,用来检查给定树的分枝可信度。 P122开放阅读框(ORF :开放阅读框是基因序列的一部分,包含一段可以编码蛋白 的碱基序列。 P131密码子偏好性( codon bias ): 氨基酸的同义密码子的使用频率与相应的同功 tRNA的水平相一致,大多数高效表达的基因仅使用那些含量高的同功tRNA所对应的密码子,这种

14、效应称为密码子偏好性。 P133基因预测的从头分析: 依据综合利用基因的特征, 如剪接位点, 内含子与外显子 边界,调控区,预测基因组序列中包含的基因。 P134-145简约信息位点:指基于DNA或蛋白质序列,利用最大简约法构建系统发育树 时,如果每个位点的状态至少存在两种,每种状态至少出现两次的位点。其它位点为都是非简约性信息位点。P121,第2行结构域(domain):保守的结构单元,包含独特的二级结构组合和疏水内核, 可能单独存在,也可能与其他结构域组合。相同功能的同源结构域具有序 列的相似性。 P158模体(motif):短的保守的多肽段, 含有相同模体的蛋白质不一定是同源的,一般10

15、-20个残基。P161,最后一行PAM矩阵:PAM指可接受突变百分率。一个氨基酸在进化中变成另一种氨基 酸的可能性,通过这种可能性可以鉴定蛋白质之间的相似性,并产生蛋白 质之间的比对。一个 PAM单位是蛋白质序列平均发生1%的替代量需要的进化时间。 P30-31BLOSUMg阵:模块替代矩阵。矩阵中的每个位点的分值来自蛋白比对的局部块 中的替代频率的观察。每个矩阵适合特定的进化距离。例如,在BLoSUM6矩阵中,比对的分值来自不超过 62%一致率的一组序列。 P34折叠子( Fold): 在两个或更多的蛋白质中具有相似二级结构的大区域,这些大 区域具有特定的空间取向。 P162TrEMBL是与

16、SWISS-PRO相关的一个数据库。包含从EMBL核酸数据库中根据编 码序列(CDS)翻译而得到的蛋白质序列,并且这些序列尚未集成到SWISS-PROT数据库中。 P21PDB( PrOtein Data Bank) : PDB中收录了大量通过实验(X射线晶体衍射,核磁 共振NMR测定的生物大分子的三维结构,记录有原子坐标、配基的化学结构和 晶体结构的描述等。PDB数据库的访问号由一个数字和三个字母组成 (如,4HHB, 同时支持关键词搜索,还可以 FASTA程序进行搜索。P22MMDB(MOlecular Modeling DatabaSe):是(NCBl)所开发的生物信息数据库集 成系统

17、Entrez 的一个部分,数据库的内容包括来自于实验的生物大分子结构数 据。与PDB相比,对于数据库中的每一个生物大分子结构,MMD具有许多附加的信息,如分子的生物学功能、产生功能的机制、分子的进化历史等 ,还提供 生物大分子三维结构模型显示、结构分析和结构比较工具。 ?SCoP数据库:提供关于已知结构的蛋白质之间结构和进化关系的详细描述,包 括蛋白质结构数据库PDB中的所有条目。SCOP数据库除了提供蛋白质结构和进 化关系信息外,对于每一个蛋白质还包括下述信息:到PDB的连接,序列,参考文献,结构的图像等。 可以按结构和进化关系对蛋白质分类, 分类结果是一个具 有层次结构的树,其主要的层次依

18、次是类(class)、折叠子(fold)、超家族(SuPer family )、家族(family )、单个PDBS白结构记录。P23PROSITE是蛋白质家族和结构域数据库,包含具有生物学意义的位点、模式、 可帮助识别蛋白质家族的统计特征。PROSITE中涉及的序列模式包括酶的催化 位点、配体结合位点、与金属离子结合的残基、二硫键的半胱氨酸、与小分子或 其它蛋白质结合的区域等;PROSlTE还包括根据多序列比对而构建的序列统计特 征,能更敏感地发现一个序列是否具有相应的特征。 P22RefSeq:给出了对应于基因和蛋白质的索引号码,对应于最稳定、最被人承认的Genbank序列。?PSI-BL

19、AST位点特异性迭代比对。是一种专门化的的比对,通过调节序列打分 矩阵( scoring matrix 、探测远缘相关的蛋白。 P97GeneOntology 协会:编辑一组动态的、可控的基因产物不同方面性质的字汇的 协会。 从 3个方面描述基因产物的性质, 即,分子功能, 生物过程, 细胞区室。 表谱(PSSM:指一张基于多序列比对的打分表,表示一个蛋白质家族,可以用 来搜索序列数据库。 P97比较基因组学: P148二、问答题1绪论1、生物信息学的发展经历了那几个阶段2、生物信息学步入后基因组时代后,其发展方向有哪几个方面。1、请列举 3个以上 Entrez 系统可以检索的数据库。答: P

20、832、序列的相似性与同源性有什么区别与联系? 答:相似性是指序列之间相关的一种量度, 两序列的的相似性可以基于序列的一 致性的百分比; 而同源性是指序列所代表的物种具有共同的祖先, 强调进化上的 亲缘关系。 P1473)BLAST套件的 blastn、blastp、blastx、tblastn 和 tblastx 子工具的用途 什么?答: blastn 是将给定的核酸序列与核酸数据库中的序列进行比较; Blastp 是使 用蛋白质序列与蛋白质数据库中的序列进行比较, 可以寻找较远的关系; Blastx 将给定的核酸序列按照六种阅读框架将其翻译成蛋白质与蛋白质数据库中的序 列进行比对,对分析新

21、序列和 EST很有用;TbIaStn将给定的氨基酸序列与核酸 数据库中的序列 (双链) 按不同的阅读框进行比对, 对于寻找数据库中序列没有 标注的新编码区很有用;TbIaStX只在特殊情况下使用,它将DNA被检索的序列 和核酸序列数据库中的序列按不同的阅读框全部翻译成蛋白质序列, 然后进行蛋 白质序列比对。 P974)简述BLAST搜索的算法思想。答:BLAST是一种局部最优比对搜索算法,将所查询的序列打断成许多小序列片 段,然后小序列逐步与数据库中的序列进行比对, 这些小片段被叫做字” word”; 当一定长度的的字(W与检索序列的比对达到一个指定的最低分(T)后,初始 比对就结束了; 一个

22、序列的匹配度由各部分匹配分数的总和决定, 获得高分的序 列叫做高分匹配片段(HSP ,程序将最好的HSP双向扩展进行比对,直到序列结 束或者不再具有生物学显著性,最后所得到的 序列是那些在整体上具有最高分 的序列,即,最高分匹配片段(MSP,这样,BLAST既保持了整体的运算速度, 也维持了比对的精度。 P955, 什么是物种的标记序列? 答:指物种特有的一段核苷酸序列。 可以通过相似性查询, 得到某一序列在数据 库中的某一物种中反复出现,且在其他物种中没有的明显相似的序列。6, 什么是多序列全局比对的累进算法? 答:第一,所有的序列之间逐一比对(双重比对, ;第二,生成一个系统树图, 将序列

23、按相似性大致分组; 第三, 使用系统树图作为引导, 产生出最终的多序列 比对结果。 P527, 简述构建进化树的步骤,每一步列举 1-2 种使用的软件或统计学方法。答:( 1,多序列比对: Clustal W( 2,校对比对结果: BIOEDIT( 3,建树: MEGA( 4,评估系统发育信号和进化树的牢固度:自举法( Bootstrap , P1148)简述除权配对法(UPGMA的算法思想。 答:通过两两比对聚类的方法进行,在开始时,每个序列分为一类,分别作为一 个树枝的生长点, 然后将最近的两序列合并, 从而定义出一个节点, 将这个过程 不断的重复,直到所有的序列都被加入,最后得到一棵进化

24、树。 P1199)简述邻接法(NJ)构树的算法思想。答:邻接法的思想不仅仅计算最小两两比对距离, 还对整个树的长度进行最小化, 从而对树的拓扑结构进行限制。 这种算法由一棵星状树开始, 所有的物种都从一 个中心节点出发,然后通过计算最小分支长度的和相继寻找到近邻的两个序列, 每一轮过程中考虑所有可能的序列对, 把能使树的整个分支长度最小的序列对一 组,从而产生新的距离矩阵,直到寻找所有的近邻序列。 P11710)简述最大简约法(MP的算法思想。P68 答:是一种基于离散特征的进化树算法。 生物演化应该遵循简约性原则, 所需变 异次数最少 (演化步数最少) 的演化树可能为最符合自然情况的系统树。

25、 在具体 的操作中,分为非加权最大简约分析(或称为同等加权)和加权最大简约分析, 后者是根据性状本身的演化规律(比如DNA不同位点进化速率不同)而对其进行 不同的加权处理。 P12011)简述最大似然法(ML的算法思想。P69 答:是一种基于离散特征的进化树算法。 该法首先选择一个合适的进化模型, 然 后对所有可能的进化树进行评估, 通过对每个进化位点的替代分配一个概率, 最 后找出概率最大的进化树。 P12212)UPGM构树法不精确的原因是什么? P69答:由个于UPGM假设在进化过程中所有核苷酸/氨基酸都有相同的变异率,也 就是存在着一个分子钟; 这种算法当所构建的进化树的序列进化速率明

26、显不一致 时,得到的进化树相对来说不准确的。 P119,倒数第2段,前4行。13)在MEGA软件中,提供了哪些碱基替换距离模型,试列举其中3种,解释其含义。答:碱基替换模型包括, No.of differences、p-distance、JukeS-Cantordistance、T ajima-Nei distance、KimUr 2-parameter distance、TamUra3-parameter distance 、TamUra-Nei distancep-distance :表示有差异的核苷酸位点在序列中所占比例,将有差异的核苷酸 位点数除已经比对的总位点数就可以得到JUkeS-

27、Cantor :模型假设A T C G的替换速率是一致的,然后给出两个序列核 苷酸替换数的最大似然估计KimUra 2-parameter :模型考虑到了转换很颠换队多重击中的影响,但假设整个 序列中4钟核苷酸的频率是相同哈德在不同位点上的碱基替换频率是相同的14)列举5项DNA序列分析的内容及代表性分析工具。答:(1)寻找重复元件:RePeatMaSker(2) 同源性检索确定是否存在已知基因:BLAST n(3) 从头开始方法预测基因:Ge nscan(4)分析各种调控序列:TRES/DRAGoN PRoMoToR FlNDER(5)CPG 岛:CpGPlot P130 ,表格15)如何获

28、取访问号为U49845的gen ba nk文件?解释如下gen ba nk文件的LOCUS 行提供的信息:LOCUS SCU49845 5028 bp DNA Iinear PLN 21-JUN-1999答:(1)访问NCBl的Entrez检索系统,(2)选择核酸数据库,(3)输入U49845 序列访问号开始检索。第一项是LOCUSg称,前三个字母代表物种名第二项是序列长度第三项是序列分子类型第四项是分子为线性的第五项是GenBank分类码第六项是最后修订日期P13 16)利用EntreZ检索系统对核酸数据搜索,输入如下信息,将获得什么结果:AF114696:AF114714ACCN。P35答

29、:获得序列访问号 AF114696到AF114714之间的连续编号的序列17)MEGA如何将其它多序列比对格式文件转化为 MEG格式的多序列比对文件?答:(1)选择菜单 file ,(2)选择 TeXt File EditOr and FOrmat COVerter 工具,(3)调入需要转换的序列和相应的格式,(4)获得转换后的MEGA式的 文件并保存。18)为下面的序列比对确定比对得分:匹配得分 =+1 ,失配得分=0,空位得分 =-1 。TGTACGGCTATATC - -CGCCT -TA答:TT1GC0T-1A-1CC1GG1GC0CC1TT1A-1TT1AA1最后得分 1+0+(-1

30、 ) + (-1 ) +1+1+0+1+1 + (-1 ) +1+1=419)用UPGM重建系统发生树,距离矩阵如下:物种ABCDB9C811D12S'10TE1518135答:用NeWiCk格式表示的树图:(AC B)( DE)O 分析过程:(1)两条序列间的最小距离是dDE,所以物种D和E聚到一组,如下图(2) 计算新的距离矩阵,其中复合物种(DE替换D和E,如下表。其他物种 与新物种组之间的距离由它们与组中两个物种 (D和E)之间距离的平均值决定 如,d(DE a=12 (dAD+ck) =1/2(12+15)=13.5物种ABCB9C811DE13.5P 16.511.5第二次聚类在A和C之间,组成AC类。如下图,DEAC(AC)(DE)(3)将A和C合并,计算新的矩阵,如下表,最后一次聚类( ACB)将物种 B的分支点放在(AC和(DE的共同祖先之间。物种BACAC10DE16.512.520)画出4个物种的3棵不同的无根树.这4个物种在某位置上的核苷酸分别是 T,T,C和C,为每个内部节点推断的祖先序列,标出最可能的候选核苷酸.3棵可 能的无根树中有几棵是一样简约的(因为他们有最小替换数)?有几棵树的替换 树是2?,有大于2个替换的

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论