生物信息学题库_第1页
生物信息学题库_第2页
生物信息学题库_第3页
生物信息学题库_第4页
生物信息学题库_第5页
已阅读5页,还剩10页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

2/243.UTR的含义是(B)。A.编码区B.非编码区C.低复杂度区域D.开放阅读框44.motif的含义是(D)。A.基序B.跨叠克隆群C.碱基对D.结构域45.algorithm的含义是(B)。A.登录号B.算法C.比对D.类推46、RGP是(D)。A.在线人类孟德尔遗传数据B.国家核酸数据库C.人类基因组计划D.水稻基因组计划47、下列Fasta格式正确的是(B)。A.seq1:agcggatccagacgctgcgtttgctggctttgatgaaaactctaactaaacactcccttaB.>seq1agcggatccagacgctgcgtttgctggctttgatgaaaactctaactaaacactcccttaC.seq1:agcggatccagacgctgcgtttgctggctttgatgaaaactctaactaaacactcccttaD.>seq1agcggatccagacgctgcgtttgctggctttgatgaaaactctaactaaacactccctta48、如果我们试图做蛋白质亚细胞定位分析,应使用(D)。A.NDB数据库B.PDB数据库C.GenBank数据库D.SWISS-PROT数据库49、Bioinformatics的含义是(A)。A.生物信息学B.基因组学C.蛋白质组学D.表观遗传学50、GenBank中分类码PLN表示是(D)。A.哺乳类序列B.细菌序列C.噬菌体序列D.植物、真菌和藻类序列51、ortholog的含义是(A)。A.直系同源B.旁系同源C.直接进化D.间接进化52、从cDNA文库中获得的短序列是(D)。A.STSB.UTRC.CDSD.EST53、contig的含义是(B)。A.基序B.跨叠克隆群C.碱基对D.结构域54、TAIR(AtDB)数据库是(C)。A.线虫基因组B.果蝇基因组C.拟南芥数据库D.大肠杆菌基因组55、ORF的含义是(D)。A.调控区B.非编码C.低复杂度区域D.开放阅读框56、mRNA5′端有(A)结构。A.帽子B.尾巴C.帽子和尾巴D.多聚核苷酸57、利用中国知网文献数据库(中国知网)查找论文题目是“扩张蛋白家族蛋白序列分析”发表在期刊“生物信息学”2008年第7卷第3期上(C)。A.第3-5页B.第93-95页C.第193-195页D.第293-295页58、目前应用于基因芯片表达数据统计分析的主要方法是(C)。A.卡方检验B.相关分析C.聚类分析D.正态性分布检验59、SAGE的含义是(A)。A.基因表达连续分析B.聚丙烯酰胺凝胶电泳C.基因组分析D.双向电泳分析60、domain的含义是(D)。A.基序B.跨叠克隆群C.碱基对D.结构域61、mRNA3′端有(B)结构。A.帽子B.尾巴C.帽子和尾巴D.多聚胞嘧啶62、NCBI中人类无冗余基因数据库是(A)。A.UniGeneB.UniProC.UniRefD.URF63、alignment的含义是(C)。A.登录号B.算法C.比对D.类推64、Entrez使用几种逻辑运算符对检索关键词做最基本的限制?(C)A.1种B.2种C.3种D.4种65、微卫星标记是(C)。A.RFLPB.SNPC.SSRD.RAPD66、提交序列到GenBank中,使用的程序可以是(D)。A.EntrezB.SRSC.MedlineD.BankIt67、PDB是蛋白质的(B)。A.分类数据库B.结构数据库C.模体数据库D.结构域数据库68、限制性片段长度多态性标记是(A)。A.RFLPB.SNPC.SSRD.RAPD69、CDS的含义是(A)。A.编码区B.非编码区C.低复杂度区域D.非调控区70、构建进化树工具是(C)。A.BLASTB.ClustalWC.MegaD.GCG71、analogy的含义是(D)。A.登录号B.算法C.比对D.类推72、在真核生物中,一个基因cDNA的5′端起始密码子AUG的前后序列符合(A)规则。A.KozakB.AU…AGC.SDD.Poly(A)n73、将核酸序列按照6条链翻译成蛋白质序列后搜索蛋白质序列数据库使用的程序是(B)。A.blastpB.blastxC.tblastnD.tblastx74、利用PubMed文献数据查找论文“TransgenicplantsofPetuniahybridaharboringtheCYP2E1geneefficientlyremovebenzeneandtoluenepollutantsandimproveresistancetoformaldehyde”的第一作者是(D)。A.XiangTB.BaoLC.LiPD.ZhangD75、基本局部比对搜素工具是(C)。A.MegaB.ClustalWC.BLASTD.GCG76、被誉为“生物信息学之父”的科学家是(D)。A.DulbeccoB.SangerC.吴瑞D.林华安77、DDBJ的含义是(C)。A.美国国家生物信息中心B.欧洲分子生物学实验室C.日本DNA数据库D.中国基因组研究中心78、利用PubMed文献数据查找发表在“Nature,2012,487(7405):43-45”上论文题目(D)。A.Amapofthecis-regulatorysequencesinthemousegenomeB.ThehumanCSTcomplexisaterminatoroftelomeraseactivityC.Tumours:LesslactationmayexplaincancerriseD.Stemcells:asporadicsuperstate79、利用PubMed文献数据查找论文“Cancerepigenetics:frommechanismtotherapy”作者的单位是(C)。A.UniversityofCaliforniaB.UniversityofColumbiaC.UniversityofCambridgeD.UniversityofChicago80、单核苷酸标记是(A)。A.RFLPB.SNPC.SSRD.RAPD81、GenBank数据库的基本信息单位是(B)。A.FASTAB.GBFFC.GCGD.ASN.182、OMIM是(A)。A.在线人类孟德尔遗传数据库B.国家核酸数据库C.人类基因组计划D.水稻基因组计划83、多序列比对工具是(B)。A.BLASTB.ClustalWC.MegaD.GCG84、EMBL的含义是(B)。A.美国国家生物信息中心B.欧洲分子生物学实验室C.日本DNA数据库D.中国国家基因组研究中心85、accessionnumber的含义是(A)。A.登录号B.算法C.比对D.类推86、EST的含义是(A)。A.表达序列标签B.序列标签位点C.高通量基因组序列D.人工合成序列87、利用中国知网文献数据库(中国知网)查找论文题目是“黄瓜对不同温度逆境的抗性研究”作者的单位是(A)。A.天津市黄瓜研究所B.中国农业科学院C.中国科学院D.中国农业大学88、没有直接参与完成人类基因组计划的国家是(C)。A.英国B.中国C.俄罗斯D.德国89、Blast结果中HSP的含义是(D)。A.空位B.期望值C.过滤D.高分配对片段90、GenBank登录号为SCU49845的序列,其DNA产度是(D)。A.1028bpB.3028bpC.4028bpD.5028bp91、GenBank数据库中的登录号AAR19268是(A)。A.水稻的DNA序列B.水稻的蛋白质序列C.人类的DNA序列D.人类的蛋白质序列92、在真核生物的一个基因内含子两端,即外显子/内含子拼接边界处,其符合(B)规则。A.KozakB.AU…AGC.SDD.Poly(A)n93、蛋白质信号肽的预测工具有(D)。A.nnpredictB.PredictProteinC.SingalDD.SingalP94、basepair的含义是(C)。A.基序B.跨叠克隆群C.碱基对D.结构域95、Proteomics的含义是(C)。A.生物信息学B.基因组学C.蛋白质组学D.表观遗传学96、根据大量EST具有相互重叠的性质,通过计算机算法获得cDNA全长序列,这种克隆基因的方法是(B)。A.重叠克隆B.电子克隆C.基因步移D.基因重组97、隐马尔科夫模型的代号是(A)。A.HMMB.CDDC.HTGSD.GSS98、Entrez数据库中的剪贴板的容量是(A)。A.500条记录B.1000条记录C.5000条记录D.10000条记录99、GenBank是(B)。A.在线人类孟德尔遗传数据B.国际核酸数据库C.人类基因组计划D.水稻基因组计划100、利用中国知网文献数据库(中国知网)查找论文题目是“黄瓜无毛突变体叶片叶绿体超微结构与光合特性”第一作者是(A)。A.曹辰兴B.张松C.郭红芸D.郭延奎101、根据研究发现,人类基因组中真正编码蛋白质的区域仅占DNA序列的(B)。A.1-2%B.3-5%C.5-10%D.10-20%102、LCR的含义是(C)。A.编码区B.非编码区C.低复杂度区域D.开放阅读框103、如果我们试图做蛋白质亚细胞定位分析,应使用(D)。A.NDB数据库B.PDB数据库C.GenBank数据库D.SWISS-PROT数据库104、利用PubMed文献数据查找论文“Awhole-cellcomputationalmodelpredictsphenotypefromgenotype”发表在Cell期刊的(C)。A.第50卷第1期第389-391页B.第50卷第1期第389-401页C.第150卷第2期第389-401页D.第125卷第2期第389-391页105、蛋白质基序(motif)中[ST]的含义是(C)。A.氨基酸为STB.氨基酸为S和TC.氨基酸为S或TD.除掉S和T之外的任意氨基酸106、构建系统发生树,应使用(C)。A.BLASTB.FASTAC.UPGMAD.FTP107、PIR是(D)。A.核酸数据库B.mRNA数据库C.启动子数据库D.蛋白质数据库108、生物芯片分析中使用的聚类分析输出图形主要以下列哪种方式表现?(A)A.以彩色小方块阵列表示B.以蜂窝形状表示C.以黑白圆点表示D.以彩色线条表示109、以下哪一项不属于启动子研究范围?(A)A.CpG岛预测B.转录起始点预测C.糖基化修饰D.甲基化检测110、生物信息学主要是利用哪种工具实现对生命科学研究中生物信息的存储、检索和分析的?(A)A.计算机B.iPhoneC.人造卫星D.手机111、HTGS的含义是(C)。A.表达序列标签B.序列标签位C.高通量基因组序列D.人工合成序列112、STS的含义是(B)。A.表达序列标签B.序列标签位点C.高通量基因组序列D.人工合成序列113、利用中国知网文献数据库(中国知网)查找论文题目是“日光温室光温因子对黄瓜叶绿体超微结构及其功能的影响”发表的期刊是(B)。A.园艺学报B.应用生态学报C.生态学报D.遗传学报114、利用PubMed文献数据查找论文“Enhancingphytoremediationthroughtheuseoftransgenicsandendophytes”发表的期刊是(A)。A.NewPhytolB.GeneC.NatureD.PlantPhsiol115、HGP是(C)。A.在线人类孟德尔遗传数据B.国家核酸数据库C.人类基因组计划D.水稻基因组计划116、DNA中Tm值与(B)含量成正比。A.G+AB.G+CC.T+CD.A+T名词辨析(每题5分,共20分)1、基因与基因组:

Gene

基因:遗传功能的单位。它是一种DNA序列,在有些病毒中则是一种RNA序列,它编码功能性蛋白质或RNA分子。

Genome

基因组:染色体组,一个生物体、细胞器或病毒的整套基因;例如,细胞核基因组,叶绿体基因组,噬菌体基因组。

2、相似性与同源性:

所谓同源序列,简单地说,是指从某一共同祖先经趋异进化而形成的不同序列。同源性可以用来描述染色体—“同源染色体”、基因—“同源基因”和基因组的一个片断—“同源片断”必须指出,相似性(similarity)和同源性(homology)是两个完全不同的概念。相似性是指序列比对过程中用来描述检测序列和目标序列之间相同DNA碱基或氨基酸残基顺序所占比例的高低。相似性本身的含义,并不要求与进化起源是否同一、与亲缘关系的远近、甚至于结构与功能有什么联系。

3、CDS与cDNA:

cDNA序列:互补DNA序列,指的是mRNA为在逆转录酶的作用下将形成DNA的过程。CDS序列:编码序列,从起始密码子到终止密码子的所有序列。

4、数据库搜索和数据库查询:

数据库查询:对序列、结构以及各种二次数据库中的注释信息进行关键词匹配查找(又称数据库检索)。

数据库搜索:通过特定的序列相似性比对算法,找出核酸或蛋白质序列数据库中与检测序列具有一定程度相似性的序列。搜索对象不是数据库的注释信息,而是序列信息。是指生物种族的进化历史,亦即生物体在整个进化谱在研究\o"生物"生物进化和系统分类中,常用一种类似树状分支的图形来概括各种(类)生物之间的亲缘关系,这种树状分支的图形成为系统发育树(phylogenetictree)。生物信息学的大体定义是什么?其发展历程如何?利用应用数学、信息学、统计学和计算机科学的方法研究生物学的问题。目前的生物信息学基本上只是分子生物学与信息技术(尤其是互联网技术)的结合体。生物信息学的研究材料和结果就是各种各样的生物学数据,其研究工具是计算机,研究方法包括对生物学数据的搜索(收集和筛选)、处理(编辑、整理、管理和显示)及利用(计算、模拟)。目前主要的研究方向有:序列比对、基因识别、基因重组、蛋白质结构预测、基因表达、蛋白质反应的预测,以及建立进化模型。发展历程:20世纪50年代,生物信息学开始孕育。20世纪60年代,生物分子信息在概念上将计算生物学和计算机科学联系起来。20世纪70年代,生物信息学的真正开端。④20世纪70年代到80年代初期,出现了一系列著名的序列比较方法和生物信息分析方法。⑤20世纪80年代以后,出现一批生物信息服务机构和生物信息数据库。⑥20世纪90年代后,HGP促进生物信息学的迅速发展请论述生物信息学的研究内容有哪些?生物分子数据的收集与管理:①基因组数据库(EMBL、GenBank、DDBJ)②蛋白质序列数据库(SWTSS-PROT、PIR)③蛋白质结构数据库(PDB)数据库搜索及序列比较搜索同源序列在一定程度上就是通过序列比较寻找相似序列:①序列比较的一个基本操作就是比对(Alignment),即将两个序列的各个字符(代表核苷酸或者氨基酸残基)按照对应等同或者置换关系进行对比排列,其结果是两个序列共有的排列顺序,这是序列相似程度的一种定性描述。②多重序列比对研究的是多个序列的共性。序列的多重比对可用来搜索基因组序列的功能区域,也可用于研究一组蛋白质之间的进化关系。基因组序列分析:①遗传语言分析——天书②基因组结构分析③基因识别④基因功能注释⑤基因调控信息分析⑥基因组比较基因表达数据的分析与处理:基因表达数据分析是目前生物信息学研究的热点和重点。目前对基因表达数据的处理主要是进行聚类分析,将表达模式相似的基因聚为一类,在此基础上寻找相关基因,分析基因的功能。所用方法主要有:①相关分析方法②模式识别技术中的层次式聚类方法③人工智能中的自组织映射神经网络④主元分析方法5)蛋白质结构预测。蛋白质的生物功能由蛋白质的结构所决定,蛋白质结构预测成为了解蛋白质功能的重要途径。

蛋白质结构预测分为:(1)二级结构预测:在一定程度上二级结构的预测可以归结为模式识别问题。在二级结构预测方面主要方法有:立体化学方法、图论方法、统计方法、最邻近决策方法、基于规则的专家系统方法、分子动力学方法、人工神经网络方法。预测准确率超过70%的第一个软件是基于神经网络的PHD系统。(2)空间结构预测:在空间结构预测方面,比较成功的理论方法是同源模型法。该方法的依据是:相似序列的蛋白质倾向于折叠成相似的三维空间结构,运用同源模型方法可以完成所有蛋白质10-30%的空间结构预测工作。请叙述构建系统进化树的一般步骤。[1]序列选择:从那些可以输出FASTA格式的数据库中选择[2]多序列比对[3]替代模型的选择[4]生成树:方式:distance-based;character-based:maximumparsimony;character-andmodel-based:maximumlikelihood;character-andmodel-based:Bayesian基于距离的树生成软件:MEGA和PAUPMEGA应用算法:UPGMA,基于距离的算法。[5]结果评估:原则(一致性、效率、和鲁棒性);检测方法:最为常见的方法是引导检测的分析方法。引导检测法:简单地讲就是把序列的位点都重排,重排后的序列再用相同的办法构树,如果原来树的分枝在重排后构的树中也出现了,就给这个分枝打上一分,如果没出现就给0分,这样经过你给定的repetitions次(至少1000次)重排构树打分后,每个分枝就都得出分值,计算机会给你换算成bootstrap值。重排的序列有很多组合,值越小说明分枝的可信度越低,最好根据数据的情况选用不同的构树方法和模型。归纳前面所讲,下面几点可以帮助我们解释进化树:(1)从根节点到任何一个节点的惟一路径和方向代表了进化时间;(2)根是树中所有物种的共同祖先;(3)根节点上的物种我们认为比树中其他所有的物种分化更早。如果无法确定根节点的物种,就使用无根树进行分析。NCBI的Entrez检索包含了哪些方面的信息。Entrez是NCBI为用户提供整合的访问序列、定位、分类及结构数据的搜索和检索的系统,是一个用以整合NCBI数据库中信息的搜寻和检索的工具,包括核酸序列、蛋白质序列、蛋白质三维结构、基因组图谱和通过PubMed检索的MEDLINE。其中,Entrez可以整合检索的序列数据库包括GenBank、EMBI—DDBJ、RefSeq、PIR-International、PRF、Swiss—Prot和PDB等。Entrez有两个显著的特点:第一是对每个数据库中的记录都预先做相似性比较,产生一个列表,包括序列、结构和MEDLINE文献记录等信息;第二是对某个数据库的记录与其他数据库的相关记录做了链接,使对不同数据库的访问得以整合。所以Entrez是通过相近性和硬连接来提供集成的信息检索。Entrez可以用很广泛的文本方式搜索,比如作者名字、杂志名字、基因或蛋白名、物种、单一的检索号(如:accessionnumber、序列ID、PubMedID、MEDLNEUID)和其他的术语,因此,Entrez是一个强大的检索相关序列、结构和参考文献的信息检索工具。BLAST系列软件分别用哪些数据搜索何种数据库?真核基因结构注释包括哪些内容?相关的软件所依据的理论基础是什么?GENSCAN是美国麻省理工大学的ChrisBurge于1997年开发成功的人类(或脊椎动物)基因预测软件,它根据基因的整体结构进行基因预测,不依赖于已有的蛋白库,是一种"从头预测"软件;用于ORF识别。通过对特征序列(GT-AG)的分析进行直接的预测基因预测软件(NetGene2),内含子/外显子剪切位点识别。与相应的基因组序列比对,分析比对片段的分布位置(Spidey),用于mRNA剪切位点识别。选择性剪切数据库:ProSplicer。启动子结合位点分析:Cister。限制性酶切位点分析:NEBcutter。密码子使用偏好性分析:CodonW。请概述基因组注释的大体流程。(1)基因组注释(Genomeannotation)是利用生物信息学方法和工具,对基因组所有基因的生物学功能进行高通量注释,是当前功能基因组学研究的一个热点。基因组注释的研究内容包括基因识别和基因功能注释两个方面。基因识别的核心是确定全基因组序列中所有基因的确切位置。从基因组序列预测新基因,现阶段主要是3种方法的结合:(1)分析mRNA和EST数据以直接得到结果;(2)通过相似性比对从已知基因和蛋白质序列得到间接证据;(3)基于各种统计模型和算法从头预测。对预测出的基因进行高通量功能注释可以借助于以下方法,利用已知功能基因的注释信息为新基因注释:(1)序列数据库相似性搜索;(2)序列模体(Motif)搜索;(3)直系同源序列聚类分析(Clusteroforthologousgroup,COG).(2)基因组注释系统是MGAP的核心,整合了许多常用的基因识别和蛋白质功能预测软件,包括GeneMarks、IPRsearch、BLASTPGP和FASTA3等,以及多个数据库,如非冗余蛋白质序列数据库(Nonredundant,NR)、已知三维空间结构的蛋白质序列数据库(PDBSeq)、国际蛋白质资源信息系统(InterPro)和直系同源蛋白质家族数据库(Clusteroforthologousgroups,COG)等,编写了相应的模块进行自动操作,并把每一步注释结果导入数据库中。MGAP整合的一般模块,可以被其他任何一种微生物基因组直接使用。综合题(共60分)1•生物信息学分析的数据对象主要有哪几种?这些数据之间存在着什么关系?其研究重点主要落实在核酸和蛋白质两个方面,包括它们的序列、结构和功能。生物信息学以基因组DNA序列信息分析作为出发点,破译遗传语言,认识遗传信息的组织规律,辨别隐藏在DNA序列中的基因,掌握基因调控信息,对蛋白质空间结构进行模拟和预测,依据蛋白质结构和功能的关系进行药物分子设计。2•生物信息学的主要研究任务是什么?目前生物信息学的主要研究内容是什么?A.收集和管理生物分子数据;数据分析和挖掘;开发分析工具和实用软件:生物分子序列比较工具、基因识别工具、生物分子结构预测工具、基因表达数据分析工具。B.(1)生物分子数据的收集与管理;(2)数据库搜索及序列比较;(3)基因组序列分析;(4)基因表达数据的分析与处理;(5)蛋白质结构预测。5•在基因组序列分析方面,科学家关注哪些信息?就人类基因组而言,编码区域在人类基因组所占的比例不超过3%。其余97%是非编码序列。对于非编码序列,人们了解得比较少,尚不清楚其含义或功能。然而,非编码区域对于生命活动具有重要的意义。这部分序列主要包括内含子、简单重复序列、移动元件(mobileelement)及其遗留物、伪基因(pseudogene)等。6•掌握蛋白质结构有什么意义?为什么要进行蛋白质结构预测?(1)研究蛋白质的结构意义重大,分析蛋白质结构、功能及其关系是蛋白质组计划中的一个重要组成部分。研究蛋白质结构,有助于了解蛋白质的作用,了解蛋白质如何行使其生物功能,认识蛋白质与蛋白质(或其它分子)之间的相互作用,这无论是对于生物学还是对于医学和药学,都是非常重要的。(2)对于未知功能或者新发现的蛋白质分子,通过结构分析,可以进行功能注释,指导设计进行功能确认的生物学实验。通过分析蛋白质的结构,确认功能单位或者结构域,可以为遗传操作提供目标,为设计新的蛋白质或改造已有蛋白质提供可靠的依据,同时为新的药物分子设计提供合理的靶分子结构。7、简述分子生物学中的“中心法则”。“中心法则”的核心是什么?(1)DNA是遗传物质,是携带遗传信息的载体。信息从基因的核苷酸序列中被提取出,用来指导蛋白质合成的过程对地球上的所有生物都是相同的,分子生物学家称之为中心法则(centraldogma)。(2)“中心法则”的核心:DNA分子中的遗传信息转录(transcription)到RNA分子中(即RNA聚合酶以DNA为模板合成RNA),再由RNA翻译(translation)生成体内各种蛋白质,行使特定的生物功能。8、简要介绍GenBank中的DNA序列格式。答:GenBank数据库(包括NCBI核酸和蛋白质序列数据库)中条目格式如下:给出描述每一个序列的信息,包括文献参考、序列的功能信息、mRNA和编码区域的位置,以及重要突变的位置。这些序列信息以字段的形式进行组织,每一行最前端都有一个标识符。在某些条目中,标识符可能缩写成两个字母(例如RF代表reference),某些字段可能还有次级字段。计算机程序中的序列条目位于标识符“ORIGIN”和“//”之间。9、PCR引物设计的原则?答:引物与模板的序列要紧密互补。引物与引物之间避免形成稳定的二聚体或发夹结构。引物不能在模板的非目的位点引发DNA聚合反应(即错配)。引物的长度一般为15-30bp,常用的是18-24bp,但不应大于38。对引物的修饰一般是在5’端增加酶切位点。尽可能少的引物二聚体。引物序列的GC含量一般为40-60%。10、为什么要进行序列片段组装?在进行序列片段组装时会遇到哪些问题?大规模基因组测序得到待测序列的一系列序列片段,这些序列片段覆盖待测序列,序列片段之间也存在着相互覆盖或者重叠。遇到的问题:碱基标识错误;不知道片段的方向;存在重复区域;缺少覆盖。11、国际上有哪几个著名的核酸序列数据库?(1)欧洲分子生物学实验室的EMBL。(2)美国生物技术信息中心的GenBank。(3)日本遗传研究所的DDBJ12、生物信息学研究意义何在?答:1)认识生物本质:了解生物分子信息的组织和结构,破译基因组信息,阐明生物信息之间的关系。2)改变生物学的研究方式:变传统研究方式,引进现代信息学方法。3)在医学上的重要意义:为疾病的诊断和治疗提供依据,为设计新药提供依据。三、论述题(两个小题,共20分)1、简述人类基因组计划与生物信息学之间的相互促进关系。人类基因组计划(HumanGenomeProject,HGP)是美国在1990年提出实施的一项伟大的科学计划,与阿波罗登月计划、曼哈顿原子弹计划同称为人类自然科学史上的三大计划。自实施以来,该计划在世界各国引起了很大反响。在人类基因组计划中,人们准备用15年时间,投入30亿美元,完成人类全部24条染色体中3×109个碱基对(bp,basepair)的序列测定,其主要任务包括作图(遗传图谱、物理图谱的建立及转录图谱的绘制)、测序和基因识别,还包括模式生物(如大肠杆菌、酵母、线虫、小鼠等)基因组的作图和测序,以及信息系统的建立。随着人类基因组计划的提出和实施,实验数据和可利用信息急剧增加,人类基因组计划提供了以往不可想象的巨量的生物学信息资源。基因组信息的收集、储存、分发、分析显得越来越紧迫和重要,信息的管理和分析成为人类基因组计划实施过程中的一项重要工作,人类基因组计划向信息学提出了巨大的挑战。值得庆幸的是,人类基因组计划一开始就与计算机技术、信息高速公路同步发展,信息技术为生物信息学的发展提供了非常好的条件,为生物信息学的研究和应用提供了非常好的支撑。生物信息学与人类基因组计划紧密结合,互相渗透,生物信息学成为基因组计划不可分割的一部分。事实证明,人类基因组计划在生物信息学的支持下,前进步伐大大加快,已经提前完成计划,功能基因组研究也已经全面展开。而人类基因组计划反过来又大大促进了生物信息学的发展,HGP丰富了生物信息学的研究内容,促进生物信息学新思想、新方法的产生,生物信息学在最近10年迅速发展的历程证明了这一点。1、生物序列相似性搜索的blast程序blastn、blastp、blastx、Tblastn、Tblastx各自有何区别和用途?答:程序名检测序列数据库类型方法Blastp蛋白质蛋白质用检测序列蛋白质搜索蛋白质序列数据库Blastn核酸核酸用检测序列核酸搜索核酸序列数据库Blastx核酸蛋白质将核酸序列按6条链翻译成蛋白质序列后搜索蛋白质序列数据库Tblastn蛋白质核酸用检测序列蛋白质搜索由核酸序列数据库按6条链翻译成的蛋白质序列数据库Tblastx核酸核酸将核酸序列按6条链翻译成蛋白质序列后搜索由核酸序列数据库按6条链翻译成的蛋白质序列数据库2000年6月26日,被誉为生命"阿波罗计划"的人类基因组计划,经过美、英、日、法、德和中国科学家的艰苦努力,终于完成了工作草图,这是人类科学世上又一个里程碑式的事件。1977年Sanger研究小组完成了第一个噬菌体全基因组的测序,并发现内含子。1997年,国内第一个生物信息中心北京大学生物信息学中心成立,从此,我国生物信息学研究得到蓬勃发展。生物信息学可以理解为生物学(或生命科学)和信息学(或计算机科学与应用)的交叉学科。生物信息学所倡导的全球范围的资源共享将对整个自然科学,乃至整个人类发展产生深远的影响。“第三次技术革命基因组革命时代,目前它处于初级阶段,一场与工业革命和以计算机为基础的革命有相同影响力的变化正在开始。”生物信息学产生和迅猛发展的主要推动力来自于新一代测序等高通量技术在生命科学领域越来越广泛的应用。生物信息学:生物信息学是一门交叉科学,它包含了生物信息的获取、处理、存储、分发、分析和解释等在内的所有方面,它综合运用数学、计算机科学和生物学的各种工具,来阐明和理解大量数据所包含的生物学意义。根据数据库存储的具体内容可分为一级数据库和二级数据库两种类型。根据数据库存放数据类型的不同,可以分为序列数据库、结构数据库、文献数据库、序列特征数据库、基因组图谱数据库、表达谱数据库等等。核酸序列数据库常用的有NCBI、EMBL、DDBJ.常用的蛋白结构数据库有PDB、SCCOP、GO(geneontology)语义分分子功能(MolecularFunction)、生物学过程(BiologicalProcess)、细胞组件(CellularComponent)三大类。常见的功能注释数据库GO、IPR和KEGG。序列比对的常用工具:FASTA、BLA

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论