生物信息学 第三章 生物信息数据库及其信息检索.ppt_第1页
生物信息学 第三章 生物信息数据库及其信息检索.ppt_第2页
生物信息学 第三章 生物信息数据库及其信息检索.ppt_第3页
生物信息学 第三章 生物信息数据库及其信息检索.ppt_第4页
生物信息学 第三章 生物信息数据库及其信息检索.ppt_第5页
已阅读5页,还剩56页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第三章生物信息数据库及其信息检索,生物科学与技术学院,本章主要内容,生物信息学数据库类型 序列数据库 结构数据库 功能数据库 其它专业数据库 生物信息学数据库的检索 检索方法概述 检索实践和案例,生物信息学数据库的地位和作用,生物信息学数据库类型,核酸研究(Nucleic Acids Research)杂志的每年第一期为生物信息学数据库专刊,收录最主要的生物学相关数据库,归类并展示在/nar/database/c/。,核酸序列数据库 RNA序列数据库 蛋白质序列数据库 结构数据库 基因组数据库(非脊椎动物) 代谢与信号通路数据库 人类与其

2、他脊椎动物基因组 人类基因与疾病 微阵列数据库与其他基因表达数据库 蛋白质组资源 其他分子生物学数据库 细胞器数据库 植物数据库 免疫学数据库 细胞生物学数据库,生物信息学数据库类型,序列数据库 结构数据库 功能数据库 其它专业数据库,Google vs Baidu,肤浅的百姓工具,他可以更厉害!甚至超过windows、Linux或Mac等操作系统,一、序列数据库,主要收录核酸和蛋白质序列的数据库,包括由基因组计划产生的基因组及其表达序列,由基因组序列所推测的编码和非编码核酸和蛋白质序列,以及个别生物学实验中测序获得的核酸和蛋白质序列。 基因组序列数据库: Genome Database(GD

3、B)数据库 ( / ) 包括人、鼠、斑马鱼和果蝇4种真核生物基因组的注释分析。由EMBL - EBI和Sanger研究所联合开发。 UCSC Genome Browser (/) 加州大学圣克鲁兹分校建立,包括各种脊椎和无脊椎动物,以及主要模式生物的基因组数据。,核酸序列数据库 GenBank( /Genbank ) EMBL( http:/www.ebi.ac.uk/embl/ ) DDBJ ( http:/www.ddbj.nig.ac.jp

4、/ ) 三个数据库每天互相交换数据 GenBank可通过NCBI的检索系统Entrez获取, Entrez集成来自主要DNA和蛋白序列数据库的数据,包括物种、基因组、定位、蛋白结构和结构域等信息 其他各种专业核酸数据库 非冗余参考序列数据库RefSeq 密码子使用数据库Codon Usage Database CUTG 基因可变剪接数据库ASDB 转录因子数据库TRANSFAC,NCBI (National Center of Biotechnology Information) 美国国立生物技术信息中心,三大数据库之间的联系,GenBank中测序最多的20个物种,human,Arabidop

5、sis,Thermotoga maritima,Escherichia coli,Buchnerasp. APS,Rickettsia prowazekii,Ureaplasma urealyticum,Bacillus subtilis,Drosophila melanogaster,Thermoplasma acidophilum,Plasmodium falciparum,Helicobacter pylori,mouse,Caenorhabitis elegans,rat,Borrelia burgorferi,Borrelia burgorferi,Aquifex aeolicus,

6、Neisseria meningitidis Z2491,Mycobacterium tuberculosis,模式生物与基因测序,viruses,plasmids,bacteria,fungi,plants,algae,insects,mollusks,reptiles,birds,mammals,Genome sizes in nucleotide pairs (base-pairs),104,108,105,106,107,1011,1010,109,bony fish,amphibians,蛋白质序列数据库 UniProt() 由Swiss-P

7、rot、TrEMBL和PIR蛋白质数据库联合构建,提供蛋白质序列和功能注释的核心资源。由三个子库组成:(1)UniProtKB,知识库(2)UniRef:参考簇(3)UniParc,所有公开的蛋白质序列,包括每个序列源数据库的追溯信息 。 IPI (http:/www.ebi.ac.uk/IPI/ ) 国际蛋白质索引数据库,针对蛋白质组研究中利用数据库搜索鉴定蛋白的策略而构建的参考数据库,月更新,整合国际上主要的蛋白质数据库(SwissProt,Refseq,PIR,TrEMBL,RefSeq,Ensembl,H-Inv DB翻译的蛋白数据),整合过程中,直接接受手工注释结果。 Nr( htt

8、p://refseq/ ) NCBI构建,非冗余蛋白质数据库,为每个蛋白质序列记录赋予一个唯一的gi号,并将序列完全一致的非冗余蛋白质合并成簇。,二、结构数据库,核酸和蛋白质的空间结构数据库,一般通过X射线衍射和核磁共振获得数据,也有同源建模等计算方法获得。 结构数据库(核酸) NDB核酸结构数据库(/) 收录核酸的晶体结构数据,包含X射线衍射和核磁共振的结果,可通过ADIT (the AutoDep Input Tool)同时将结构存储到NDB和PDB中,提供序列号检索功能,可以用NDB或PDB的I

9、D号检索,结果包含核酸结构的简要信息和图片 Rfam数据库(http:/rfam.sanger.ac.uk/ ) RNA家族多重序列比对,一致性二级结构和协方差模型,基于多重序列比对的非编码RNA家族的变异模式,结构数据库(蛋白质) PDB(/pdb/ ) RCSB(Research Collaboratory for Structural Bioinformatics)专门用于处理和发布生物大分子三维结构的知识库,提供数据库的检索和下载服务,以及PDB数据文件格式和其它文档的说明,使用软件可对PDB数据库记录用多种模式显示生物大分子三维结构。 蛋白质结构分

10、类数据库SCOP( http:/scop.mrc-lmb.cam.ac.uk/scop/ ) 包含从PDB数据库中提取的所有结构域,并详细描述已知蛋白质结构之间的关系 MMDB NCBI的分子模型数据库。 NCBI蛋白结构数据库(/sites/entrez?db=structure/) 包括由x射线衍射和核磁共振实验得到的所有PDB生物分子三维结构,与原始的PDB结构相比,增加一些附加信息:经程序验证的显性化学图像信息、一致的二级结构衍生定义、与MEDLINE相匹配的引用、基于源自生物实体的蛋白质或核酸链进行分类的分子匹配。,三、功能数据库,

11、收录生物分子的功能数据,由ID号与序列和结构数据链接 组织表达谱和亚细胞定位 根据不同组织中的EST、SAGE或芯片杂交信号,绘制出不同组织中表达基因的图谱: BodyMap(http:/bodymap.ims.u-tokyo.ac.jp/ ) Unigene(/sites/entrez?db=unigene ) SAGEmap(/projects/SAGE/) GEO(/projects/geo/) Stanford Microarray

12、 Database(/microarray ),亚细胞定位数据库 PSORTdb(/ ) DBSubLoc( ) 膜蛋白质数据库TMPDB(http:/bioinfo.si.hirosaki-u.ac.jp/TMPDB/) 线粒体蛋白质数据库MitoP2(http:/www.mitop.de:8080/mitop2/) 蛋白翻译后修饰 dbPTM(.tw/ ) 磷酸化、糖基化和硫修饰,也收录和蛋白质翻译后修饰相关的生物信息。 O-GlycBase(htt

13、p:/www.cbs.dtu.dk/databases/OGLYCBASE/) 只收录O糖基化数据 PhosphoBase(/) 只收录磷酸化位点的数据 RESID(http:/www.ebi.ac.uk/RESID/) 收录蛋白质修饰的注释和结构的数据,蛋白质-蛋白质相互作用数据库 DIP(/) 由实验验证的蛋白质-蛋白质相互作用数据,包括蛋白质的信息、相互作用的信息和检测相互作用的实验技术 IntAct(http:/www.ebi.ac.uk/intact ) 提供用于蛋白质相互作用数据存储

14、、展示和分析的开源数据库和工具包,可对相互作用数据在网页上进行文本和图像的展示,允许用户通过GO注释或InterPro结构域注释进行网络的扩充 代谢网络和信号途径 KEGG大百科(http:/www.genome.ad.jp/kegg/ ) 系统分析基因功能、联系基因组信息和功能信息的知识库,GENES收录完整和部分测序的基因组序列;PATHWAY数据库存储更高级的功能信息,包括图解的细胞生化过程和同系保守的子通路等信息; LIGAND数据库收录关于化学物质、酶分子和酶反应等信息。,反应通路(KEGG),glycolysis pathway(糖酵解) 京都基因与基因组百科全书(Kyoto En

15、cyclopedia of Genes and Genomes),全细胞通路,四、其它专业数据库,人类基因和疾病数据库 OMIM(/sites/entrez?db=omim) 收录所有已知的遗传病、遗传性状和基因,除简略描述各种疾病的临床特征、诊断、治疗和预防外,还提供致病基因的连锁关系、染色体定位、组织结构、动物模型及其参考文献等信息dbSNP(/sites/entrez?db=SNP ) 收录已经识别的SNPs的数据库 HapMap Project()

16、 收录了三大人群(非洲人,高加索人和亚洲人群)主要的变异模式,所选择的SNPs具有相对代表性 CGED(http:/lifesciencedb.jp/cged/) 收录多种癌症的临床和基因表达数据,更新到2007年,基于电泳和生物质谱的蛋白质组数据库 SWISS-2DPAGE(/ch2d/) 收录各种双向电泳或SDS的电泳图,并提供蛋白在电泳图中的位置及其信息 PRIDE(http:/www.ebi.ac.uk/pride/) 数据库收集国际蛋白质组计划所产出的鉴定结果数据 PeptideAtlas(/

17、) 收录大规模LC-MS/MS实验鉴定的蛋白信息,并将信息匹配到Ensembl数据库 dbLEP() 为肝脏蛋白质组计划设计,提供鉴定结果及可追溯的信息,包括可供评估结果质量的鉴定肽段数和质谱图谱等,同时还提供大量的注释信息,更新到2007年,免疫学数据库 IMGT(http:/imgt.cines.fr) 关于免疫球蛋白、T细胞受体、主要组织相容性复合体以及人类和哺乳动物免疫系统相关蛋白的综合数据库,由序列数据库、基因组和结构数据库、网站资源数据库和各种研究工具数据库组成 dbMHC(/mhc/) 提供人类组织相容性抗原(HLA)的序列数据

18、和临床上干细胞移植及风湿性关节炎等数据,也提供全世界90多个人群的HLA位点、等位基因和单倍型频率的遗传检测工具,Taxonomy 分类学数据库,北京华大基因研究中心(中科院基因组研究所) 杨焕明 国家人类基因组南方研究中心(上海) 陈竺、赵国屏 国家人类基因组北方研究中心(北京) 强伯勤 清华大学生物系生物信息研究室 孙之荣 北京大学生物信息学中心 罗静初 复旦大学理论生物中心 钟扬 ,我国的一些主要研究中心和数据库,生物信息学数据库的检索,检索方法概述 检索实践和案例,生物信息学数据库的检索,主要检索系统和工具 Entrez(National Center for Biotechnolog

19、y Information, NCBI) SRS(European Bioinformatics Institute, EBI) ExPasy Expert Protein Analysis System (Swiss Institute of Bioinformatics, SIB) 日本、欧洲、美国其他研究机构的工具平台,复杂检索,1、限制字段类别 常用的有: Author: Bao YMau Title: stressti Tilte/Abstract: stresstitle/abstract Date: 1999:2009dp 2、布尔逻辑运算: AND、OR、NOT必须大写。 逻辑

20、符的运算次序是从左至右,括号内的检索式可作为一个单元,优先运行。 布尔逻辑检索允许在检索词后面附加字段标识 例如:riceti AND Bao YMau AND 2008:2009dp,同样存在限制字段: 常用的有: Author: Bao YMau title: SNAREti organism: riceorganism 或者直接输入: Accession: AY077725Accession Gene Name: ZFP15Gene Name Protein Name: ZFP15Protein Name 如: Bao YMau AND SNAREti AND riceorganism

21、如果没有限定,就是任意字段。,如何获取GenBank中的序列?,Entrez(National Center for Biotechnology Information, NCBI) ,选择数据库,当没有进入号时输入关键词(英文和拉丁文) 当有进入号时输入进入号,可编译,NCBI主页最下面的区域,是NCBI的快捷连接区域,举例: GAPDH或g3pdh是甘油醛-3-磷酸脱氢酶( glyceraldehyde-3-phosphate dehydrogenase )的英文缩写。该酶是糖酵解反应中的一个酶。该酶基因为管家(house keeping

22、)基因,几乎在所有组织中都高水平表达,在同种细胞或者组织中的蛋白质表达量一般是恒定的,且不受含有的部分识别位点、佛波脂等的诱导物质 的影响而保持恒定,故被广泛用作抽提total RNA,poly(A)+ RNA,Western blot等实验操作的标准化的内参。 GAPDH一般是由4个相同亚基组成的四聚体,每个亚基均含有催化结构域和辅酶结合域。GAPDH与辅酶烟酰胺腺嘌呤二核苷酸(NAD+)组成全酶才具有催化活性。,基因序列搜索,STS序列标签位点(sequence-tagged site),是已知核苷酸序列的DNA片段,是基因组中任何单拷贝的短DNA序列,长度在100500bp之间。任何DN

23、A序列,只要知道它在基因组中的位置,都能被用作STS标签。作为基因组中的单拷贝序列,是新一代的遗传标记系统,其数目多,覆盖密度较大,达到平均每1kb一个STS或更密集。 这种序列在染色体上只出现一次,其位置和碱基顺序都是已知的。在PCR反应中可以检测出STS来,STS适宜于作为人类基因组的一种地标,据此可以判定DNA的方向和特定序列的相对位置。,不能用任何其它的特征关键词表述的具有生物学意义的区域;新的或少见的特征,蛋白序列搜索,蛋白质结构搜索,MMDB ID:34532 PDB ID:1U8F,Nicotinamide-Adenine-Dinucleotide 烟酰胺腺嘌呤二核苷酸,O、P、

24、Q和R为GAPDH的四个亚基蛋白链,其和1(烟酰胺腺嘌呤二核苷酸)的相互作用关系,课堂练习:,Homo sapiens p53,人体抑癌基因,该基因编码一种分子量为53kDa的蛋白质,命名为P53。p53基因的失活对肿瘤形成起重要作用。但是事物必然有它的两个方面,p53是一个重要的抗癌基因使癌细胞自杀,防止癌变;还具有帮助细胞基因修复缺陷的功能。,基因序列搜索,标注(Search the target gene,and annotate the gene),蛋白序列搜索,标注(Search the target protein,and annotate the protein),蛋白质结构搜索

25、,标注(Search the structure of the target protein,and annotate it),Question: 从小鼠中查找Bao实验室发布的p53蛋白相关的DNA序列.,一些生物信息学相关的名词和知识,参考P74,关键字的定义,Attenuator:region of DNA at which regulation of termination of transcription occurs, which controls the expression of some bacterial operons, sequence segment located

26、between the promoter and the first structural gene that causes partial termination of transcription. Enhancer:a cis-acting sequence that increases the utilization of eukaryotic promoters, and can function in either orientation and in any location (upstream or downstream) relative to the promoter. Pr

27、omoter:region on a DNA molecule involved in RNA polymerase binding to initiate transcription. Terminator:sequence of DNA located either at the end of the transcript that causes RNA polymerase to terminate transcription. polyA-signal:recognition region necessary for endonuclease cleavage of an RNA tr

28、anscript that is followed by polyadenylation, consensus=AATAAA.,Promoter,Enhancer,Gene,Terminator,Transcription unit,+1,-1,Downstream sequence,Upstream sequence,-10,Transcription start site,Regulatory element,-2,-3,-4,-5,-6,-7,-8,-9,-11,-12,-13,-14,-16,-17,+2,+3,+4,+5,+6,+7,+8,polyA-signal,Attenuato

29、r,调节 基因,阻遏子,启动子,操纵基因,终止子,lacZ,lacY,lacA,lac 操纵元,Attenuator,AAAAAAA,endonuclease cleavage,endonuclease,CAAT-signal:CAAT box, part of a conserved sequence located about 75bp up-stream of the star point of eukaryotic transcription units which may be involved in RNA polymerase binding, consensus=GG(C or

30、 T)CAATCT. GC-signal:GC box, a conserved GC-rich region located upstream of the start point of eukaryotic transcription units which may occur in multiple copies or in either orientation, consensus=GGGCGG. TATA-signal:TATA box, Goldberg-Hogness box, a conserved AT-rich septamer found about 25bp befor

31、e the start point of each eukaryotic RNA polymerase transcript unit which may be involved in positioning the enzyme for correct initiation, consensus=TATA(A or T)A(A or T). -10-signal:pribnow box, a conserved region about 10bp upstream of the start point of bacterial transcription units which may be

32、 involved in binding RNA polymerase, consensus=TAtAaT. -35-signal:a conserved hexamer about 35bp upstream of the start point of bacterial transcription units, consensus=TTGACa,+1,-50,Transcription start site,-25,-75,-100,Hogness box,GC box,GC box,CAAT box,+1,-50,Transcription start site,-25,-100,-19

33、0,Core promoter,GC box,GC box,Upstream control element,GC box,GC box,GC box,Basal promoter,Upstream element,Downstream element,+50,Transcription start site,+1,Hogness box,Octamer motif,Intragenic promoter,+90,PSE,A box,C box,IE,Class promoter,Class promoter,Class promoter,eukaryotic transcription un

34、its,PR:,TTATTCCATGTCACACTTT TCGCATCTTTGTTATGCTAT GGTTATTTCATACCAT,+1,Transcription start site,-10,Pribnow box,-35,GACA box,GTGCGTGTTGACTATTTTA CCTCTGGCGGTGATAATGG TTGCATGTACTAAGGA,GGCGGTGTTGACATAAATA CCACTGGCGGTGATACTGA GCACATCAGCAGGACG,TGAGCTGTTGACAATTAAT CATCGAACTAGTTAACTAG TACGCAAGTTCACGTAA,CCCAG

35、GCTTTACACTTTAT GCTTCCGGCTCGTATGTTGT GTGGAATTGTGAGCGG,CCCAGGCTTTACACTTTAT GCTTCCGGCTCGTATAATGT GTGGAATTGTGAGCGG,TTTCCTCTTGTCAGGCCGG AATAACTCCCTATAATGCGCCACCACTGACACGGAA,TAAATGCTTGACTCTGTAG CGGGAAGGCGTATTATGC ACACCTCGCGCCGCTGA,TCCATGTCACACTTTTCGCATCTTTGTTATGCTATGGTTA TTTCATACCATAAGCC,PL:,trp:,lac:,lac

36、UV5:,rrnA1:,rrnA2:,galP1:,galP2:,bacterial transcription units,-35,TTGACA,TATAAT,+20,+1,-10,原核生物的RNA聚合酶全酶及其在转录起始区的结合,(1)开放读码框是从一个起始密码子开始到一个终止密码子结束的一段序列;不是所有读码框都能被表达出蛋白产物,或者能表达出占有优势或者能产生生物学功能的蛋白。 (2) CDS,是编码一段蛋白产物的序列。 (3)CDS可能是一个ORF,但也可能包括多个ORF。 (4)反之,每个ORF不一定都是CDS。,CDS:coding sequence, sequence of n

37、ucleotides that corresponds with the sequence of amino acids in a protein (location includes stop codon), feature includes amino acid conceptual translation. Open reading frame (ORF):a reading frame that does not contain a nucleotide triplet which stops translation before formation of a complete pol

38、ypeptide.,LTR:long terminal repeat, a sequence directly repeated at both ends of a defined sequence, of the sort typically found in retroviruses.,反转录病毒的基因组的两端各有一个长末端重复序列(5LTR和3LTR),不编码蛋白质,但含有启动子,增强子等调控元件,病毒基因组内的LTR可转移到细胞原癌基因邻近处,使这些原癌基因在LTP强启动子和增强子的作用下被激活,将正常细胞转化为癌细胞。 The HIV-1 LTR is approximately 6

39、40 bp in length and, like other retroviral LTRs, is segmented into the U3, R, and U5 regions.,5 clip:5-most region of a precursor transcript that is clipped off during processing. 3 clip:3-most region of a precursor transcript that is clipped off during processing. 5UTR:region at the 5 end of a matu

40、re transcript (preceding the initiation codon) that is not translated into a protein. 3UTR:region at the 3 end of a mature transcript (following the stop codon) that is not translated into a protein. Prim-transcript:primary (initial, unprocessed) transcript, includes 5 clip, 5UTR, CDS, exon, intron, 3UTR, and 3 clip.,5 clip,3 clip,5UTR,3UTR,exon1,Exon2,Exon3,Prim-transcript,Exon:region of genome that codes for portion of spliced mRNA, rRNA and tRNA, may contain 5UTR, all CDSs and 3UTR. Intron:a segment of DNA that is transcribed, but removed from withi

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论