生物学常用软件简介.ppt_第1页
生物学常用软件简介.ppt_第2页
生物学常用软件简介.ppt_第3页
生物学常用软件简介.ppt_第4页
生物学常用软件简介.ppt_第5页
已阅读5页,还剩82页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

生 物 信 息 学 常 用 软 件 简 介,前言,生物信息学是一门新兴的交叉学科,它将数学和计算机知识应用于生物学,以获取、加工、存储、分类、检索与分析生物大分子的信息,从而理解这些信息的生物学意义。 上面是狭义的生物信息学含义,也是现阶段生物信息学的基本工作.,内容概要,一 生物信息学软件的主要功能简介 1.数据的基本处理 2.序列的比对 3.基因/基因组的注释 4.Snp分析 5.进化分析 6.基因表达分析 7.蛋白质结构预测,二.生物学软件部分常见功能使用技巧 PCR 引物设计 DNA、蛋白质序列同源分析及进化树构建 Contig Express-DNA 序列片断拼接 DNA 模拟电泳,三 生物信息学软件的系统平台 生物信息学软件一般可以分成商业的和开源的两大类,大部份商业的软件都是用在windows平台下的,而大部分开源软件是在unix/linux平台下的. 大部分的软件基于unix/linux平台.,一 生物信息学软件的主要功能简介,1.数据的基本处理 (1)数据的常用格式: 生物信息学中数据的常用格式有: Fasta、NBRF/PIR,EMBL、CLUSRAL、Genbank、phylip等。 这些格式虽然不同,但用一些软件可以进行转换,下面一起看一下Fasta和EMBL,FASTA格式又称Pearson的格式,该序列格式要求序列的标题行以大于号“开头,下一行起为具体的序列。一般建议每行的字符数不超过60个,以方便程序处理。多条核苷酸序列格式即将该格式连续列出即可,ID identification code for sequence in the database AC accession number giving origin of sequence DT dates of entry and modification KW key cross-reference words for lookup up this entry OS, OC source organism RN, RP, RX, RA, RT, RL literature reference or source DR i. d. In other databases CC Description of biological function FH, FT information about sequence by base position or range of positiions source range of sequence, source organism misc_signal range of sequence, type of function or signal mRNA range of sequence, mRNA CDS range of sequence, position of intron mutation sequence position, change in sequence for mutation SQ count of A, C, G, T and other symbols gaattcgata aatctctggt ttattgtgca gtttatggtt ccaaaatcgc cttttgctgt 60 atatactcac agcataactg tatatacacc cagggggcgg aatgaaagcg ttaacggcca 120 . . / symbol to indicate end or sequence,EMBL格式,(2)峰图转化(phred) Phred是phredphrap软件包的一部分,主要是用来分析和装配基因组中大片段序列。 phred能处理测序仪直接生成的色谱图,并且产生相关的信息。 phredphrap软件包由华盛顿大学分子生物技术学院的Phil Green和Brent Ewing开发,主要用于学术科研活动。官方网站: 中文教程: /chinese/documents/quickguide/guidePhrap.pdf,(3)文件转换(phd2fasta) 作用:把phred或phrap的计算结果转换成fasta格式软件的主页: /mtucker/Public/Consed/phd2fasta.html,(4)载体屏蔽(cross_match) 它是phrap软件的一部份,用于比对两套DNA序列,要求输入fasta格式的数据,输出的内容可以有三种:日志、被屏蔽了相应序列后的序列文件(也是用fasta格式),标准屏幕输出。,Cross_match is a general purpose utility for comparing any two DNA sequence sets using the Smith-Waterman algorithm. For example, it can be used to compare a set of reads to a set of vector sequences and produce vector-masked versions of the reads, a set of cDNA sequences to a set of cosmids, contig sequences found by two alternative assembly procedures (for example, phrap and xbap) to each other, or phrap contigs to the final edited cosmid sequence. It is slower but more sensitive than BLAST.,Dot plot of a cross_match comparison of strains MGAS8232 and SF370 genome sequences. cross_match was run with default parameters except the minimum match was set to 100,Smoot J. C. et.al. PNAS 2002;99:4668-4673,(5)序列的聚类拼接 I 序列组装(phrap) phrap is a program for assembling shotgun DNA sequence data. Among other features, it allows use of the entire read and not just the trimmed high quality part, it uses a combination of user-supplied and internally computed data quality information to improve assembly accuracy in the presence of repeats, it constructs the contig sequence as a mosaic of the highest quality read segments rather than a consensus, it provides extensive assembly information to assist in trouble-shooting assembly problems, and it handles large datasets.,(II)序列拼接(cap3) CAP sequence can do: 1. Use of forward-reverse constraints to correct assembly errors and link contigs. 2. Use of base quality values in alignment of sequence reads. 3. Automatic clipping of 5 and 3 poor regions of reads. 4. Generation of assembly results in ace file format for Consed. 5. CAP3 can be used in GAP4 of the Staden package.,2.序列的比对 序列比对(alignment):为确定两个或多个序列之间的相似性以至于同源性,而将它们按照一定的规律排列。 将两个或多个序列排列在一起,标明其相似之处。序列中可以插入间隔(通常用短横线“-”表示)。对应的相同或相似的符号(在核酸中是A, T(或U), C, G,在蛋白质中是氨基酸残基的单字母表示)排列在同一列上。,(1)全局比对 I clustal w(多序列全局比对) CLUSTAL是一种渐进的比对方法,先将多个序列两两比对构建距离矩阵,反应序列之间两两关系;然后根据距离矩阵计算产生系统进化指导树,对关系密切的序列进行加权;然后从最紧密的两条序列开始,逐步引入临近的序列并不断重新构建比对,直到所有序列都被加入为止。现在的版本是clustal w2,Clust w2可以用于核酸或蛋白质的多序列比对,也可以用来构建系统进化树。它的使用方式可以在线使用,也可以使用email使用。,II MUSCLE MUSCLE是一个开源软件,它的作用是可以对蛋白质和核酸进行多序列比对,在运行速度和精度上都比clustal w要好,它可以在网络上运行,也可以下载到本地运行。,3.1.3 HMMER HMMER 是可以用来搜索使用统计模型或概要文件“隐马尔可夫模型”(HMM)的基因序列数据库的一个应用程序包。可以从 / 处免费下载 HMMER 应用程序包。可以在独立的 HMMER 服务器上安装 HMMER 应用程序包,也可以在联合服务器上安装它。,Programs in HMMER Currently, the HMMER package contains nine programs. Two of these are programs for database searching: hmmpfam Search an HMM database for matches to a query sequence. hmmsearch Search a sequence database for matches to a single profile HMM. The other programs in the package are: hmmalign Align sequences to an existing model. hmmbuild Build a model from a multiple sequence alignment. hmmcalibrate Takes an HMM and empirically determines parameters that are used to make searches more sensitive, by calculating more accurate expectation value scores (E-values). hmmconvert Convert a model file into different formats, including a compact HMMER 2 binary format, and “best effort“ emulation of GCG profiles. hmmemit Emit sequences probabilistically from a profile HMM. hmmfetch Get a single model from an HMM database. hmmindex Index an HMM database.,(2)局部比对 I blast: 基于局部比对算法的搜索工具,可用于核酸和蛋白质序列的局部比对。 最新的blast还可以检索pcr引物,II genwise Genwise用来做蛋白质和dna序列间的比对,软件比对过程中会考虑剪切位点的信息,所以可以定义出内含子/外显子结构,它可以把基因的多个外显子链接起来,从而得到基因整体的比对情况。 一次只能进行一条蛋白质序列和一条dna序列的比对。,(3)Fasta软件 另一个常用的核酸和蛋白质序列库搜索程序是FASTA,即FASTN和FASTP程序的新版本。FASTA首先在序列库中进行快速的初检,找出与待检序列高度相似的序列。这一快速检索局限于待检序列和序列库序列之间较短的完全相同序列区段上。,3.基因/基因组的注释 (1)重复序列分析 真核生物的基因组相当于基因的一股由只有一个复制DNA序列(也称单一DNA,unique sequence,single copy seqence,nonrepetitive sequence等)和具有多数反复存在的DNA顺序组成。称后者为重复顺序。 研究重复序列也具有十分重要的意义。,I Reaepat masker Repeat Masker 是一个屏蔽dna序列中转座子重复序列和低复杂度序列的程序,它将输入序列中已知的重复序列都屏蔽为N或X,并给出相应的重复序列统计列表。,II Trf 用来寻找DNA序列中的串联重复序列,重复单元可以从1bp到500bp,序列的大小可以超过5M.,III LTR_STRUC 它不同于其它基于序列同源比对的方法,而是根据转座子的结构特征,从dna序列上预测转座子的位置和结构。,(2)Rna分析 I trnascan 这个软件通过分析启动子元件的保守序列模式、tRNA二级结构的分析、转录控制元件分析和除去绝大多数假阳性的筛选过程,可以识别约99%的真tRNA基因,软件可以在线使用,也可以下载单机版。,II microRNA的相关软件 microRNA也可写作miRNA,它广泛存在于真核生物中,是一组不编码蛋白质的短序列RNA,它本身不具有开放阅读框架ORF,是一类高度保守的基因家族。,常用到的软件有: MIRscan ProMir miRNAda 等,III snoRNA 这是近些年来生物学研究的一个热点,它可以独自转录,也可以由内含子编码。 Snoscan软件包可以用来对snoRNA进行预测和分析。,(3)基因预测 I Glimmer 主要用于原核生物,它对某一物种的已知基因序列生成一个马尔可夫模型参数集合,再应用这个参数集对dna序列进行基因预测。,II GlimmerM 是TCR最早开发的用于预测plasmodium falciparum的一个软件,适用于密度在20%左右的小的真核生物基因预测的软件。,III genscan Genscan是基于广义的隐马尔可夫模型的人类及脊锥动物基因预测软件。现在还有和适用于果蝇、拟南芥和玉米的专用版本。,IV twinScan 它是用于真核生物的基因结构预测的软件,通过基因组序列的比较来预测基因,比Genescan要精确。,V BGF 由北京 基因组研究所开发的,基于广义隐马尔可夫模型和动态规划算法的基因预测软件。主要用于水稻、家蚕、家鸡等物种的基因注释。,VI Fgenesh 英国的sanger中心开发的,基于广义隐马尔可夫模型的真核生物基因预测软件,已经测序的物种基本上都可以支持,准确性相对较高,特别是在植物基因预测上应用较广。,(4)基因功能注释 I Interproscan 是一个集成了蛋白质结构和功能位点的数据库,集成了许多数据库提供的蛋白质序列中的各种局域模式,提供了一个较为全面的分析工具。,II WEGO 由BGI开发,应用于许多重要的基因组计划中,如水稻基因组,家蚕基因组,已经成为基因注释分析下游的一个日常工具。,4.Snp分析 全称Single Nucleotide Polymorphisms,是指在基因组上单个核苷酸的变异,包括置换、颠换、缺失和插入。 SNP成为第三代遗传标志,人体许多表型差异、对药物或疾病的易感性等等都可能与SNP有关,(1)Polyphred Polyphred是一个基于测序峰图预测SNP的一套软件,它可以考虑到双峰的情况,对杂合子的预测有一定的优越性。它的准确性和测序的质量有关,测序质量高,准确性也就高。,(2)SNPdector 是一个基于PCR重测序检测SNP的软件包,这个软件可以检测多种序列突变,特别是对于杂合子的检验。,5.进化分析 生物进化过程中生物大分子的演变,包括前生命物质的演变;蛋白质分子和核酸分子的演变以及细胞器和遗传机构(例如遗传密码)的演变。分子进化的研究可以为生物进化过程提供佐证,为深入研究进化机制提供重要依据。,(1)Phylip 是一套免费的系统发育推断软件包。 里面包含了许多的子程序 它主要可用来构建系统进化树,(2)Paml 是基于最大似然估计的对蛋白质和核酸序列进行系统发育分析的软件。可以实现系统发育树的构建、祖先序列估计、进化模拟和KaKs计算等。,(3)KaKs_calculator 是用于计算非同义替换率和同义替换率的软件程序包。采用模型选择和模型平均策略,集成了几个用于计算Ka和Ks的算法。,(4)FGF(fishing gene family) 由北京华大基因研究中心开发的一套用来在特定的基因组里查询蛋白质并构建该家族分子进化树的软件系统,可以用来分析基因的结构、拷贝数和进化关系等。,(5)Mega Mega是一款在windows平台下运行的分子进化和遗传学分析的软件。它由于界面友好,使用其来较为方便,所以,得到了许多研究人员的喜爱。,6.基因表达分析 (1)EST表达序列分析 EST指的是从一个随机选择的cDNA克隆进行5端和3端单一次测序获得的短的cDNA部分序列,代表一个完整基因的一小部份,在数据库中的长度20700bp不等。,EST预处理时用到的软件 Basecalling Phred Phd2fasta Cross_match Chimeric Blast Repeatemasker 等,(2)生物芯片分析 生物芯片分析的软件虽然很多,但是目前从反应样品制备到芯片制作,芯片检测,数据分析等一体化的软件还较少。 主要有以下几种软件。,I 基因芯片综合分析软件。 ArrayVision 7.0 功能强大的商业版基因芯片分析

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论