第六章、核酸与蛋白质序列分析2_第1页
第六章、核酸与蛋白质序列分析2_第2页
第六章、核酸与蛋白质序列分析2_第3页
第六章、核酸与蛋白质序列分析2_第4页
第六章、核酸与蛋白质序列分析2_第5页
已阅读5页,还剩32页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

郑连友E-mail:吉林大学 药学院 基因工程教研室 2018/8/15 1第六章、核酸和蛋白质序列分析第六章、核酸和蛋白质序列分析2018/8/15 2第六章、核酸和蛋白质序列分析第一节、核酸序列分析三、 DNA序列分析基础四 、 DNA序列分析方法2018/8/15 3第六章、核酸和蛋白质序列分析三、 DNA序列分析基础1、 DNA序列分析内容DNA序列分析 基因序列 基因表达调控信息寻找基因牵涉到两个方面的工作 :识别与基因相关的特殊序列信息预测基因的编码区域结合两个方面的结果确定基因的位置和结构 基因表达调控信息隐藏在基因的上游区域,在组成上具有一定的特征,可以通过序列分析识别这些特征。2018/8/15 4第六章、核酸和蛋白质序列分析2、 DNA序列功能位点 在 DNA序列中,除了基因之外,还包含许多其它信息,这些信息大部分与核酸的结构特征相关联,通常决定了 DNA与蛋白质或者 DNA与 RNA的相互作用。 存放这些信息的 DNA片段称为功能位点,如启动子( Promoter)、 基因终止序列( Terminator sequence)、 剪切位点( Splice site) 等。2018/8/15 5第六章、核酸和蛋白质序列分析 功能位点( functional site)-与特定功能相关的位点,是生物分子序列上的一个功能单元,或者是生物分子序列上一个较短的片段。 功能位点又称为功能序列( functional sequence)、序列模式( motif)、信号( signal)等。 核酸序列中的功能位点包括转录因子结合位点、转录剪切位点、翻译起始位点等。 在蛋白质序列分析中,常使用 序列模式 这个名词,蛋白质的序列模式往往与蛋白质结构域或者作用部位有关。2018/8/15 6第六章、核酸和蛋白质序列分析DNA序列功能位点示意图2018/8/15 7第六章、核酸和蛋白质序列分析 基因组序列中若干个相邻的功能位点组合形成功能区域( functional region)。 功能位点分析的任务-发现功能位点特征-识别功能位点2018/8/15 8第六章、核酸和蛋白质序列分析利用共有序列搜索功能位点 共有序列( consensus)又称一致性片段共有序列是关于功能位点特征的描述,它描述了功能位点每个位置上核苷酸进化的保守性例如 : NTATN 利用共有序列进行功能位点分析牵涉到两个方面的问题,如何构造共有序列如何利用共有序列在给定的核酸序列上搜索寻找功能位点,并计算所找到的功能位点的可靠性2018/8/15 9第六章、核酸和蛋白质序列分析3、基因识别 基因识别是生物信息学领域里的一个重要研究内容 基因识别问题,在近几年受到广泛的重视 当人类基因组研究进入一个系统测序阶段时,急需可靠自动的基因组序列翻译解释技术,以处理大量已测定的但未知功能或未经注释的 DNA序列 2018/8/15 10第六章、核酸和蛋白质序列分析( 1)原核基因识别 特点:长开放阅读框;高基因;简单的基因结构;原核基因组中的 GC 含量高重点在于识别编码区域2018/8/15 11第六章、核酸和蛋白质序列分析u非翻译区域 ( untranslated regions, UTR) 编码区域两端的 DNA,有一部分被转录,但 是不被翻译,这一部分称为非翻译区域 u5UTR-基因上游区域的非翻译区域 u3UTR-基因下游区域的非翻译区域2018/8/15 12第六章、核酸和蛋白质序列分析u 对于任何给定的核酸序列(单链 DNA或mRNA),根据密码子的起始位置,可以按照三种方式进行解释。例如,序列 ATTCGATCGCAA( 1) ATTCGATCGCAA( 2) ATTCGATCGCAA( 3) ATTCGATCGCAAu 这三种阅读顺序称为阅读框( reading frames)2018/8/15 13第六章、核酸和蛋白质序列分析u一个开放阅读框( ORF,open reading frame)是一个没有终止编码的密码子序列。u原核基因识别任务的重点是识别开放阅读框,或者说识别长的编码区域。2018/8/15 14第六章、核酸和蛋白质序列分析基于基因密码子特性的识别方法 辨别编码区域与非编码区域的一种方法是检查 终止密码子的出现频率 终止密码子出现的期望次数为:每 21个( 64/3)密码子出现一次终止密码子 2018/8/15 15第六章、核酸和蛋白质序列分析基本思想:如果能够找到一个比较长的序列,其相应的密码子序列不含终止密码子,则这段序列可能就是编码区域。基本算法:扫描给定的 DNA序列,在三个不同的阅读框中寻找较长的 ORF。遇到终止密码子以后,回头寻找起始密码子。这种算法过于简单,不适合于处理短的ORF或者交叠的 ORF。2018/8/15 16第六章、核酸和蛋白质序列分析真核基因远比原核基因复杂:n 一方面,真核基因的编码区域是非连续的,编码区域被分割为若干个小片段。n 另一方面,真核基因具有更加丰富的基因调控信息,这些信息主要分布在基因上游区域。 ( 2)真核基因识别问题2018/8/15 17第六章、核酸和蛋白质序列分析真核基因结构示意图真核基因远比原核基因复杂:一方面,真核基因的编码区域是非连续的,编码区域被分割为若干个小片段。另一方面,真核基因具有更加丰富的基因调控信息,这些信息主要分布在基因上游区域。 2018/8/15 18第六章、核酸和蛋白质序列分析真核基因识别基本思路 找出基因两端的功能区域 :转录启动区;终止区 在启动区下游位置寻找翻译起始密码子 识别转录剪切位点剪切给体位点剪切接受体位点2018/8/15 19第六章、核酸和蛋白质序列分析真核基因识别的主要方法 从头算方法(或基于统计的方法)根据蛋白质编码基因的一般性质和特征进行识别,通过统计值区分外显子、内含子及基因间区域 。 基于同源序列比较的方法利用数据库中现有与基因有关的信息(如 EST序列、蛋白质序列),通过同源比较,帮助发现新基因。2018/8/15 20第六章、核酸和蛋白质序列分析四、 DNA序列分析方法一个基本的 DNA序列分析方案发现重复元素数据库搜索分析功能位点序列组成统计分析综合分析2018/8/15 21第六章、核酸和蛋白质序列分析1、遮蔽重复序列在进行任何真核生物序列的基因辨识分析之前 ,最好把散布和简单的重复序列找出来并从序列中除去。虽然这些重复序列可能正好覆盖了由 RNA聚合酶 转录的部分区域,它们几乎不会覆盖启动子和外显子编码区。这样,这些重复序列的定位能为其它基因特征的定位提供重要的反面信息。重复序列还常常会搅乱其它分析,特别是在数据库搜索中。 2018/8/15 22第六章、核酸和蛋白质序列分析所用程序( 1) CENSOR /censor/( 2) Repeatmasker /2018/8/15 23第六章、核酸和蛋白质序列分析2、开放阅读框分析( ORF)( 1) /tools/dna.html( 2) /gorf/( 3) /GeneMark/2018/8/15 24第六章、核酸和蛋白质序列分析3、数据库搜索 TBLSTN/blast2018/8/15 25第六章、核酸和蛋白质序列分析4、启动子分析2018/8/15 26第六章、核酸和蛋白质序列分析( 1)、启动子查询 http:/www.epd.isb-sib.ch/2018/8/15 27第六章、核酸和蛋白质序列分析( 2)

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论