《生物信息学》PPT课件.ppt_第1页
《生物信息学》PPT课件.ppt_第2页
《生物信息学》PPT课件.ppt_第3页
《生物信息学》PPT课件.ppt_第4页
《生物信息学》PPT课件.ppt_第5页
已阅读5页,还剩35页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

简介,生物信息学(Bioinformatics)是20世纪80年代末随着人类基因组计划的启动而兴起的一门新型交叉学科,它体现了生物学、计算机科学、数学、物理学等学科间的渗透与融合。 生物信息学通过对生物学实验数据的获取、加工、存储、检索与分析,达到揭示数据所蕴含的生物学意义从而解读生命活动规律的目的。 生物信息学不仅是一门学科,更是一种重要的研究开发平台与工具,是今后进行几乎所有生命科学研究的推手。,生物技术与生物信息学的区别及联系,生物信息学的发展历史,人类基因组计划(HGP),人类基因组计划由美国科学家于1985年提出,1990年启动。根据该计划,在2015年要把人体约4万个基因的密码全部揭开,同时绘制出人类基因的谱图,也就是说,要揭开组成人体4万个基因的30亿个碱基对的秘密。HGP与曼哈顿原子弹计划和阿波罗计划并称为三大科学计划,被誉为生命科学的登月计划。,随着基因组计划的不断发展,海量的生物学数据必须通过生物信息学的手段进行收集、分析和整理后,才能成为有用的信息和知识。换句话说,人类基因组计划为生物信息学提供了兴盛的契机。上文所说的基因、碱基对、遗传密码子等术语都是生物信息学需要着重研究的地方。,数据与信息,数据是人们为了反映客观世界而记录下来的可鉴别的各种符号,而信息则是使用者对数据有目的的加工,从而对接收者的行为或思想产生影响,而不同接收者对于相同数据可能存在不同的解释和理解。 数据是信息的载体,信息是数据的目的 “我有一个好想法,不过只可意会不可言传” 数据本身没有价值 用户不同,数据和信息的划分也不同 数据和信息可以相互转化,What is Data?,10535185574,雨认会不天我为明下,0100100101001100 0110111101110110 0110010101011001 0110111101110101,What is Info?我不认为明天会下雨,y=ax-a,01001001 01001100 01101111 01110110 01100101 01011001 01101111 01110101,73 76 111 118 101 89 111 117,I L o v e Y o u,数据,信息,Recognition,Knowledgement,什么是数据库,在生物信息学领域,数据库的主要功能是“存储”、“管理”以及“检索”、“调用” 常见数据库结构类型:平面文件(FLAT FILE)、关系型数据库(R-database)、基于Internet的 XML(Extensible Markup Language),基因是什么,基因是遗传物质的基本单位,基因就是核苷酸序列。 大部分的基因大约是1000-4000个核苷酸那么长。 基因通过控制蛋白质的合成,从微观和宏观上影响细胞、组织和器官的产生。 基因在染色体上。,DNA的结构,碱基 (腺嘌呤A、鸟嘌呤G、胞嘧啶C、胸腺嘧啶T) 核苷酸,核苷酸是构成DNA分子的重要模块。每个核苷酸分子由一分子称作脱氧核糖的戊糖(五碳糖)、一分子磷酸和一分子碱基构成。每种核苷酸都有一个碱基对,也就是A、T、C、G,DNA序列比对,发现同源性、相似性 序列同源性:从某一共同祖先经过趋异进化而形成的不同序列 序列相似性:指序列比对过程中检测序列和目标序列之间相同碱基或氨基酸残基序列所占比例的大小 序列比对定义 序列比对(Sequence Alignment)就是运用某种特定的算法,找出两个或多个序列之间的最大匹配碱基数,动态规划与序列比对,基因组数据库保存了海量的原始数据(Raw Data),人类基因有接近30亿个碱基对。为了查遍所有数据并找到其中有意义的关系,我们便需要依赖于高效的计算机科学字符串算法。 动态规划算法是解决最优化问题的一种高级的算法技术,它自下而上寻找子问题的最优解,从而逐步得到最终问题的解。本课程将利用Java实现 动态规划是一种编程思想,并不是实际的方法。掌握这一思想,适当采用递归方法,几乎可以解决所有最优解问题。 使用动态规划两大条件:最优子结构,重叠子问题,递归(Recursion),在计算机程序设计中如何理解F(x)=ax+b 编程计算N! f(n) = n*f(n-1) n1 编程计算斐波那契数列 f(n) = f(n-1)+f(n-2) n2,1, 1, 2, 3, 5, 8 n,动态规划,问:斐波那契数列当n=5时,结果是多少?x=50呢?x=100呢?,当遇到重叠子问题,即现在正在进行递归时函数的参数是当前已经计算过的参数值,那么再进行计算将是重复计算。,动态规划,利用动态规划思想解决之前的问题。,public int fib(int n) if ( n = 0) return 0; else if (n=1) return 1; else return fib(n-1)+fib(n-2); ,public int fib1(int n) int table = new int n+1 for(i=0;itable.length;i+) if(i = 0) tablei=0; else if (i=1) tablei=1 else tablei=tablei-2+tablei-1 return tablen ,递归解决,动态规划解决,动态规划算法将已经计算过的子问题的解保存(这里用二维数组),下一次再需要计算时便可以直接提取使用,最长公共子序列问题(LCS),S1:ACTT S2:AGCT,注意该二维数组赋值的规律,最右下角的数值即为这两个序列的LCS长度,遗传算法,4.1 基本概念 1. 个体与种群 个体就是模拟生物个体而对问题中的对象 (一般就是问题的解)的一种称呼,一个个 体也就是搜索空间中的一个点。 种群(population)就是模拟生物种群而由若 干个体组成的群体, 它一般是整个搜索空间 的一个很小的子集。,2. 适应度与适应度函数 适应度(fitness)就是借鉴生物个体对环境的 适应程度,而对问题中的个体对象所设计的 表征其优劣的一种测度。 适应度函数(fitness function)就是问题中的 全体个体与其适应度之间的一个对应关系。 它一般是一个实值函数。该函数就是遗传算 法中指导搜索的评价函数。,3. 染色体与基因 染色体(chromosome)就是问题中个体的某种字符串形式的编码表示。字符串中的字符也就称为基因(gene)。 例如: 个体 染色体 9 - 1001 (2,5,6)- 010 101 110,4. 遗传操作 亦称遗传算子(genetic operator),就是关于染色体的运算。遗传算法中有三种遗传操作: 选择-复制(selection-reproduction) 交叉(crossover,亦称交换、交配或杂交) 变异(mutation,亦称突变),选择-复制 通常做法是:对于一个规模为N的种群S,按每个染色体xiS的选择概率P(xi)所决定的选中机会, 分N次从S中随机选定N个染色体, 并进行复制。,交叉 就是互换两个染色体某些位上的基因。,s1=01000101, s2=10011011 可以看做是原染色体s1和s2的子代染色体。,例如, 设染色体 s1=01001011, s2=10010101, 交换其后4位基因, 即,变异 就是改变染色体某个(些)位上的基因。 例如, 设染色体 s=11001101 将其第三位上的0变为1, 即 s=11001101 11101101= s。 s也可以看做是原染色体s的子代染色体。,4.2 基本遗传算法,算法中的一些控制参数: 种群规模 最大换代数 交叉率(crossover rate)就是参加交叉运算的染色体个数占全体染色体总数的比例,记为Pc,取值范围一般为0.40.99。 变异率(mutation rate)是指发生变异的基因位数所占全体染色体的基因总位数的比例,记为Pm,取值范围一般为0.00010.1。,分子进化与系统发育,生物大分子进化速率相对恒定,蛋白质和核酸等生物大分子在进化过程中氨基酸或核苷酸随着时间的替换(改变)数几乎是恒定的。,生物大分子进化的保守性,对生物生存制约性大的生物大分子进化速度慢 生物大分子内部功能区结构变化速率较慢,而且功能越重要的区域变化速率越慢 蛋白质中越重要的氨基酸变化越慢 结构和化学性质相近的氨基酸之间的替换要比这两方面不同的氨基酸之间的替换共容易发生,分子系统发育树,如何构建系统发育树请参照书本UPGMA方法实例 注意要能够最终画出系统发育树,信息可视化,背景,计算机图形学的产生和发展为可视化的诞生奠定基础 1987年正式将可视化分为:数据可视化、信息可视化、科学可视化,大数据时代的到来为信息可视化带来了新的机遇和挑战。,信息可视化模型,RawData,Tables,VIS Structure,Views,Visual Form,Data,可视化结构映射,数据转化,视图转化,Interactions,Data Analysis,信息可视化常用可视化结构(TreeMap),TreeMap是一种在有限空间里对分层结构的可视化结构模型。通过对形状大小和颜色的编码,TreeMap可以非常有效的展现属性结构中叶子节点的属性,可针对同层次或者不同层次的叶子节点进行比较。充分利用空间。,F(6),F(5),F(4),F(4),F(3),F(3),F(2),F(3),F(2),F(2),F(1),F(2),F(1),F(2),F(1),这是我们常见的二叉树结构,表示Fib数列的运算过程,TreeMap,F(6),F(5),F(4),F(4),F(3),F(3),F(2),F(3),F(2),F(2),F(1),F(2),F(1),F(2),F(1),F(2),F(2),F(1),F(2),F(2),F(2),F(1),F(1),在TreeMap中,所有的不可分割的矩形块都是叶子节点,而这些矩形块通过组合构成的更大的矩形块也就是叶子节点的父节点,以此类推,从而将整个树形结构呈现,信息可视化常用可视化结构(FishEye),Fisheye的应用 Fisheye Menu,鱼眼菜单(Fisheye menus )对于帮助用户浏览很长、但有序的列表很有用处。该菜单可以动态的变换菜单条目的尺寸,将鼠标所在区域放大。这样便可以在一个屏幕

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论