蛋白质质谱高通量分析平台.ppt_第1页
蛋白质质谱高通量分析平台.ppt_第2页
蛋白质质谱高通量分析平台.ppt_第3页
蛋白质质谱高通量分析平台.ppt_第4页
蛋白质质谱高通量分析平台.ppt_第5页
已阅读5页,还剩25页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

蛋白质质谱高通量分析平台 文献 蛋白质质谱高通量分析平台的建立及其在消化道肿瘤中的应用性研究 作者 余捷凯学校 浙江大学发表时间 2006 06 01 内容简介 一 血清蛋白质质谱标准化方法的建立二 建立蛋白质质谱高通量数据分析平台三 蛋白质质谱标准化分析平台的验证及其在大肠癌中的应用四 蛋白质质谱标准化方法分析平台在其他消化道肿瘤中的应用研究五 肿瘤特异性标志物鉴定 1 简介2 数据预处理去除噪音和基线 局部极值法和信噪比过滤寻找峰 峰的重复性比较 不同样本中同一个峰聚类成簇 强度均一化 数据标准化3 候选肿瘤标志物的筛选 建立蛋白质质谱高通量数据分析平台 一 简介 简介 蛋白质组学质谱数据是做了必要处理的生物样本经过飞行时间质谱仪产生的 质谱仪输出的数据是一系列质荷比及其对应的观测信号强度的数据对列表 第一个值是质荷比 记做m z 第二个值是观测信号强度或谱丰度 记做intensity 每次测量可以产生几万至几百万个这样的数据对 将m z作为横坐标 intensity作为纵坐标 整个数据对列表构成蛋白质组学谱图 简介 传统的方法使用3个软件来完成数据分析 ProteinchipSoftware3 2 calibration和normalization Biomarkerwizard3 1 信噪比过滤和寻找蛋白质峰 BiomarkerPatternsSoftware5 0 筛选候选肿瘤标志物并建立决策树模型 简介 缺点 过程复杂 耗时耗力 效果不理想 设备昂贵 二 数据预处理 应用小波变换降低噪音 离散小波变换 DWT 线性平移不变离散小波变换 UDWT 1 去除噪音和基线 分别对它们去除噪音的效果做了比较 并比较了UDWT的硬阈值和软阈值 以及阈值的具体取值 基线采用局部最小 中值 线性拟和的方法来去除 1 去除噪音和基线 1 去除噪音和基线 去除噪音和基线的效果如图 蓝线为处理前红线为处理后 1 去除噪音和基线 去除噪音和基线后的质谱数据用局部极值法结合信噪比过滤可以很好的寻找蛋白质峰 如下图所示 a为原始图谱 b为局部极值法扫描图 c为信噪比5 d为信噪比为3 2 局部极值法和信噪比过滤寻找峰 结果显示 这部分数据用信噪比为3 图d 可以得到较好的蛋白质质峰 2 局部极值法和信噪比过滤寻找峰 以此方法找到的峰总共为在80 以上的样本中均出现的为64个 而传统方法在80 以上的样本中均出现的样本数仅为17个 重复性总体上提高了60 3 找到的峰的重复性比较 这里以0 3 为分子量的偏差范围来聚类 即在平均分子量前后0 3 的峰都认为是同一个 并将那些只在10 以下的样本中出现的峰进一步过滤掉 因为它们可能是个别实验的误差引起的 4 不同样本中同一个峰聚类成簇 传统方法都是用ProteinchipSoftware3 2软件的totalionnormalize来实现样本间的均一化 但是用总离子强度的均一化会将噪音也作为其均一化的一部分 直接导致蛋白峰均一化的减弱 本研究改进了方法 只对以上步骤找到的峰簇进行均一化 消除了噪音对强度均一化的影响 5 强度均一化 将原始数据标准化到 1 1 的范围内 这将使接下来的模型分析的准确率有所提高 Pn 2 p minp maxp minp 1Pn为标准化后的数据 p是标准化前的数据 minp为标准化前数据中的最小值 maxp为标准化前数据中的最大值 6 数据标准化 三 候选肿瘤标志物的筛选 特征提取的必要性 第一 大部分蛋白质峰 特征 对肿瘤与正常组织之间的分类问题不提供有用信息第二 这些无用特征将会给系统引入干扰第三 特征提取有助于克服模型的过适应现象第四 客观上在临床需要用最少的标志物达到最佳差别效果 特征提取的策略主要分为模型依赖型方法和过滤方法 本研究采用了过滤法和模型依赖法相结合的策略 过滤的过程采用秩和检验 将P值小于0 05的作为没有差异表达的蛋白质峰直接过滤掉 统计过滤后留下的特征向量进一步用模型依赖法筛选 这里采用的是遗传算法结合模式识别的方法 这是一种全局最优化策略 遗传算法基本要素 参数编码为染色体 这里把蛋白质峰是否被选中作为染色体结构特征 初始群体的设定 适应度函数 这里采用模式识别的预测效果 选择 杂交和变异策略 控制参数 终止条件等 分别将蛋白质峰编码为染色体 每个染色体的每个等位基因都由0或1组成 对应的蛋白质峰即为没有选中和选中 遗传算法的适应度函数为平均正确率 设置种群大小为100 即每代中有100个个体 变异率为0 1 较高的变异率 为了得到更多样性的个体 交叉率0 8 以甲状腺癌和甲状腺结节的区分为例 通过秩和检验过滤法 得到蛋白质峰共14个 将染色体的不同编码作为遗传算法的不同个体 通过选择 杂交和变异等遗传方法产生下一代 最后筛选出适应度最好 具有最好的预测效果 的群体和个体 遗传算法结合模式识别的筛选方法包括了建立模型的模式识别系统 遗传算法的适应度函数为10倍交叉验证支持向量机 SVM 神经网络模型 ANN 和判别分析 DA 中的一种 遗传算法结合支持向量机 判别分析和人工神经网络模型的比较 从以上的图表中可以看到人工神经网络的个体重复性很差 而且计算很耗时 而遗传算法结合判别分析预测的准确率也不如支持向量机 因此本研究将遗传算法结合支持向量机模型作为最终模

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论