芯片技术的芯片数据分析_第1页
芯片技术的芯片数据分析_第2页
芯片技术的芯片数据分析_第3页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、芯片技术的芯片数据分析:芯片分析概述随着基因芯片技术的普及,基因表达数据大量产生,如何充分利用这些数据并从中提取有用 的生物学知识,是生物信息学所面临的一个迫切问题。简要来说,生物芯片数据分析流程大 体可分成以下几个阶段。扫描与图像识别一张芯片完成杂交实验,经扫描仪读取后生成图形文件,经过划格(Griding)、确定杂交点范 围(Spot Identifying)、过滤背景噪音(Noise Filtering)等图像识别过程,才能最终得到基因表 达的荧光信号强度值,并以列表形式输出。数据预处理由于杂交荧光标记效率或检出率不平衡、位置效应等多种因素,原始提取信号需要进行均衡 和修正处理后,才能进

2、一步分析。这一步通常需要先进行背景校正(Background Correction), 去除不均匀背景光强影响,然后再进行归一化(Normalization)处理。一般来说,对于单色DNA芯片而言,这一步相对容易;而双色DNA芯片则需要考虑不同 染料(Cy3、Cy5)对于mRNA染色效率的差异。数据分析在前一步基础上,需要根据基因表达状况与事先设定的条件,对基因进行分类处理。具体来 说,又可分为寻找差异表达基因和寻找共表达基因两种。所谓差异表达基因(Differen-tially Expressed Genes),是指在预先设定的不同实验条件下, 表达量出现显著差异的基因。而共表达基因(Co-

3、expressed Genes测是指在不同实验条件 下,表达模式或表达量相似的基因。实践中,在没有先验知识的情况下,一般是通过聚类来寻找这些基因。如果事先已经有了一 组明确的训练集,也可以通过分类来寻找与这组基因具有类似表达模式的其他基因。所谓聚类,也称无监督分类(Un-supervised Classification),是指在未设定先验类别的情况 下,根据表达模式或表达值相似程度,将基因划分为若干组。而分类则是指在给定已经先验 标明类别(如肿瘤、健康)训练集前提下,根据表达模式或表达值相似程度,将被检基因或样 本归入预先设定的类别中。为确保实验结果可靠性,实际生物学研究中,经常采用RT-P

4、CR之类低通量表达分析手段, 对选择出来的基因进行进一步验证。值得指出的是,以上给出的只是一个大体流程。实际数据分析过程中,经常需要根据前一步 分析结果和实际生物学问题来制定下一阶段分析策略。同时,考虑到基因表达动态性和时间 相关性,即使对于同一种细胞类型,不同条件下转录表达情况也会有差异。因此,分析基因 表达数据时,必须同时参考具体实验条件的描述,通常称这些描述实验条件的数据为元数据 (Meta-data)。典型的元数据包括实验方案、实验材料、图像处理方法和数据归一化方法等 信息。芯片分析软件包简介芯片分析过程繁复,且涉及到复杂的统计计算,需要综合运用多种数学与计算机工具。为方 便生物学家研

5、究,相关研究人员已开发了许多专用芯片分析软件。【1 】BioconductorBioconductor是基于统计学软件包R的芯片分析软件包,其主要目的是为生物信息学研究 人员提供一组表达数据分析工具。Bioconductor的开发起始于2001年,主要由美国Fred Hutchinson肿瘤研究中心、哈佛医学院以及哈佛公共健康研究院开发。Bioconductor可支持几乎所有主流芯片数据格式,包括Affymetrix公司的商业化单色寡核苷 酸芯片,以及用户自己定制的双色cDNA芯片。Bioconductor通过若干子软件包提供多种 主流芯片分析方法,可用于数据预处理、差异表达基因识别以及聚类等

6、常用数据分析。除用 于芯片数据分析以外,Bioconductor还可用于SAGE、CGHArray以及SNPArray等其他表 达数据分析。Bioconductor的源代码完全开放,用户可以方便查看以及修改现有算法及其具体实现模块。 因此,Bioconductor也广泛用作其他芯片分析工具的后台支持。【2】dChipdChip(DNA-Chip Analyzer)由哈佛大学生物统计系Cheng Li、Wing Wong等联合开发,是 综合性芯片分析软件。dChip运行在Windows平台上,包括以下功能:针对 Affymetrix 芯片、基于 MBEI(Model-based expressi

7、on indexes)的数据预处理及归 一化;基于样本比较差异基因识别;主成分分析(Principal Component Analysis,PCA);方差分析(Analysis of Variable,ANOVA);时间序列(Time Series)分析;层次聚类(Hierarchical Clustering);SNP array 的 LOH(Loss-of-heterzygosity)、拷贝数(Copy Number)分析;连锁分析(Linkage Analysis)。dChip基于Windows的图形用户界面开发,与Bioconductor的命令行界面相比,更便于初 学者使用,但它的定

8、制性较弱,不利于进行二次开发。最初dChip主要用于Affymetrix的单色寡核苷酸芯片分析,但在最新的版本中(dChip 2006) 也开始对双色cDNA芯片的数据分析提供支持。【3】TM4TM4是一组由TIGR公司开发的生物芯片分析工具包,可同时支持双色和单色cDNA芯片, 以及Affymetrix的单色寡核苷酸芯片分析。TM4提供了对于芯片实验流程的全面支持,大 大方便了用户使用。TM4主要由四个模块和一个后台数据库组成:芯片数据管理工具Microarray Data Manager (MADAM),负责为用户提供统一的操作界 面,管理实验流程及产生的数据。为便于数据交换,MADAM将

9、所有数据按照MIAME格式 统一存放在后台MySQL数据库中。图像分析软件Spotfinder负责从扫描得到的图像中提取基因表达荧光信号强度值。Spotfinder支持多种扫描仪生成的图像文件,同时提供半自动化划格(Griding)及杂交点识别 (Spot Identifying)功能。MIDAS(Microarray Data Analysis System)是数据预处理模块,支持LOWESS Iterative Linear Regression、Slice Analysis等多种常用归一化算法。同时,MIDAS还支持通过标准 的t-检验、MAANOVA、SAM等方法寻找差异表达基因。Me

10、V(MultiExperiment Viewer)用来进行聚类和分类,以及结果的可视化显示。目前支持 包括层次聚类(Hierarchical clustering)、K-mean 聚类、自组织图聚类(Self-Organizing Map, SOM)等多种聚类算法,以及支持向量机(Support Vector Machine,SVM)等多种分类算法。【4】BASEBASE是一个基于Web的芯片数据管理与分析平台。与上述主要基于单机的分析软件包不 同,BASE的设计目标是提供一个可以供多人协同工作的平台。因此,BASE在数据管理方 面投入了很多精力,将芯片数据管理与芯片数据注释融为一体,用户可以

11、通过浏览器方便地 查询实验进度、观察实验结果,并及时和其他相关人员分享信息。同时,BASE也提供了一组简单的工具,供研究人员对数据进行一些快速分析0BASE中包 含了一个基于Java Applet的三维可视化工具,可供用户从多个角度查看数据分析结果。【5】Matlab Bioinformatics ToolboxMatlab是经典的科学计算软件,由美国MathWorks公司开发。它集数值运算、符号运算及 图形处理于一体,广泛应用于工程和科学计算。类似于R,Matlab的核心部分注重提供一 个快速、高效且稳定的平台支持,通过针对不同领域与应用编写特定工具(Toolbox),满足 不同客户的专门需求。最新版Matlab 7附带Bioinformatics Toolbox,是Matlab第一个专 门针对生物信息应用而开发的工具箱。该工具箱为芯片数据处理提供了归一化和聚类分析,

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论