structure-2.3---中文使用手册2010年2月2日.doc_第1页
structure-2.3---中文使用手册2010年2月2日.doc_第2页
structure-2.3---中文使用手册2010年2月2日.doc_第3页
structure-2.3---中文使用手册2010年2月2日.doc_第4页
structure-2.3---中文使用手册2010年2月2日.doc_第5页
已阅读5页,还剩40页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

Structure 2.3中文使用手册Jonathan K. PritchardaXiaoquan WenaDaniel Falushb 1 2 3a芝加哥大学人类遗传学系b牛津大学统计学系软件来自/structure.html 2010年2月2日1我们在Structure项目中的其他的同事有Peter Donnelly、Matthew Stephens和Melissa Hubisz。2开发这个程序的第一版时作者(JP、MS、PD)在牛津大学统计系。3关于Structure的讨论和问题请发给在线的论坛上:。 在邮递问题之前请查对这个文档并搜索以前的讨论。1 引言程序Structure使用由不连锁的标记组成的基因型数据实施基于模型的聚类方法来推断群体结构。这种方法由普里查德(Pritchard)、斯蒂芬斯(Stephens)和唐纳利(Donnelly)(2000a)在一篇文章中引入,由Falush、斯蒂芬斯(Stephens)和普里查德(Pritchard)(2003a,2007)在续篇中进行了扩展。我们的方法的应用包括证明群体结构的存在,鉴定不同的遗传群体,把个体归到群体,以及鉴定移居者和掺和的个体。简言之,我们假定有K个群体(这里K可能是未知的)的一个模型,每个群体在每个位点上由一组等位基因频率来刻画。样本内的个体被(按照概率)分配到群体,或共同分配到两个或更多个群体,如果它们的基因型表明它们是混和的。假定在群体内,位点处于哈迪-温伯格平衡和连锁平衡。不精确地讲,个体被按达到这一点那样的方法指定到群体。我们的模型不假定一个特别的突变过程,并且它可以应用于大多数通常使用的遗传标记,包括微卫星(microsatellites)、SNP和RFLP。模型假定在亚群体内标记不处于连锁不平衡(LD),因此我们不能处理极其靠近的标记。从2.0版开始,我们现在能够处理弱连锁的标记。虽然这里实现的计算方法是相当强有力的,但是为了保证明智的答案,在运行程序的过程中还是需要谨慎。例如,不可能从理论上确定合适的运行长度(时间),这需要用户自己做一些实验。这份资料描述软件的使用和解释,并补充发表的文章,这些文章提供了对方法的更正式的描述和评价。1.1 概述软件包Structure由几个部分组成。程序的计算部分用C语言编写。我们发布源码和用于各种平台(目前有苹果机,Windows,Linux,Sun)的可执行文件。C可执行文件读取用户提供的一个数据文件。还有一个Java前端为用户提供各种有帮助的工具,包括对输出的简单的处理。你也可以从命令行调用Structure而不是使用前端。这份资料包括关于怎样格式化数据文件、怎样选择合适的模型、以及怎样解释结果的信息。它也有关于使用两种界面(命令行和前端)的细节以及各种用户定义的参数的汇总。1.2 在2.3版中有哪些更新?2.3版(2009年4月发布)引入了新的模型用于改进数据集结构的推论,其中(1)数据对于通常的结构模型来说信息不够,不足以提供准确的推论,但是(2)抽样的地点与群体归属关系(population membership)相关。在这种情形下,通过明确利用抽样地点信息,我们使结构得到改善,经常允许性能提高很多(Hubisz et al., 2009)。我们希望在下几个月释放更进一步的改进。 表1:实例数据文件。这里MARKERNAMES = 1, LABEL = 1, POPDATA = 1, NUMINDS = 7, NUMLOCI = 5, MISSING = -9, POPFLAG = 0, LOCDATA = 0, PHENOTYPE = 0, EXTRACOLS = 0。第2列显示个体的地理取样位置。我们也可以把数据存储为每个个体一行(ONEROWPERIND = 1),在这种情况下第一行为“George 1 -9 -9 145 -9 66 64 0 0 92 94”。Loc_a Loc_b Loc_c Loc_d Loc_e 乔治1-9 14566092乔治1-9 -9 64094保拉110614268192保拉110614864094马修2110145-9 092马修2110148661-9 鲍勃210814264194鲍勃2-9 142-9 094Anja 1112142-9 1-9 Anja 111414266194彼得1-9 145660-9 彼得1110145-9 1-9 卡斯坦2108145620-9 卡斯坦2110145641922 数据文件的格式基因型数据的格式显示在表2中(表1显示一个例子)。基本上,整个数据集被作为一个矩阵安排在单个文件里,其中个体的数据在行里,位点在列里。用户能对格式做出若干选择,大多数这些数据(除基因型外!)是可选择的。对于一个二倍体生物,每个个体的数据可以是作为连续的2行被储存,其中每个位点在一列,或者在一行中,其中每个位点在连续的两列。除非你打算使用连锁模型(见下面),否则单个个体的等位基因的次序并不重要。预基因型(pre-genotype)数据列(见下面)对每个体记录两次。(更一般地,对于n倍体生物来说,每个个体的数据被储存在n个连续的行中,除非ONEROWPERIND选项被使用。) 2.1 数据文件的组成部分:输入文件的要素如下所列。如果给出,它们一定按以下顺序,然而大多数是可选的并且可以被完全删除。用户必须指明哪些数据被给出,或者在前端里(front end),或者(当从命令行运行Structure时)在一个单独的文件mainparams里。同时,用户也要指定个体和位点的数目。2.2 行1. 标记名称(可选择;字符串) 文件的第一行可以包含数据集里的每个标记的标识符的一个列表。这一行包含整数或字母的L个字符串,其中L是位点的数目。2. 隐性等位基因(仅用于有显性的标记数据;整数)SNP或者微卫星数据一般将不包括这一行。但是如果选项RECESSIVEALLELES被设置为1,则程序要求有这一行来表明每个标记上哪个等位基因(如果有的话)是隐性的。关于更多的信息请参阅第4.1节。该选项用于象AFLP那样的数据,以及用于多倍体的情形,其中基因型可能是含糊的。3. 标记之间的距离(可选择;实数)文件里的下一行是一个标记之间距离的集合,供有连锁的位点使用。这些应该是遗传距离(例如,厘摩),或者是这种距离的一些替代,基于(例如)物理距离。如果标记距离(粗略地)与重组率成正比,则距离的实际单位不是那么重要 。前端从数据估计一个合适的尺度,但是命令行版本的用户必须在文件extraparams里设置LOG10RMIN、LOG10RMAX和LOG10RSTART。标记必须按照连锁群中的图谱次序排列。当连续的标记来自不同的连锁群(例如,不同的染色体)时,这应该用数值-1注明。第一个标记也被赋值为-1。所有其他的距离都是非负的。这一行包含L个实数。4. 连锁相信息(可选择;仅用于二倍体数据;在范围0, 1内的实数)。这只供连锁模型使用。这是L个概率的一行,出现在每个个体的基因型数据之后。如果连锁相是完全知道的,或者没有连锁相信息可用,则这些行是不必要的。当有来自家系数据的部分连锁相信息,或者当来自雄性的单倍体X染色体数据和二倍体常染色体数据被一起输入时,它们可能是有用的。对于连锁相信息有两种可选择的表示:(1)个体的两行数据被假设为分别与父本的和母本的相对应。连锁相行表明当前标记上的排序正确的概率(设置MARKOVPHASE = 0);(2)连锁相行表明与以前的等位基因有关的一个等位基因的连锁相是正确的概率(设置MARKOVPHASE = 1)。第一项应该填入0.5,以便把这行填写到L项。例如下列数据输入表示来自一个男性的信息,有5个连锁相未知的常染色体微卫星位点,后面是3个X染色体位点,使用母本/父本相模型:102156165101143105104101100148163101143 -9 -9 -90.5 0.5 0.5 0.5 0.5 1.0 1.0 1.0其中-9表示“缺失数据”,这里缺失是由第二X染色体缺乏造成的,0.5表明常染色体位点的连锁相是未知的,1.0表明X染色体位点由母本遗传的概率为1.0,因此其连锁相是已知的。相同的信息可以用markovphase模型来描述。这样的话输入文件将读为:102156165101143105104101 100148163101143-9-9-9 0.5 0.5 0.5 0.5 0.5 0.5 1.0 1.0这里,2 1.0 s 表明那个第1 和第2,其次和第3 个X染色体位点彼此完全同相。注意站点以站点产量在这些2 模式下将不同。在第一例子中,Structure将输出母亲和父亲染色体的任务可能发生的事件。在第2 个情况下,它将输出在输入文件里列举的每等位基因的可能发生的事件。5. 个体/ 基因型数据(必需的)取样的每一个个体的数据象在下面描述的那样安排成一行或多行。2.3 个体/基因型数据个体数据的每一行包含下列要素。这些形成数据文件里的列。1. Label(标签)(可选择;字符串) 一串整数或者字母,用来指明样本中的每个个体。2. PopData(可选择;整数)一个整数,指明一个用户定义的群体,从其中获得个体(例如这些整数可以指明个体取样的地理位置)。在默认的模型中,这个信息不被聚类算法使用,但是能用来帮助组织输出(例如,将来自相同的预定义群体的个体彼此紧挨着绘图)。3. PopFlag(可选择;0或者1)一个布尔标签,表明使用学习样本时是否使用PopData(见USEPOPINFO,在下面)。(注:布尔(Boolean)变量(标签)是取值为TRUE或FALSE的变量,在这里分别用整数1(使用PopData)和0(不使用PopData)表示。) 4. LocData(可选择;整数)一个整数,为每个个体指明一个用户定义的取样地点(或者其他特性,例如一个分享的表现型)。当LOCPRIOR模型被打开时,这个信息用来帮助聚类。如果你仅仅希望使用LOCPRIOR模型的PopData,那么你可以省略LocData列,并设置LOCISPOP = 1(这告诉程序使用PopData来设置地点)。5. Phenotype(可选择;整数) 一个整数,为每个个体指明一个所关心的表现型的值(表中的f(i))。(表现型信息实际上没有用于Structure。这里用来允许与关联作图程序STRAT有一个平滑的接口。) 6. Extra Columns(可选择;字符串) 用户把被程序忽略的附加数据包括在输入文件里可能是方便的。这些数据就在这里输入,可以是由整数或字符组成的串。7. Genotype Data(必需的;整数) 一个给定位点上的每个等位基因应该由一个独特的整数来编码(例如微卫星重复得分)。2.4 缺失的基因型数据缺失数据应该用没在数据中的其他地方出现过的一个数字来标明(按照惯例经常使用-9)。这个数字也可以用于有单倍体和二倍体数据混合的地方(例如男性中的X和常染色体位点)。缺失数据值是与描述数据集特性的其它参数一起被设置的。2.5 格式化的错误。我们已经进行了相当仔细的错误检查,以保证数据集的格式正确,并且程序将试图提供一些关于存在的任何问题的性质的提示。前端要求在每行的结束回车,不允许在行内回车;Structure的命令行版本以与处理空格或制表符(Tab)同样的方式处理回车。可能出现的一个问题是,在将数据导入Structure之前用来组装数据的编辑程序可能引入隐藏的格式化字符,经常在行的末尾,或者在文件的末尾。前端能自动除去大多数这些错误,但是当数据文件好像处于正确的格式时,这类问题可能对错误负责。如果你正在把数据导入到一个Unix系统,dos2unix功能可能对彻底清理这些错误有帮助。3 用户的建模决策3.1 祖先模型个体的祖先有4个主要模型:(1) 非混合模型(个体离散地来自一个群体或者另一个群体);(2)混合模型(每个个体从K个群体中的每一个抽取他/她的基因组的一部分);(3)连锁模型(象混合模型一样,但是连锁的位点更可能来自相同的群体);(4)有先验信息的模型(允许Structure使用关于取样地点的信息:或者帮助用弱的数据进行的聚类,发现迁移者,或者预定义一些群体)。关于模型1、2 、4的详情见Pritchard等(2000a)和Hubisz 等(2009),关于模型3的详情见Falush等(2003a)。1. 非混合模型。每个体完全来自K个群体之一。输出报告个体i来自群体k的后验概率。每个群体的先验概率是1 / K。这个模型适合于研究完全离散的群体,并且经常比混合模型在检测微妙的结构方面更强有力。2. 混合模型。个体可能具有混合的祖先。这可以表述为个体i从群体k中的祖先那里继承了他的/她的基因组的一部分。输出记录这些比例的后验平均估计值。以祖先向量q(i)为条件,每个等位基因的起源是独立的。我们推荐这个模型作为大多数分析的起始点。这是处理真实群体的大多数复杂性的一个相当灵活的模型。混合是真实数据的一个普通特征,如果你使用非混合模型,你或许不会发现它。混合模型也能以一种自然的方式处理混合的区域(hybrid zones)。表2:数据文件的格式,为两行的格式。大多数这些组成部分是可选的(欲了解详细信息,参见正文)。Ml是标记l的标识符。rl表明哪个等位基因,如果有的话,在每个标记上是隐性的(仅针对显性的基因型数据)。Di,i+1是标记i和i + 1之间的距离。ID(i)是个体i的标签,g(i)是个体i的一个预先定义的群体索引(PopData);f(i)是一个被用来合并学习样品的标签(PopFlag);l(i)是个体i的取样地点(LocData);f(i)可以储存个体i的表现型;y1(i), ., yn(i)用于储存额外的数据(这些数据会被程序忽略);(xli,1, xli,2)储存个体i在位点l上的基因型。pi(l)是个体i中的标记l的连锁相的信息。3. 连锁模型。这实质上是将混合模型推广,来处理“混合连锁不平衡”,即,在最近混和的群体中的连锁标记之间出现的相关性。Falush等(2003a)描述了该模型和更详细的计算。基本的模型是,过去的t个世代,有一次混合事件,将K个群体混合了。如果你考虑单个染色体,它由一系列“块(chunk)”组成,这些“块”是从混合时的祖先那里作为离散的单位遗传来的。出现混合LD是因为连锁的等位基因经常在相同的块上,因此来自相同的祖先群体。块的大小被假设为独立的指数随机变量,具有平均长度1/t(以摩尔根为单位)。在实践中我们估计“重组率”r,所用的数据对应于从现在的块切换到新的块的比率。个体i里的每个块以概率qk(i)独立地来自群体k,其中qk(i)是那个个体的祖先来自群体k的比例。总起来,新模型保留了混合模型的主要要素,但是在单个块上的全部等位基因必须来自相同的群体。新的MCMC算法结合了可能的块大小和断点。它对于每个体报告总的祖先,考虑连锁,并且也能报告染色体的每一点儿的起源的可能性,如果用户想要的话。当使用连锁的位点来研究混合的群体时,这个新模型表现得比原先的混合模型更好。它得到对祖先向量的更准确的估计,并且能从数据中抽出更多的信息。这对混合作图应该是有用的。该模型不是用于处理非常紧密连锁的标记之间的背景LD的。显然,这个模型是大多数混合群体的复杂现实的大大的简化。不过,混合的主要的效应是在连锁的标记之间建立长远的相关性,因此我们这里的目的是在一个相当简单的模型中将那个特征包括进来。计算比混合模型的要慢一点,特别对于大的K和不知道连锁相的数据。不过,它们对于数千个位点和个体以及多个群体来说还是切实可行的。如果有关于标记的相对位置的信息(通常是一张遗传图谱),则只能使用该模型。4. 使用先验的群体信息。Structure的默认模式只使用遗传学的信息来了解群体结构。不过,经常有可以与聚类相关的附加信息(例如,取样的个体的物理特性或者取样的地理位置)。目前,Structure可以用3种方式使用这种信息: LOCPRIOR模型:利用取样位置作为先验信息来辅助聚类用于结构信号比较弱的数据集。有一些数据集,其中有真实的群体结构(例如,取样位置之间的显著的FST),但是信号太弱,标准的Structure模型不能发现。对于标记很少、个体很少或者非常弱的Structure,经常是这样的情况。在这种情形下,为了提高性能,Hubisz等(2009)发展了新模型,利用地点信息来辅助聚类。对于这样的数据集,其中结构的信号太弱以致使用标准的Structure模型不能被发现,新模型经常能提供群体结构和个体祖先的准确的推断。简言之,LOCPRIOR模型的基本原理如下。通常,Structure假定个体的所有部分都大约是先验等可能的。因为可能的部分的数目非常巨大,对于Structure来说,需要信息非常丰富的数据来断定个体的任何特定的部分被聚类到群具有强的统计支持。相反,LOCPRIOR模型认为实际上,来自相同的取样位置的个体经常来自相同的群体。因此,建立LOCPRIOR模型以期望取样的位置可能关于祖先是信息丰富的。如果数据表明位置是信息丰富的,那么LOCPRIOR模型允许Structure使用这种信息。Hubisz等(2009)发展了一对LOCPRIOR模型:一种用于没有混合的情况,一种用于有混合的情况。在两种情况中,内在的模型(以及似然函数)与标准版本相同。关键的差别是允许structure使用地点信息来帮助聚类(即,通过修改先验信息来得到与位置有关的更偏爱的聚类解决方案)。LOCPRIOR模型具有合乎需要的特性:(i)当不存在结构时,它们不倾向于发现结构;(ii)当个体的祖先与取样位置不相关时,他们能够忽视取样的信息;(iii)当群体结构的信号非常强大时,旧模型和新模型基本上给出相同的答案。因此,我们建议在大多数数据数量非常有限的情形下使用新模型,特别是当标准的Structure模型不提供一个Structure的清晰信号时。但是,因为现在已经积累了标准的Structure模型的很多经验,我们建议对于信息非常丰富的数据集将基本模型作为默认(Hubisz 等等,2009)。为了运行LOCPRIOR模型,用户必须首先为每个个体指定“取样地点”,作为一个整数编码。即,我们假定样品是在一组分离的位置收集的,并且我们不使用关于地点的任何空间信息。(我们认识到,在一些研究中,每个个体可能在一个不同的地点收集,因此将个体塞进一套更小的分离的地点可能不是对数据的理想的代表。) “地点”也可以代表一个表现型、生态型(ecotype)或者民族团体(ethnic group)。地点被键入到输入文件中,要么在PopData列(设置LOCISPOP = 1)中,要么作为一个单独的LocData列(参阅第2.3节)。为了使用LOCPRIOR 模型,你必须首先指定或者用混合模型用非混合的模型。如果你使用的是图形用户界面版本,则勾选“use sampling locations as prio”(用取样位置作为先验信息)框。如果你使用的是命令行版本,则设置LOCPRIOR = 1。(注意,LOCPRIOR与连锁模型不兼容。) 我们迄今的经验是当不存在结构时,LOCPRIOR模型不偏向于检测到假的结构。你可以把相同的诊断用于是否有真的结构,当你没使用LOCPRIOR时。另外查看r的值可能有帮助,它确定由位置携带的信息的数量。r的值接近1,或者2)中形势更复杂,因为甚至对共显性标记都可能有基因型的含糊。在杂合体中准确地识别出基因型经常是困难的。例如在三倍体中,表现型AB可能是AAB或者ABB。如果Structure在RECESSIVEALLELES=0的条件下运行,那么就假定没有含糊。对于多倍体,当RECESSIVEALLELES=1时,Structure允许数据包含具有基因型模糊和不具有基因型模糊的位点。如果一些位点不含糊那么设置代码NOTAMBIGUOUS为一个整数,这个整数不与数据内的的任何等位基因相匹配,并且不等于MISSING(缺失)。然后在输入文件顶上的隐性等位基因的行里为不含糊的位点放置NOTAMBIGUOUS代码。如果不是那样,而是在一个特定的位点上等位基因全部是共显性的,但是有关于每个的数目(例如为在四倍体里的微卫星)含糊,那么就把隐性等位基因代码设置为MISSING。最后,如果有隐性等位基因,并且还有关于每个等位基因的数目的含糊性,则设置隐性等位基因代码来表明哪个等位基因是隐性的。存在拷贝数含糊性的等位基因的编码与存在显性标记的那些相似。因此,举例来说,在四倍体中,观察到3个共显性位点B、C和D,这应该被编码为B C D D或者等效地B B C D或者任何包括3个等位基因中的每一个的其他组合。它不应该被编码为B C D (MISSING),因为这表明该特定的个体在所指的位点是三倍体。如果在这个位点上存在一个隐性等位基因A,它也不能被编码为B C D A。Pr(K)的估计: 当RECESSIVEALLELES被用于二倍体时,Markov链的每个步骤上的似然值是通过在可能的基因型上求和来计算的。为了便于编码,当要么PLOIDY2要么使用了连锁模型时,我们以当前推算的(imputed)基因型为条件。这减小似然值,并且好像大大地扩大似然值的方差。有限的经验表明在后一种情况下这导致对K的估计效果变差,你应该把K的这种估计看做是不可靠的。5 K(群体数目)的估计在描述这个程序的我们的文章里,我们指出这个问题应该被小心对待,由于两个原因:(1)要获得对Pr(X|K)的准确估计在计算上是困难的,我们的方法仅仅提供一个专门的(ad hoc)近似;(2)K的生物学解释可能不是简单的。在我们的经验里我们发现真正的困难在于第2个问题。我们的用于估计K的程序一般在具有少量离散的群体的数据集中计算效果较好。不过,很多现实世界的数据集并不准确地符合Structure模型(例如,由于通过距离或者近交而产生的隔离)。在那些情况里对于什么是K的正确值可能没有一个自然的答案。或许由于这种原因,在真实的数据中我们的模型选择标准的值随着增加的K而继续增加是不稀有的。那么集中于捕获数据中的大多数结构的K的值通常是讲得通的,这在生物学上似乎是合理的。5.1估计K的步骤1. (命令行版本)在文件extraparams里把COMPUTEPROBS和INFERALPHA设置为1。(前端版本)确保a允许改变。2. 对不同的MAXPOPS (K)值运行MCMC方案。最后它将输出一行“Estimated Ln Prob of Data”。这是ln Pr(X|K)的估计。你应该对每个K独立地运行几次,以便证实不同运行得到的估计值是一致的。如果与不同的K获得的估计值的变异性相比,一个给定的K的不同运行的变异性是显著的,那么你可能需要使用更长的运行或者更长的burnin时期。如果lnPr(X|K)看起来是双峰的(bimodal)或者多峰的(multimodal),则MCMC方案可能找到不同的答案。你可以对此进行验证,通过比较在单个K上的不同运行的Q。(参看Pritchard et al. (2000a)的数据集2A(Data Set 2A),也见下面有关多峰性(Multimodality)的部分,)。3. 计算K的后验概率。例如,对于论文中的数据集2A(这里K是2),我们得到K ln Pr(X|K)1 -43562 -39833 -39824 -39835 -4006我们一开始可以假定一个关于K = 1, ., 5的均匀先验分布。然后根据贝叶斯定理,Pr(K = 2)由下式给出: (3)如果我们将该式简化为下面的公式,计算就会更容易 (4)5.2 轻微的违背模型可能导致过高估计K 当存在真正的群体结构时,这导致不连锁的位点之间的LD,以及违背哈迪温伯格比例。粗略地说,这是被Structure算法使用的信号。但是模型的一些违背也能导致哈迪温伯格或连锁不平衡。这些包括近交和基因型鉴定错误(例如偶然的、未被发现的无效的等位基因)。即使在没有群体结构的情况下,对于K 1,这些类型的因素也可能导致弱的统计信号。从2版本开始,我们提出相关的等位基因频率模型(correlated allele frequency model)应该被用作默认,因为它在困难的问题上经常实现更好的执行,但是用户应该意识到,在这样的设置中可能更容易过高估计K,与独立的频率模型下相比(Falush et al. (2003a))。 下一节讨论怎样确定推断的结构是否是真实的。5.3 关于选择K的非正式提示;结构是真实的吗?有两个非正式的提示,可能有助于选择K。第一个是,对于比合适的值(有效零)更小的K,Pr(K)常常是非常小的,对于更大的K,则有或多或少的高原,如同上面显示的数据集2A的例子中那样。在这种情形中(其中K的几个值给出log Pr(X|K)的相似的估计下),似乎这些估计中最小的常常是正确的。对于我们通过“或多或少的高原”所表示的东西,要提供一个坚固的规则有点难。对于小数据集来说,这可能意味着log Pr(X|K)的值在5-10的范围内,但是Daniel Falush写道“在非常大的数据集中,K = 3和K = 4之间的差别可能是50,但是如果K = 3和K = 2之间的差别是5 000,那么我将肯定选择K = 3”。想要使用更正式的标准(这种标准将这一点纳入了考虑)的读者可能对Evanno等(2005)的方法感兴趣。我们认为考虑这一点的一种明智的方法是就模型选择而言。即,我们可能不总是能知道K的真值,但是我们应该致力于捕获数据里的主要结构的K的最小的值。第二提示是,如果真的有单独的群体,那个,通常有许多有关a的值的信息,一旦Markov 链收敛,a通常将相对恒定(范围经常为0.2或更少)。不过,如果没有任何真正的结构,在运行过程中a通常变化很大。这一点的一个必然的结果是当没有群体结构时,你将通常将看到分配给每个群体的样本的比例是大致匀称的(每个群体中1/K),大多数个体将被公平地混和。如果一些个体被强烈地分配到一群体或者另一个,以及如果分配给每组的比例不对称,那么这是你有真正的群体结构的强的迹象。假定你有两个清楚的群体,但是你试图决定是否这些中之一是更进一步再分(例如,Pr(X|K = 3)的值类似于P(X|K = 2),或者也许比P(X|K = 2)还大一点)。那么,你能尝试的一件事情是只使用你怀疑可能被再分的群体内的个体来运行Structure,看看是否有一个如上所述的强信号。总之,你应该对根据小的Pr(K)的差别推断的群体结构持怀疑态度,如果(1)对于分派没有清楚的生物学解释,(2)对全部群体的分派大致匀称,没有个体被强烈地分配。5.4 通过距离数据的隔离通过距离的隔离指的是这样的想法:个体可能跨越一些地区呈空间分布,带有本地分散的。在这种形势下,等位基因频率跨越地区逐渐变化。基础的Structure模型对来自这种情况的数据不很适合。当这发生时,推断的K 的值,以及在每组中的相应的等位基因频率可能相当任意。取决于取样的计划,大多数个体可能在多个组中具有混合的成员身份。即,算法将尝试使用K的不同组分的加权平均数来对跨越地区的等位基因频率建模。在这样的形势下,结果的解释可能具有挑战性。6 背景LD和其他miscellania 6.1 序列数据,紧密连锁的SNP和单体型数据Structure模型假定位点在群体内是独立的(即,在群体内不处于LD)。序列数据或者来自非重组区域的(比如Y染色体或者mtDNA)的数据很可能违反这个假定。如果你有序列数据或来自多个独立区域的密集的SNP数据,那么尽管数据不完全适合模型,Structure实际上可能表演得想当好。粗略地说,这将发生,倘若跨越不同的区域有足够的独立性,以至于区域内的LD不在数据中占优势。当有足够的独立区域时,区域内的依赖性(dependence)的主要代价将是Structure在特别的个体的分派中低估不确定性。例如,Falush等(2003b)把Structure用于来自H. pylori的MLST(多位点序列)数据,以了解H. pylori的群体结构和迁移历史。在那种情况下,在区域内有足够的重组以至于群体结构的信号超过了背景LD。(关于MLST数据的更多情况,也见第10节)。在人类的应用中,Conrad等(2006)发现来自36个连锁的区域的3000个SNP生产明智(但是嘈杂)的答案,在一个全世界的样本中,基本上与基于微卫星的以前的结果一致见他们的Supplementary Methods Figure SM2。然而,如果数据被一个或者少数非重组的或在低重组的区域主导,那么,Structure可能被严重地误导。例如,如果数据只由Y染色体数据组成,那么估计的结构大概将反映出关于Y染色体树的某些事情,而非群体结构本身。使用这样的数据的影响很可能是:(1)算法低估祖先估计中的不确定性的程度,在最坏的情况下,可能是有偏的或者不准确的;(2)K的估计不可能表演得好。如果你有Y或者mtDNA数据加上许多核标记,一个安全和有效的解决办法是重新编码来自每个连锁区域的单体型,以至于单体型被描述为一个具有n等位基因的单个位点。如果有许多单体型,则可以把相关的单体型归类到一起。注意连锁模型不一定比(非)混合模型对于处理这些问题更好。连锁模型不是设计来处理群体内的背景LD的,并且很可能被类似地干扰。6.2 多峰性Structure算法在参数空间中的一个随机的地方开始,然后朝着参数空间的一个峰收敛。(在这里的上下文内,峰可以被看作,松弛地讲,具有高的后验概率的一个聚类解。)当不使用先验的标签时,在K类的编号过程中没有固有的意思,因此有K!个对称的峰,对应于对类标签的排列。理论上,Structure可以在这些峰之间切换,但是这通常对真正的数据集不发生(Pritchard et al., 2000a)。为准备用于出版的图,诺厄罗森堡(Noah Rosenberg)的实验室有一个有帮助的程序,CLUMPP,在对数据绘图之前跨越不同的运行把类标签排列成行(第10节)。除了这些对称的峰之外,一些数据集可能还有另外的非对称的峰。Structure的当前的实施通常不在实际长度的运行过程中在这些之间穿过。这表明不同的运行可能产生显著不同的答案,并且更长时间的运行或许将不能修正这一点。这主要是对于非常复杂的数据集的一个问题,具有大的K值,比如K 5或者K 10(但是见Pritchard等(2000a)中的数据集2A的例子)。你可以检查Q的结果,以了解这是否发生了。Rosenberg等(2001)提出了这类情形的仔细的分析,对一个数据集,其中估计的K大约是

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论