以人类与PAML sites model 病毒适应性进化分析为例解读——HIVSites Model 1.什么是Sites Model?
Sites Model是PAML软件CODEML程序的一个正选择作用分析模型,其主要观点是同一序列不同位点的omega值不同。在进行sites Model分析时,需要设置control file中的Model=0,Nssites命令在此是一个变量,根据不同Model的选择设置不同的值。值得注意的是,以此可以选择多个sites Model。如Nssites=0 1 3 7 8.
2.不同的sites Model 表示什么意思?
? M0即one-ratio Model,值得是所有位点的omega值是恒定的;
? M1表示加假定有一部分位点的omega值为0,其他位点的omega值为1; ? M2是在M1的基础上增加了第三类omega值,该类omega是通过数据计算
得到的,有可能大于1; ? M3假定所有位点的omega值呈简单的离散分布趋势; ? M5假定所有位点的omega值呈简单的gamma分布趋势; ? M7假定所有位点的omega属于矩阵(0,1)且呈beta分布;
? M8是在M7的基础上增加另一类omega值,该值可通过计算得到,可以大
于1. ? M8a与M8类似,只不过新增加的omega值等于1. 3.不同Model的比较可以得到什么样的结果?
首先是M0与M3的比较,该比较与Branch Model中的Model之间的比较是一样的,首先计算2△l值,然后在一定df值下进行显著性水平计算。这里需要注意的是,在参阅了Prof.Yang关于PAML的一些参考材料之后,我们发现sites Model比较的df值一般取2.
在sites Model 中,M0表示one ratio for all sites, M3表示所有位点的omega值呈简单的离散分布。对于这两个模型的比较并非用于正选择作用的检测,而是用于位点间omega值是否一致的检测。
M1 and M2 以及M7 and M8是用于正选择作用的检测,但Prof.Yang认为,The M1-M2 comparison 与 the M7- M8 comparison相比,更加的稳定。(原文:The M1-M2 comparison appears to be more robust (or less powerful) than the M7- M8 comparsion)
此外,还有一类比较是M8 to M8a,其中M8和M8a是两个极为类似的Model。在涉及到positive selection 的文章中,对于这两个model的比较并不常见,而且说明书中也并未给出明确的比对结果意义。 4. 如何检测positive sites?
在CODEML中,positive sites 的检测流程主要如图1所示.
PP value computation Likelihood ratio test CODEML computation
图1 positive sites的检测流程 Fig1 The process of positive sites
其中CODEML computation主要是对control file中的命令值进行设定之后,运行CODEML程序,并在result file中查看运算结果。Likelihood ratio test如question3所示,即对两个模型进行显著性水平比较。PP value computation主要是指位点后验概率的计算,该结果是显示在main result file- mlc文件中。CODEML程序中常见的计算后验概率的方法有BEB和NEB。与BEB相比,NEB在计算的过程中往往会忽略抽样误差。因此,Prof.Yang建议在读取运算结果时,可以直接将NEB result忽略,但值得注意的是,BEB只能在M2a和M8 model下运行。
5.以example中control file文件为参考,解读site model下的control file。
图2 site model下的control file 截图
Fig2 The fig of control file under site model
Site model 计算的control file与Branch model中大致相似,但在site model中应当注意,model=0是一个恒定值,Nssites命令可以设置不同的模型参数。
相关推荐: