白序列由20种氨基酸序列组成,当用两条蛋白序列比对时出现随机匹配的概率是5%,因此用核酸序列比对时出现假阳性概率比较大,可靠性差。
(2)密码子的简并。由于密码子存在简并现象,导致密码子的变化不一定会导致氨基酸的变化,即一个氨基酸可以有多个密码子,因而在进化过程中蛋白质序列比核酸序列更为保守,采用蛋白序列比对更具有实际的意义。
(3)当序列相似性很高时可以选择DNA序列进行比对。 3.PAM矩阵的假设条件及PAM1与PAM250的关系。
(1)假设条件:a.临近突变独立。相邻位置的突变是独立的互不影响的。b.进化历程的独立。每个位点的突变概率仅由当前状态决定。c.位置独立。某个氨基酸突变为另一个氨基酸仅有这两个氨基酸决定。
(2)基于进化的点突变模型,如果两种氨基酸替换频繁,说明自然界接受这种替换,那么这对氨基酸替换得分就高。一个PAM就是一个进化的变异单位, 即100个氨基酸中有1个发生可能被自然选择接受的突变改变。PAM250则是PAM1自乘250次后得到的,即100个氨基酸中发生250个可被自然选择接受的点突变,但这并不意味250次PAM后,每个氨基酸都发生变化,最后仍然具有20%的相似性,因为其中一些位置可能会经过多次突变,甚至可能会变回到原来的氨基酸;PAM1常用于近缘序列(85%),而PAM250用于相似度为20%左右的的远缘序列。
(3)PAM1-PAM250生物学意义:PAM250矩阵适用于20%一致性的的远相关蛋白的比对,而PAM1适用于85%的近缘序列,说明了生物进化是朝着趋异进化的,但总能彼此保持一定的相似性。PAM 120: 40% similar; PAM 80: 50% similar; PAM 60: 60% similar; (4)PAM矩阵的局限性:Basic assumption: No correlations in exchange frequencies between neighboring sites.Structural analysis has confirmed role of neighboring residues
5
in 3D structure。Different sites within proteins show different levels of variability; A phylogenetic tree must be constructed first, implying some circularity in the analysis The original PAM1 matrix was based on a limited number of families, not necessarily representative of all protein families
4. 此矩阵与PAM矩阵的比较:相同之处是都在打分矩阵中使用对数比值;执行双序列比对时都基于查询序列和匹配序列的一致程度,然后选择矩阵。
(1)PAM矩阵是建立在一个进化突变模型的基础上,他认为aa的突变是一个马尔科夫的过程,即每个位点的aa突变是相互独立的,且与该位点以前的突变无关;而BLOSUM矩阵没有明确的进化模型,他根据同一蛋白家族中序列保守的aa模块中观察到的替换情况得到。
wx?gx(2)用于产生矩阵的蛋白质家族及多肽链数目,BLOSUM比PAM大约多20倍,结果将更加可靠。
(3)PAM基于全局比对得到的,用于追朔蛋白的进化起源而BLOSUM是基于局部比对,用于寻找局部的保守的区域。
(4) PAM-n中,n 越小,表示氨基酸变异的可能性越小;相似的序列之间比较应该选用n值小的矩阵,不太相似 的序列之间比较应该选用n值大的矩阵。PAM-250用于约20%相同序列之间的比较。BLOSUM-n中,n越小,表示氨基酸相似的可能性越小;相似的序列之间比较应该选用 n 值大的矩阵,不太相似的序列之间比较应该选 用n值小的矩阵。BLOSUM-62用来比较62%相似度的序列,BLOSUM-80用来比较80%左右的序列。 5.空格罚分机制
线性罚分模型:是某个固定的罚分,不区分起始空位与延伸空位,无论有多少个空格每个空格罚分的值是固定的,可以用公式Wx=gx表示。
6
仿射罚分。由两部分组成,起始空位罚分大,延伸空位罚分小,可由方程Wx=g+r(x-1)or Wx=g+rx表示,其中Wx为gap penalty score of a gap of length ;g为gap opening penalty;r为gap extension penalty;X为gap length
通常Gap opening penalty: 2 – 3 times larger than the most negative value in the substitution matrix that is being used;Gap extension penalty: 0.1 to 0.3 times the value of the gap opening penalty.
空格的末端罚分机制:对于全局比对和序列长度相同同源性比对,一般包含罚分。而不知道同源性或长度不同的应不包含对末端空格的罚分。 6. PSI-BLAST and PHI-BLAST
PSI-BLAST:位点特异性反复比对,首先进行一般的blastp比对,从比对结果中构建多序列比对的搜索矩阵,然后用此矩阵在一次搜索原来的数据库,重复5次直到没有新的结果出现为止。其是一种更加高灵敏度的Blastp程序,对于发现远亲物种的相似蛋白或某个蛋白家族的新成员。
PHI-Blast:模式识别BLAST,是一种既能和查询匹配又能和模式匹配的的蛋白序列的比对程序,是一种高灵敏性的blastp程序,一般经过一次搜索即可取得很好的效果,而当一次之后其与PSI-BLAST功能是一致的。广泛用于蛋白家族成员的鉴定。 7.
7
8.Sensitivity: ability to find all related sequences;(true positives) / (true positives + false negative) The most sensitive search finds all related sequences, but might have lots of false positives
Specificity (selectivity): ability to reject unrelated sequences(true positive) / (true positive + false positive);The most specific search will return only related sequences, but might have lots of false negatives 9.
10.马尔科夫链和隐马尔科夫链的异同点及应用
(1)相同点:是一个数学模型,是一种随机的过程,隐马尔可夫模型是马尔可夫链的一种,都是关于转移概率的模型,都可用来使用来分析蛋白质家族序列的模型。
8
相关推荐: