生物信息学复习题及答案(陶士珩)

来源：用户分享时间：2025/5/28 15:51:09 本文由

说明：文章内容仅供预览，部分内容可能不全，需要完整文档或者需要复制内容，请下载word后使用。下载word有问题请添加微信号:xxxxxxx或QQ：xxxxxx 处理（尽可能给您提供完整文档），感谢您的支持与谅解。

白序列由20种氨基酸序列组成，当用两条蛋白序列比对时出现随机匹配的概率是5%，因此用核酸序列比对时出现假阳性概率比较大，可靠性差。

（2）密码子的简并。由于密码子存在简并现象，导致密码子的变化不一定会导致氨基酸的变化，即一个氨基酸可以有多个密码子，因而在进化过程中蛋白质序列比核酸序列更为保守，采用蛋白序列比对更具有实际的意义。

（3）当序列相似性很高时可以选择DNA序列进行比对。 3.PAM矩阵的假设条件及PAM1与PAM250的关系。

（1）假设条件：a.临近突变独立。相邻位置的突变是独立的互不影响的。b.进化历程的独立。每个位点的突变概率仅由当前状态决定。c.位置独立。某个氨基酸突变为另一个氨基酸仅有这两个氨基酸决定。

（2）基于进化的点突变模型，如果两种氨基酸替换频繁，说明自然界接受这种替换，那么这对氨基酸替换得分就高。一个PAM就是一个进化的变异单位, 即100个氨基酸中有1个发生可能被自然选择接受的突变改变。PAM250则是PAM1自乘250次后得到的，即100个氨基酸中发生250个可被自然选择接受的点突变，但这并不意味250次PAM后，每个氨基酸都发生变化，最后仍然具有20%的相似性，因为其中一些位置可能会经过多次突变，甚至可能会变回到原来的氨基酸；PAM1常用于近缘序列（85%），而PAM250用于相似度为20%左右的的远缘序列。

（3）PAM1-PAM250生物学意义：PAM250矩阵适用于20%一致性的的远相关蛋白的比对，而PAM1适用于85%的近缘序列，说明了生物进化是朝着趋异进化的，但总能彼此保持一定的相似性。PAM 120: 40% similar; PAM 80: 50% similar; PAM 60: 60% similar; （4）PAM矩阵的局限性：Basic assumption: No correlations in exchange frequencies between neighboring sites.Structural analysis has confirmed role of neighboring residues

in 3D structure。Different sites within proteins show different levels of variability； A phylogenetic tree must be constructed first, implying some circularity in the analysis The original PAM1 matrix was based on a limited number of families, not necessarily representative of all protein families

4. 此矩阵与PAM矩阵的比较：相同之处是都在打分矩阵中使用对数比值；执行双序列比对时都基于查询序列和匹配序列的一致程度，然后选择矩阵。

（1）PAM矩阵是建立在一个进化突变模型的基础上，他认为aa的突变是一个马尔科夫的过程，即每个位点的aa突变是相互独立的，且与该位点以前的突变无关；而BLOSUM矩阵没有明确的进化模型，他根据同一蛋白家族中序列保守的aa模块中观察到的替换情况得到。

wx?gx（2）用于产生矩阵的蛋白质家族及多肽链数目，BLOSUM比PAM大约多20倍,结果将更加可靠。

（3）PAM基于全局比对得到的，用于追朔蛋白的进化起源而BLOSUM是基于局部比对，用于寻找局部的保守的区域。

（4） PAM-n中，n 越小，表示氨基酸变异的可能性越小；相似的序列之间比较应该选用n值小的矩阵，不太相似的序列之间比较应该选用n值大的矩阵。PAM-250用于约20%相同序列之间的比较。BLOSUM-n中，n越小，表示氨基酸相似的可能性越小；相似的序列之间比较应该选用 n 值大的矩阵，不太相似的序列之间比较应该选用n值小的矩阵。BLOSUM-62用来比较62％相似度的序列，BLOSUM-80用来比较80％左右的序列。 5.空格罚分机制

线性罚分模型：是某个固定的罚分，不区分起始空位与延伸空位，无论有多少个空格每个空格罚分的值是固定的，可以用公式Wx=gx表示。

仿射罚分。由两部分组成，起始空位罚分大，延伸空位罚分小，可由方程Wx=g+r(x-1)or Wx=g+rx表示，其中Wx为gap penalty score of a gap of length ；g为gap opening penalty；r为gap extension penalty；X为gap length

通常Gap opening penalty: 2 – 3 times larger than the most negative value in the substitution matrix that is being used；Gap extension penalty: 0.1 to 0.3 times the value of the gap opening penalty.

空格的末端罚分机制：对于全局比对和序列长度相同同源性比对，一般包含罚分。而不知道同源性或长度不同的应不包含对末端空格的罚分。 6. PSI-BLAST and PHI-BLAST

PSI-BLAST:位点特异性反复比对，首先进行一般的blastp比对，从比对结果中构建多序列比对的搜索矩阵，然后用此矩阵在一次搜索原来的数据库，重复5次直到没有新的结果出现为止。其是一种更加高灵敏度的Blastp程序，对于发现远亲物种的相似蛋白或某个蛋白家族的新成员。

PHI-Blast：模式识别BLAST，是一种既能和查询匹配又能和模式匹配的的蛋白序列的比对程序，是一种高灵敏性的blastp程序，一般经过一次搜索即可取得很好的效果，而当一次之后其与PSI-BLAST功能是一致的。广泛用于蛋白家族成员的鉴定。 7.

8.Sensitivity: ability to find all related sequences；(true positives) / (true positives + false negative) The most sensitive search finds all related sequences, but might have lots of false positives

Specificity (selectivity): ability to reject unrelated sequences(true positive) / (true positive + false positive)；The most specific search will return only related sequences, but might have lots of false negatives 9.

10.马尔科夫链和隐马尔科夫链的异同点及应用

（1）相同点：是一个数学模型，是一种随机的过程，隐马尔可夫模型是马尔可夫链的一种，都是关于转移概率的模型，都可用来使用来分析蛋白质家族序列的模型。

搜索更多关于：生物信息学复习题及答案(陶士珩) 的文档

生物信息学复习题及答案(陶士珩).doc 将本文的Word文档下载到电脑，方便复制、编辑、收藏和打印

下载这篇word文档

本文链接：https://www.diyifanwen.net/c5u8qa52np19jajr89mel_2.html（转载请注明文章来源）