第一范文网 - 专业文章范例文档资料分享平台

生物信息学复习题及答案(陶士珩)

来源:用户分享 时间:2025/5/30 22:37:31 本文由loading 分享 下载这篇文档手机版
说明:文章内容仅供预览,部分内容可能不全,需要完整文档或者需要复制内容,请下载word后使用。下载word有问题请添加微信号:xxxxxxx或QQ:xxxxxx 处理(尽可能给您提供完整文档),感谢您的支持与谅解。

(2)定义:a.隐马尔可夫模型是马尔可夫链的一种,它的状态不能直接观察到,但能通过观测向量序列观察到,每个观测向量都是通过某些概率密度分布表现为各种状态,每一个观测向量是由一个具有相应概率密度分布的状态序列产生。所以,隐马尔可夫模型是一个双重随机过程----具有一定状态数的隐马尔可夫链和显示随机函数集。.马尔科夫链:是一个数学模型,是一种随机的过程,马尔科夫链的每一个环表示系统的一个状态.由前一个状态转变成现在状态的概率,仅由前一状态决定。这种转换包括往自身的转换和其他可能的转换,并且概率服从一定的分布。

b.马尔可夫模型当前状态的概率仅取决于前一状态,而隐马尔可夫模型只与当前状态有关,而与而与导致其成为当前状态的历史变换无关。

c.马尔科夫模型多用于原核生物的DNA序列建模,而隐马尔可夫模型能很好地对真核生物DNA序列建模,实现了基因预测从原来单纯的编码序列的预测发展到了基因整体结构的预测。

d.在马尔科夫链中每一个状态对应于一个可观察的事件,状态是已知的;而隐马尔可夫模型是对马尔科夫模型的推广,使得可观察的是状态的一个概率函数,而状态本身是不可观察的,所能观察到的是他的发散状态。

(3)隐马尔可夫模型的应用:多序列比对,基因各部分结构的识别,蛋白二级结构预测。 11.用Fitch-Margoliash构建进化树的步骤

1)Find the mostly closely related pairs of sequences (A, B).

2)Treat the rest of the sequences as a composite. Calculate the average distance from A to all others; and from B to all others.

3)Use these values to calculate the length of the edges a and b.

4)Treat A and B as a composite. Calculate the average distances between AB and each

9

of the other sequences. Create a new distance table

5)Identify next pair of related sequences and begin as with step 1.

6)Subtract extended branch lengths to calculate lengths of intermediate branches. 7)Repeat the entire process with all possible pairs of sequences.

8)Calculate predicted distances between each pair of sequences for each tree to find the best tree.

12.UPGMA(创建的为有根树,基于分子钟理论)

物种 B C D E

(1)两条序列间的最小距离是dDE,所以物种D和E聚到一组,如下图。

DE

D

E

A 9 8 12 15 B 11 15 18 C 10 13 D 5 (2) 计算新的距离矩阵,其中复合物种(DE)替换D和E,如下表。其他物种与新物种组之间的距离由它们与组中两个物种(D和E)之间距离的平均值决定,如d(dAD+dAE)(DE)A=1/2=1/2(12+15)=13.5

10

物种 B C DE A 9 8 13.5 B 11 16.5 C 11.5 第二次聚类在A和C之间,组成AC类。如下图,

(3) 将A和C合并,计算新的矩阵,如下表,最后一次聚类((AC)B)将物种B的分支点放在(AC)和(DE)的共同祖先之间。

物种 AC DE

B 10 16.5 D

AC 12.5 E

B

A

C

D E A (AC)(DE)

C

11

P(T,?,?|D)?

P(D|T,?,?)?P(T,?,?)P(D((AC)B)(DE) )(4)设未知数,计算距离。 13.MP法建树

所谓信息位点,它必须在至少2个分类群中具有相同的序列性状。信息位点是指那些至少存在2个不同碱基且每个不同碱基至少出现两次的位点。

14.原理,区别及适用

距离法:假定序列尊循分子钟假说,通过构建分子序列之间的距离来构建系统发生树。首先需要根据某种进化模型计算所有对象间的进化距离,然后根据不同的算法,从进化距离最短的开始依次聚类,利用距离方阵计算出最优树,或将分支长度之和最小化,获得最优树,常见的有UPGMA,NJ法等。适用与序列建间有明显差异的。

MP法:最大简约法,这种方法构建的进化树试图用最少的替换数来揭示不同物种间序列的差异,因此需要找出比对序列间的有效信息位点在给出所有可能的系统进化树,最终从全部信息位点构建出的系统树中鉴别出整体变异数最小的树,及最佳的系统发育树。简约树的分值完全决定于所有重建祖先序列中的最小突变数,而突变是否按照事先约定的核苷酸最少替代的途径进行是不得而知。适用于亲缘关系很近相似度高的的序列建树

12

搜索更多关于: 生物信息学复习题及答案(陶士珩) 的文档
生物信息学复习题及答案(陶士珩).doc 将本文的Word文档下载到电脑,方便复制、编辑、收藏和打印
本文链接:https://www.diyifanwen.net/c5u8qa52np19jajr89mel_3.html(转载请注明文章来源)
热门推荐
Copyright © 2012-2023 第一范文网 版权所有 免责声明 | 联系我们
声明 :本网站尊重并保护知识产权,根据《信息网络传播权保护条例》,如果我们转载的作品侵犯了您的权利,请在一个月内通知我们,我们会及时删除。
客服QQ:xxxxxx 邮箱:xxxxxx@qq.com
渝ICP备2023013149号
Top