第一范文网 - 专业文章范例文档资料分享平台

真核基因组分析常规流程

来源:用户分享 时间:2025/5/24 10:19:58 本文由loading 分享 下载这篇文档手机版
说明:文章内容仅供预览,部分内容可能不全,需要完整文档或者需要复制内容,请下载word后使用。下载word有问题请添加微信号:xxxxxxx或QQ:xxxxxx 处理(尽可能给您提供完整文档),感谢您的支持与谅解。

真核基因组分析常规流程

一,二代数据质量控制

二代测序数据质量控制软件FastQC 分析的内容包括: 测序数据的基本信息 每个碱基的质量值

每条reads序列的质量值 每条序列的ATCG组成 每条序列N的含量 每条序列的长度分布 序列中duplication程度 K-mer信息

软件信息:http://www.bioinformatics.babraham.ac.uk/projects/fastqc/

二,数据过滤

过滤掉低质量值的reads 过滤掉接头

过滤掉N含量多的reads 过滤掉长度过短的reads 过滤掉PCR重复 三,组装

组装软件可以根据基因组情况选择,具体方法参看软件说明。

四,组装结果评估

1) 将组装用reads回贴到组装的基因组上,看reads mapping rate 来评估组装的质量

可以使用bwa来比对,samtools来统计 2) 使用CEGMA来评估组装的完整性

CEGMA (Core Eukaryotic Genes Mapping Approach) is a pipeline for building a setof

high reliable set of gene annotations in virtually any eukaryotic genome. Thestrategy relies on a simple fact: some highly conserved proteins are encoded inessentially all eukaryotic genomes. We use the KOGs database to build a set ofthese highly conserved ubiquitous proteins. We define a set of 458 coreproteins, and the protocol, CEGMA, to find orthologs of the core proteins in newgenomes and to determine their exon-intron structures

五,基因组注释

1) 重复序列注释

2) 基因注释

3) 蛋白功能注释

蛋白结构注释:interproscan

同源注释:swissprot tremble 数据库 通路:kegg数据库

六,进化分析

1) 基因家族聚类

同源的蛋白质可以分为直系同源与旁系同源,当同源是基因复制的结果,两份拷贝在一个物种的历史上是平行演化的,这样的基因被称为旁系同源基因。当同源是物种形成的结果,基因的历史反映了物种的历史,被称为直系同源;直系同源是不同物种内的同源序列,他们是来自于物种形成时的共同祖先基因;通常认为直系同源的序列具有相似的生物学功能;

使用OrthoMCL聚类

2) 系统发育树构建

选取所有物种的单拷贝同源基因,分别进行比对,连成一个super gene,提取四倍简并位点构建系统树

3) 分歧时间计算

使用PAML mcmctree计算分歧时间

利用http://www.timetree.org/里面的时间进行校对

4) 4dtv距离分布计算

使用mcsan寻找共线性基因对,计算共线性基因对的4dtv距离,作出分布图。

5) Ks分布计算

流程的功能

1,检测物种(植物)是否有过近期全基因组复制或者大规模复制事件。 2,估计该物种全基因组复制的时间范围。 流程实现

1,根据基因家族聚类的结果找到每个家族的每条基因

2,根据BLASTP 结果找串联重复基因家族(基因间插入数小于20 视为串联) 3,对每个基因家族的序列做muscle 比对 4,转换成cds 的phylip 格式

5,使用PAML 中的yn00 计算基因家族中序列俩俩的Ks 值 6,去掉大于2 的Ks 值取中位或者平均值来代表这个基因家族每个copy 的Ks(若该基因家族有N 个基因,则发生过N-1 次复制) 7,以每0.5 为单位加和这个区间的Ks 8,作图分布图

6) 共线性分析

Mcscan的结果,过滤后做点图或用circos作图

7) 正选择

利用blastall找到两两比对的best hit,利用lastz比对gene pair, 输入kaks_calculator计算ka/ks。

搜索更多关于: 真核基因组分析常规流程 的文档
真核基因组分析常规流程.doc 将本文的Word文档下载到电脑,方便复制、编辑、收藏和打印
本文链接:https://www.diyifanwen.net/c2ce5u0ep6z9nplw1m1wn_1.html(转载请注明文章来源)
热门推荐
Copyright © 2012-2023 第一范文网 版权所有 免责声明 | 联系我们
声明 :本网站尊重并保护知识产权,根据《信息网络传播权保护条例》,如果我们转载的作品侵犯了您的权利,请在一个月内通知我们,我们会及时删除。
客服QQ:xxxxxx 邮箱:xxxxxx@qq.com
渝ICP备2023013149号
Top