转录组有参考生物信息分析结题报告模版-V2.0 - 图文

来源：用户分享时间：2025/11/19 7:10:26 本文由

loading 分享下载这篇文档手机版

说明：文章内容仅供预览，部分内容可能不全，需要完整文档或者需要复制内容，请下载word后使用。下载word有问题请添加微信号:xxxxxxx或QQ：xxxxxx 处理（尽可能给您提供完整文档），感谢您的支持与谅解。

北京诺禾致源生物信息科技有限公司转录组有参考基因组生物信息分析结题报告

一、生物信息分析流程

获得原始测序序列（Sequenced Reads）后，并且其相应的基因组参考序列( Reference Genome )可以获得的情况下，可以用有参考基因组信息分析流程对数据进行详细的分析，分析流程图如下：

1 北京诺禾致源生物信息科技有限公司二、结果展示

1. 原始序列数据

高通量测序（如Illunima HiSeqTM2000/ Miseq等测序平台）测序得到的原始图像数据文件经碱基识别（Base Calling）分析转化为原始测序序列（Sequenced Reads），我们称之为Raw Data或Raw Reads，结果以FASTQ（简称为fq）文件格式存储，其中包含测序序列（reads）的序列信息以及其对应的测序质量信息。测序样品中真实数据随机截取结果如下：

@HWI-ST1106:227:D14F6ACXX:1:1101:1202:2188 1:N:0:GCCAAT

CGGATGATCTTCTTAATCTCTCCTTGCATAGTTATGAAACAGTCCGTGGACTTGCTGGAAAATCTCTCTTGAAGATGATGAAGAGATGGCCCTCTACAAT +

CCCFFFDFFHHHHJJJJJIJIGGGIGICIGIIJEIIJIIJJI@DHEDHECFGGAHGGJGHIICGEEIEHGGGIECEEHH@HE>C@EBBE@CCDDCCCDDC @HWI-ST1106:227:D14F6ACXX:1:1101:1237:2217 1:N:0:GCCAAT

GAAGGTGAGTCTGAGGAGGCCAAGGAGGGAATGTTTGTGAAAGGATATGTCTACTAAGATATTAGAAAGTATGTACTACTACTACTACTACATGTTTTCA +

@@@FDADDFDHFHIIIDHIIJJJGICGGGCGHGFIGHBHEHHGI;BDHHCFGCHIIIIEHGIGHHIJJE7??ACHCDFFFFFEEECCEE>C>ACCCDC>@ @HWI-ST1106:227:D14F6ACXX:1:1101:1382:2195 1:N:0:GCCAAT

TTTTGCAACAATGGCTTCCACCATGATGACTACTCTACCACAGTTCAATGGACTCAAACCCCAACCTTTCTCAGCTTCTCCAATTCAAGGCTTGGTGGCA +

@@@DD3DDFFFF:CDGI@GIEEDH@AAD;;;@@####### @HWI-ST1106:227:D14F6ACXX:1:1101:1255:2239 1:N:0:GCCAAT

CGGATTTTCAAGGGCCGCCGGGAGCGCACCGGACACCACGCGACGTGCGGTGCTCTTCCAGCCGCTGGACCCTACCTCCGGCTGAGCCGATTCCAGGGTG +

CCCDFFFFHHH?FHIIIJJJJJIGBEHHJJBHBDDCDAC??@@BDBBBBD8BDDCDDACC@A?@BBB@<(8>?395?4:(:<@## @HWI-ST1106:227:D14F6ACXX:1:1101:1423:2239 1:N:0:GCCAAT

CTTGTATTGCTCTCCCACAACCCCGTTTTCACGGTTTAGGCTGCTCCCATTTCGCTCGCCGCTACTACGGGAATCGCTTTTGCTTTCTTTTCCTCTGGCT +

CCCFDFFFHHHHHJJIJJJJJIJJGGIHIIGIIJGIGGIJJGGGJGIJ>FGIIGHGGBEHBCCBBDDD@BB@@@C::@C

2 北京诺禾致源生物信息科技有限公司 2. 测序数据质量评估 2.1 测序错误率分布检查

测序错误率与碱基质量有关，受测序仪本身、测序试剂、样品等多个因素共同影响。通常测序序列（Sequenced Reads）5’端前几个碱基的错误率相对较高，随着序列的延伸，3’端碱基错误率会不断升高，这是由高通量测序的技术特点决定的。项目结果见图1。

图1 测序错误率分布图

横坐标为reads的碱基位置，纵坐标为单碱基错误率。其中前100个碱基位置为双端测序序列的第一端测序Reads的分布情况，随后100bp是另一端测序reads的分布情况。

3 北京诺禾致源生物信息科技有限公司 2.2 A/T/G/C含量分布检查

对于RNA-seq来说，因随机性打断及G/C和A/T含量分别相等的原则，理论上GC及AT含量每个测序循环上应分别相等，且整个测序过程稳定不变，呈水平线。项目结果见图2。

图2 GC含量分布图

横坐标为reads的碱基位置，纵坐标为单碱基所占的比例。不同颜色代表不同的碱基类型

4 北京诺禾致源生物信息科技有限公司 2.3 测序数据过滤

测序得到的原始测序序列（Sequenced Reads）或者raw reads，里面含有带接头的、低质量的reads，为了保证信息分析质量，必须对raw reads过滤，得到clean reads，后续分析都基于clean reads。项目结果见图3。

图３原始数据过滤结果

搜索更多关于：转录组有参考生物信息分析结题报告模版-V2.0 - 图文&n 的文档

转录组有参考生物信息分析结题报告模版-V2.0 - 图文 .doc 将本文的Word文档下载到电脑，方便复制、编辑、收藏和打印

下载这篇word文档

本文链接：https://www.diyifanwen.net/c1fw2b5513p1lh1d7s72f_1.html（转载请注明文章来源）