生物信息学重点
1 生物信息学概念:生物信息学从事对基因组研究相关生物信息的获取、加工、储存、分配、分析和解释。
一是对海量数据的收集、整理与服务,也就是管好这些数据。 另一个是从中发现新的规律,也就是用好这些数据。 2 生物信息学数据库分类: 一次数据库;二次数据库
序列数据库:DNA序列和蛋白质序列;结构数据库:蛋白质结构;基因组数据库:人类基因组以及其他动物基因组。
二次数据库比一次多一个文献数据库(专家库) 3序列数据库:
NCBI EMBL DDBJ 检索系统:
Entrze检索系统:NCBI
SRS检索系统:EMBL、DDBJ 数据格式: Genbank
EMBL }---------------fasta格式 DDBJ
4 EBI欧洲生物信息研究所 SIB是瑞士的 5 Uniprot 特点
? 高质量 ? 更新速度快
? 与其他数据库联系密切 ? 使用快捷方便 ? 分析工具齐全 6 结构数据库
PDB数据库:1971年建立于美国布鲁海克海文国家实验室。该数据库中收集了通过X射线衍射和核磁共振(NMR)试验测定的蛋白质结构的精确坐标数据。这种数据即蛋白质中的原子坐标是蛋白质结构的最细致的层次。该数据库的管理者是结构生物信息学合作研究组织(Research Collaboration for Structural Bioinformatics, RCSB )
MMDB: 分子模型数据库 — 一个关于三维生物分子结构的数据库,结构来自于 X-ray 晶体衍射 和 NMR 色谱分析 7 基因组结构数据库: NCBI UCSC ensemble
8 1986年1月29 日, 里根总统签署了一项声明,宣布1986年为美国国立医学图书馆150 周年纪念年。
9 Pubmed: MEDLINE PreMEDLINE Publisher supplied citations PubMed的特点
? 自动词语匹配
? 链接点多,部分在网上免费获得全文
? 也可以直接定购原文
10 MeSH是Medical Subject Headings的缩略词,即医学主题词,是用规范化的医学术语来描述生物医学概念。NIH的工作人员按MeSH词表规定,浏览生物医学期刊全文后标引出每篇文献中的MeSH主题词,其中论述文献中心的主题词称主要主题词(major topic headings),论述主题某一方面的内容的词称为副主题词。 短语检索:
如果在短语上加双引号,将不执行转换功能 例如: “single cell” 布尔逻辑运算:
AND、OR、NOT必须大写
比如“single cell” AND “Vitamin C” 截词检索:*
例:输入bacter*,检出bacteria、bacterium等 备注:将不执行转换功能;
截词检索只限于单词,对词组无效,
11 NCBI功能:检索文献 检索序列 比对序列
12 High-Throughput Genomic Sequence (HTGS) 高通量基因组测序结果 Whole Genome Shotgun Sequences (WGS) 全基因组鸟枪法序列 EST:表达序列标签 STS:序列标签位点 GSS:基因组短序列
13 Dayhoff被称作生物信息学之父或许更合适。 14 PAM模型可用于寻找蛋白质的进化起源
BLOSUM模型则用于发现蛋白质的保守域 15 BLAST概念:(基本局部相似性比对搜索工具 )
是一套用来探索可供使用的序列数据库中所有DNA或者蛋白质的相似性搜索程序 16 程序名 Blastn Blastp Blastx Tblastn 查询序列 核酸 蛋白质 核酸 蛋白质 数据库 搜索方法 核酸 核酸序列搜索逐一核酸数据库中的序列 蛋白质 蛋白质序列搜索逐一蛋白质数据库中的序列 蛋白质 核酸 核酸序列6框翻译成蛋白质序列后和蛋白质数据库中的序列逐一搜索。 蛋白质序列和核酸数据库中的核酸序列6框翻译后的蛋白质序列逐一比对。 核酸序列6框翻译成蛋白质序列,再和核酸数据库中的核酸序列6框翻译成的蛋白质序列逐一进行比对。 TBlastx 核酸 核酸 17 克隆法:大片段contig 小片段测序拼装
有特异性的分子路标,拼接准确,错误少,但为确定分子路标而构建图谱相当耗时。 全基因组鸟枪法: 小片段测序 计算机拼装 优点:不需预先了解任何基因组的情况 缺点:容易错误装配
18 2001年2月,文特尔小组所做的人类基因组测序报告发表在《科学》杂志上
科林斯带领的公共资金支持的实验室联合体的报告同时发表在《自然》杂志上
名词翻译:
? STS:序列标签位点 ? EST:表达序列标签
? ORTHOLOGS:直系同源 ? PARALOGS:旁系同源 ? CDS:编码序列 ? EXON:外显子 ? ORF:开放阅读框
? PHI-BLAST:模式识别BLAST
? PSI-BLAST:位置特异的迭代BLAST ? SNP:单核苷酸多态性 名词解释
? Fasta格式:
FASTA格式又称Pearson的格式,该种序列格式要求序列的标题行以大于号\开头,下一行起为具体的序列。一般建议每行的字符数不超过80个,以比对程序的处理。 ? 医学主题词MeSH
是Medical Subject Headings的缩略词,即医学主题词,是用规范化的医学术语来描述生物医学概念。NIH的工作人员按MeSH词表规定,浏览生物医学期刊全文后标引出每篇文献中的MeSH主题词,其中论述文献中心的主题词称主要主题词(major topic headings),论述主题某一方面的内容的词称为副主题词。 ? 直系同源:
Orthologs是指来自于不同物种的由垂直家系(物种形成)进化而来的蛋白,并且典型的保留与原始蛋白有相同的功能。 ? 序列模体(motif):
通常指蛋白序列中相邻或相近的一组具有保守性的残基,与蛋白质分子及家族的功能有关。
? 计分矩阵(scoring matrix):
记分矩阵是描述残基(氨基酸或碱基)在比对中出现的概率值的表。在记分矩阵中的值是两种概率比值的对数,一个是在序列比对中氨基酸随机发生的概率。这个值只是指出每个氨基酸出现的独立几率的概率。另一个是在序列比对中,一对残基的出现的有意义的概率。这些概率来源于已知有效的真实的序列的比对的样本。 ? 6. 遗传图谱(Genetic map)
又称连锁图谱(linkage map)或遗传连锁图谱(genetic linkage map) ,是指人类基因组内基因以及专一的多态性DNA标记(marker)相对位置的图谱,其研究经历了从经典的遗传图谱到现代遗传图谱的过程。 ? 7. 物理图谱(Physical map)
? 用物理学方法构建的由不同的DNA结构按其在染色体上的原始顺序和实际距离排
列的图谱。以定位的DNA标记序列如序列标签位点STS作为路标,以DNA实际长度即bp、kb、Mb为图距的基因组图谱。 ? 8. 转录图谱
以EST(expressed sequence tag ,表达序列标签)为标记,根据转录顺序的位置和距离
绘制的图谱。
? 9. 序列图谱(分子水平的物理图谱)
序列图谱是指整个人类基因组的核苷酸序列图,也是最详尽的物理图谱, 既包括可转录序列,也包括非转录序列,是转录序列、调节序列和功能未知序列的总和。 ? 10.旁系同源
用来描述在同一物种内由于基因复制而分离的同源基因。也可译作并系同源、横向同源。旁系同源体常见于同一物种,但也不是绝对如此。例如鼠的a球蛋白和b球蛋白基因是paralog;并且,鼠的a球蛋白和鸡的b球蛋白基因的关系也是paralog 简答题
一 什么是生物信息学?
? 生物信息学从事对基因组研究相关生物信息的获取、加工、储存、分配、分析和解
释。这一定义包括了两层含义,一是对海量数据的收集、整理与服务,也就是管好这些数据;另一个是从中发现新的规律,也就是用好这些数据。 ? 1)基因组相关信息的收集、储存、管理与提供 ? 2)新基因的发现与鉴定 ? 3)非编码区信息结构分析 ? 4)生物进化的研究
? 5)完整基因组的比较研究 ? 6)基因组信息分析的方法研究 ? 7)大规模基因功能表达谱的分析
? 8)蛋白质分子空间结构的预测、模拟和分子设计 ? 9)药物设计
二 PubMed检索的四个主要特点? ? 1)支持词汇自动转换
? 2)支持词组检索(需要加引号) ? 3)支持布尔逻辑运算 ? 4)支持截词检索
三 全基因组鸟枪法测序的步骤,鸟枪法测序的特点?
全基因组鸟枪法测序的主要步骤是:第一,建立高度随机、插入片段大小为2kb左右的基因组文库。克隆数要达到一定数量,即经末端测序的克隆片段的碱基总数应达到基因组5倍以上。第二,高效、大规模的末端测序。对文库中每一个克隆,进行两端测序,TIGR在完成流感嗜血杆菌的基因组时,使用了14台测序仪,用三个月时间完成了必需的28,463个测序反应,测序总长度达6倍基因组。第三,序列集合。TIGR发展了新的软件,修改了序列集合规则以最大限度地排除错误的连锁匹配。第四,填补缺口。有两种待填补的缺口,一是没有相应模板DNA的物理缺口,二是有模板DNA但未测序的序列缺口。他们建立了插入片段为15-20kb的λ文库以备缺口填补。(只写红字内容即可) 鸟枪法测序的缺点
1、随着所测基因组总量增大,所需测序的片段大量增加。
2、高等真核生物(如人类)基因组中有大量重复序列,导致判断失误。
相关推荐: