第一范文网 - 专业文章范例文档资料分享平台

生物信息学数据库_日本DDBJ数据库及其检索应用(1)

来源:用户分享 时间:2021-06-02 本文由清酒伊人 分享 下载这篇文档 手机版
说明:文章内容仅供预览,部分内容可能不全,需要完整文档或者需要复制内容,请下载word后使用。下载word有问题请添加微信号:xxxxxx或QQ:xxxxxx 处理(尽可能给您提供完整文档),感谢您的支持与谅解。

情报杂志2003年第5期

情报检索

生物信息学数据库

日本DDBJ数据库及其检索应用

邢美园 苏开颜

(浙江大学文献信息技术研究中心 杭州 310031)

摘 要 介绍了世界三大核酸序列数据库之一的DDBJ数据库及其检索应用,内容涉及数据提交、数据分析及数据检索,如getentry、SRS、Sfgate&WAIS、TXSearch等四种软件的登录号检索、关键词及分类检索的特点、使用与技巧等。关键词 核酸序列数据库 DDBJ 生物信息学

在人类基因组计划的推动下,以生物信息的采集、处理、存储、传播、分析和解释等多个方面为研究内容的生物信息学也得到了很大发展。目前核酸和蛋白质的序列分析已经成为生物科学工作者的一个不可或缺的基本技能。在各种生物信息数据中,最为重要的还是DNA序列数据

[1]

址,输入电子邮件地址后数据库马上给用户提供一个记录号,用于标记将要提交的数据信息,接着用户需提供联系人的姓名及确切联系地址,这些信息填好后即生成一个有关前述信息的记录,用户可以马上上传数据内容也可日后追加(SAKURA页面的Re sume),数据内容包括参考信息、序列信息及生物体信息等。参考信息要求提供来信信息的出版状况包括准备中(InPreparation)、submittedforpublication(投寄中)、在版(Inpress)、已出版(Pub lished)、只在本数据库出版(PublishedonlyinDatabase)等选项)、刊名、年、卷、页码及作者姓名等内容。序列信息要求提供序列的长度、序列内容等,其中序列数据可直接复制或粘贴到该页面进行提交,但在数据量很大无法粘贴时也可通过Upload将装载有关数据的文件直接上载。生物体信息要求提供分子类型、生物体名称、细胞系、细胞类型、染色体等37项内容。该途径数据提交格式较规范,为DDBJ推荐使用的途径。

MSS:于下列3种情况下推荐使用:a.同时提交大量数据;b.提交序列较长,内容复杂如有大量特征信息的基因组数据的情况;c.不适于SAKURA提交。该途径要求在数据正式提交之前,通过mass@ddbj.nig.ac.jp与该机构工作人员取得联系,并附有信息提供数据提交日期、要求获得登录号的日期、公布日期及联系人信息(姓名、联系地址、Email等)。

Sequin:为一独立的数据处理软件,由NCBI开发,用于Gen Bank、EMBL、DDBJ序列数据的提交与更新。它能在MacintoshPC/Windows及UNIX系统的计算机上运行操作,有单机版和网络版之分,后者可多人合作使用。该软件可通过DDBJ的匿名FTP服务器下载(ftp://ddbj.nig.ac.jp/pub/Sequin)。

1.2 数据检索 数据检索包括getentry、SRS、Sfgate&WAIS、TXSearch、Homology等几种方式,前四者用于检索DDBJ数据库中的原始数据,Homology采用FASTA/BLAST检索对用户提供的序列或片断作同源性分析。DDBJ所提供的几种检索方法可分为登录号检索、关键词检索和分类检索,其中getentry就属于登录号检索,SRS和Sfgate&WAIS属于关键词检索,TXSearch属于分类检索。

1.2.1 Getentry:通过登录号来检索DDBJ核酸序列数据库,最多可同时输入10个号码进行检索,各号码之间用空格或 , 加以分隔,连续号码可用 - 表示多个连续的号码,举例如下:D11111D11112D11113D11114或D11111,D11112,D11113,D11114或D11111-D11114或D11111-4。

。当今世界上最权威最广泛的

核酸序列数据库主要有:欧洲生物信息学研究所维护的EMBL数据库[2],美国国家生物技术信息中心(NCBI)的GenBank数据库[3]和日本国立遗传学研究所(NIG)的DDBJ数据库(DNADataBankofJapan)[4](http://www.ddbj.nig.ac.jp)。这三大数据库虽然具有各自不同的数据记录格式,但是对于核酸序列均采用了相同的记录标准,同时每天都交换数据以达到数据的更新和一致。从地域而言,EMBL主要负责收集欧洲的数据,GenBank负责美洲,DDBJ则负责亚洲。但是由于国际互联网的发展,用户可以任意地向其中任意一个数据库提交序列,所提交的序列也将从公布之日起同时在该三大数据库中出现。1 DDBJ数据库及其特点

DDBJ数据库创建于1984年,由日本国立遗传学研究所遗传信息中心维护。截至2002年6月,共收录17260693条记录,20158357982个核苷序列。它首先反映日本所产生的DNA数据,同时与GenBank、EMBL合作,互通有无,同步更新,每年四版。该数据库格式与GenBank一致。

由于当前生物信息学研究成果如基因组序列、核酸序列、蛋白质序列等主要来源于国家或国际研究机构、公司及私人研究等,这些专业数据库的数据收集与传统文献检索数据库的数据收集(包括文献资源的收集、加工、整理等过程)相比存在较大差别,这些生物信息学专业数据主要由有关的研究机构、公司及个人主动发布而来,相应的专业数据库为其提供数据提交平台,并且把这些数据作一定的处理后加入到数据库中供全世界同行业人员无偿查询使用。因此,DDBJ数据库主页除了数据库检索(Datasearch)功能外,还有数据提交(Datasubmission)、数据分析(Dataanalysis)等功能。

1.1 数据提交 DDBJ的数据提交可通过SAKURA、MSS和Sequin三个途径。

SAKURA:数据提交可用日文或英文两种文字,用户可按软件提供的模板格式(startfromtemplate)提交数据,也可从Start进行标准格式提交。该途径首先要求用户提供联系人的Email地

搜索“diyifanwen.net”或“第一范文网”即可找到本站免费阅读全部范文。收藏本站方便下次阅读,第一范文网,提供最新人文社科生物信息学数据库_日本DDBJ数据库及其检索应用(1)全文阅读和word下载服务。

生物信息学数据库_日本DDBJ数据库及其检索应用(1).doc 将本文的Word文档下载到电脑,方便复制、编辑、收藏和打印
本文链接:https://www.diyifanwen.net/wenku/1199060.html(转载请注明文章来源)
热门推荐
Copyright © 2018-2022 第一范文网 版权所有 免责声明 | 联系我们
声明 :本网站尊重并保护知识产权,根据《信息网络传播权保护条例》,如果我们转载的作品侵犯了您的权利,请在一个月内通知我们,我们会及时删除。
客服QQ:xxxxxx 邮箱:xxxxxx@qq.com
渝ICP备2023013149号
Top