NCBI使用方法

更新时间:2023-03-08 08:16:01 阅读量: 综合文库 文档下载

说明:文章内容仅供预览,部分内容可能不全。下载后的文档,内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的,是否完整无缺。

NCBI 使用方法 默认分类 2008-03-24 15:14 阅读 2903 评论 12 字号: 大 中 小 NCBI (National Center for Biotechnology Information),

美国国家生物技术信息中心

[url]http://www.ncbi.nlm.nih.gov/[/url] NCBI 是 NIH 的国立医学图书馆(NLM)的一个分支。 NCBI 提供检索的服务包括: 1.GenBank(NIH 遗传序列数据库):一个可以公开获得所有的 DNA 序列的注释过的收集。Gen Bank 是由 NCBI 受过分子生物学高级训练的工作人员通过来自各个实验室递交的序列和同国际核酸序列数 据库(EMBL 和 DDBJ)交换数据建立起数据库的。它同日本和欧洲分子生物学实验室的 DNA 数据库共同 构成了国际核酸序列数据库合作。这三个组织每天交换数据。其中的数据以指数形式增长,最近的数据为 它已经有来自 47000 个物种的 30 亿个碱基。 2.Molecular Databases(分子数据库): Nucleotide Sequence(核酸序列库):从 NCBI 其他如 Genbank 数据库中收集整理核酸序列,提 供直接的检索。 Protein Sequence (蛋白质序列库):与核酸类似,也是从 NCBI 多个不同资源中编译整理的,方 便研究者的直接查询。 Structure(结构)-—— 关于 NCBI 结构小组的一般信息和他们的研究计划,另外也可以访问三维蛋 白质结构的分子模型数据库(MMDB)和用来搜索和显示结构的相关工具。MMDB:分子模型数据库 — 一个关于三维生物分子结构的数据库,结构来自于 X-ray 晶体衍射和 NMR 色谱分析。 Taxonomy(分类学)——NCBI 的分类数据库,包括大于 7 万余个物种的名字和种系,这些物种都

至少在遗传数据库中有一条核酸或蛋白序列。其目的是为序列数据库建立一个一致的种系发生分类学。 3.Literature Databases(文献数据库) (1)PubMed 是 NLM 提供的一项服务,能够对 MEDLINE 上超过 1200 万条的上世纪六十年代中期 至今的杂志引用和其他的生命科学期刊进行访问,并可以连接到参与的出版商网络站点的全文文章和其他 相关资源。 (2)PMC/PubMed Center:也是 NLM 的生命科学期刊文献的数字化存储数据库,用户可以免费获 取 PMC 的文章全文,除了部分期刊要求对近期的文章付费。 (3)OMIM(孟德尔人类遗传):有关人类基因和无序基因的目录数据库由 Victor A.McKusick 和 他的同事共同创造和编辑的,由 NCBI 网站负责开发,其中也包括对 MEDINE 众多资源和 Entrez 系统的 序列记录,以及 NCBI 中其他有关资源的链接。 (4)Books:NCBI 的书库不断收集生物医学方面的书籍,提供这些书籍的出版信息、摘要、目录和 全文的连接,用户可以直接在检索文本框内输入一个观念就可以查询。 4.NCBI 提供的附加的软件工具有: 开放阅读框寻觅器(ORF Finder),电子 PCR,和序列提交工具 Sequin 和 BankIt。所有的 NCBI 数据库和软件工具可以从 WWW 或 FTP 来获得。NCBI 还有 E-mail 服务器,提供用文本搜索或序列相似 搜索访问数据库一种可选方法。 NCBI 网站上还提供了一些诸如研究热点问题、研究小组情况、教育培训、 联系方式等信息,还提供了到 NIH、NLM 等的链接。 使用方法: 用户可以免费登陆 NCBI 的网站,NCBI 为使用者提供了方便的检索系统和检索方法: 1.Entrez

是 NCBI 为用户提供整合所有数据库的访问序列,定位,分类,和结构数据的搜索和检索 工具系统,同时也提供序列和染色体图谱的图形视图。用户进入系统或者进入任意一个数据库,都会看到 简单检索的界面,选择数据库输入关键词即可进行查询。Entrez 也提供条件限制和高级检索、布尔逻辑查 询。使用新的 Linkout 服务,外部资源可以被链接到 Entrez 记录。 2.BLAST 是一个 NCBI 开发的序列相似搜索程序,还可作为鉴别基因和遗传特点的手段。BLAST 能够在小于 15 秒的时间内对整个 DNA 数据库执行序列搜

NCBI

Education

[url]http://www.ncbi.nlm.nih.gov/Education/index.html[/url] 网址详情: 这是 NCBI 在线教育资源的索引页,从这里出发你会找到 NCBI 提供的教学资源,这些教程不仅囊括 了 NCBI 网站提供的最常用的工具和数据库(BLAST, Entrez, PubMed, NCBI News,Resource p ublications ,Map Viewer exercises,Structure ,NCBI Handbook)的使用方法和信息,还有一些相关 的分子生物学的基础入门知识(NCBI science primer...)。 教程大多不仅有文字图片还有动画,直观易懂,目的就是一个让大家尽可能快而有效的掌握好 NCBI 的使用,在这个聚宝盆里淘到真金。 当然您如果想对所有 NCBI 的数据库和工具有更透彻深入的了解,请绝对不要错过共 24 章的 NCBI

(NCBI

Handbook)

[url]http://www.ncbi.nlm.nih.gov/books/bv.fcgi?rid=handbook[/url] 小何 2007-9-7 09:20 GenBank 数据库简介 [color=green][i]不错的

内容,我来补充下[/i][/color][color=red]GenBank 数据库简介[/color] [b]基本信息 :[/b] 1. GenBank 属于一个序列数据库的国际合作组织,包括 EMBL 和 DDBJ。是 NIH 遗传序列数据库, 一个所有可以公开获得的 DNA 序列的注释过的收集。GenBank 同日本和欧洲分子生物学实验室的 DNA 数据库共同构成了国际核酸序列数据库合作。唯一人类基因序列集合(UniGene) ,人类基因组基因图谱, 分类学浏览器,同国立癌症研究所合作的癌症基因组剖析计划(CGAP)等数据库。GenBank 以指数形式 增长,核酸碱基数目大概每 14 个月就翻一个倍。 2. 纪录样本 - 关于 GenBank 的各个字段的详细描述,以及同 Entrez 搜索字段的交叉索引。 3. 访问 GenBank - 通过 Entrez Nucleotides 来查询。用 accession number,作者姓名,物种,基 因/蛋白名字,还有许多其他的文本术语来查询。关于 Entrez 更多的信息请看下文。用 BLAST 来在 GenB ank 和其他数据库中进行序列相似搜索。用 E-mail 来访问 Entrez 和 BLAST 可以通过 Query 和 BLAST 服 务器。另外一种选择是可以用 FTP 下载整个的 GenBank 和更新数据。 4. 增长统计 - 参见公布通知的 2.2.6(每个分类的统计),2.2.7(每个物种的统计),2.2.8(Gen Bank 增长)小节。 5. 公布通知,最新 - 最近和即将有的变化,GenBank 的分类,数据增长统计,GenBank 的引用。 6. 公布通知,旧 - 同上相同,是过去公布的统计。 7. 遗传密码 - 15 个遗传密码的概要。用来确保 GenBank 中纪录的编码序列被正确的翻译。 [b]向 GenBank 提交数据 :[/b] 1. 关于提交序列数据,收到

accession number,和对纪录作更新的一般信息。 2. BankIt - 用于一条或者少数条提交的基于 WWW 的提交工具软件。(请在提交前用 VecScreen 去除载体) 3. Sequin - 提交软件程序,用于一条或者很多条的提交,长序列,完整基因组,alignments,人群 /种系/突变研究的提交。可以独立使用,或者用基于 TCP/IP 的“network aware”模式,可以链接到其他 NC BI 的资源和软件比如 Entrez 和 PowerBLAST。(请在提交前用 VecScreen 去除载体) 4. ESTs - 表达序列标签,短的、单次(测序)阅读的 cDNA 序列。也包括来自于差异显示和 RAC E 实验的 cDNA 序列。 5. GSSs - 基因组调查序列,短的、单次(测序)阅读的 cDNA 序列,exon trap 获得的序列,cos mid/BAC/YAC 末端,及其他。 6. HTGs - 来自于大规模测序中心的高通量基因组序列,未完成的(阶段 0,1,2)和完成的(阶 段 3)序列。(注意:完成的人类的 HTG 序列可以同时在 GenBank 和 Human Genome Sequencing 页 面上访问。) 7. STSs - 序列标签位点。短的在基因组上可以被唯一操作的序列,用于产生作图位点。 8. 注:SNPs - 人类的和其他物种的遗传变异数据可以提交到 NCBI 数据库的单核苷酸多态性库中 (dbSNP)。 [b]国际核苷酸序列数据库合作组织 :[/b] 1. GenBank,DDBJ,EMBL - 合作计划的概述,并链接到相应的主页。GenBank,DDBJ(DNA Data Bank of Japan),and EMBL (European Molecular Biology Laboratory)数据库共享的数据是 每天都交换的,因此他们是相等的。数据纪录的格式和搜索方式可能会不一样,但是 accession

number, 序列数据和注解都是一模一样的。即,你可以用 accession number U12345 在 GenBank,DDBJ 或 EMB L 中查找相应纪录,得到的结果是完全一样的序列数据,参考内容等等 2. DDBJ/EMBJ/GenBank 特性表 — 特性表格式和标准被合作数据库用在序列记录的注释上,使得 数据共享成为可能,包括详细的描述生物特性和特性限定语的附录,以及 IUPAC 规定的核苷酸和氨基酸的 代号。 [b]FTP GenBank and Daily Updates:[/b] 1. GenBank 普通文件格式 — 参见 GenBank 记录样本和在 GenBank 公布通知中的详细描述,下 载大多数最近的完全公告和日常积累或非积累更新数据。 2. ASN.1 格式 — 摘要句法记号 1,国际标准组织(ISO)数据表示格式,下载大多数最近的完全 公告和日常积累或非积累更新数据。 3. FASTA 格式 — 定义行号后只跟随序列数据(示例),参见描述数据库的 readme 文件,包括 n t.Z(每天更新的非冗余 BLAST 核酸数据库,包括 GenBank+EMBL+DDBJ+PDB 序列,但是不包括 EST, STS, GSS, or HTGS 序列) ,nr.Z (每日更新的非冗余蛋白质) ,est.Z, gss.Z, htg.Z, sts.Z,和其它文件。 [b]分子数据库:[/b] 1. 核酸序列 1、 Entrez 核酸: 用 accession number,作者姓名,物种,基因/蛋白名字,以及很多其它的文本术 语来搜索核酸序列记录(在 GenBank + PDB 中)。更多的关于 Entrez 的信息见下。如果要检索大量数 据,也可使用 Batch Entrez(批量 Entrez)。 2、 RefSeq : NCBI 数据库的参考序列。校正的,非冗余集合,包括基因组 DNA contigs,已知 基因的 mRNAs 和蛋白,在将来,整

个的染色体。Accession numbers 用 NT_xxxxxx, NM_xxxxxx, NP_x xxxxx, 和 NC_xxxxxx 的形式来表示。 3、 dbEST :表达序列标签数据库,短的、单次(测序)阅读的 cDNA 序列。也包括来自于差异显 示和 RACE 实验的 cDNA 序列。 4、 dbGSS :基因组调查序列的数据库,短的、单次(测序)阅读的 cDNA 序列,exon trap 获得 的序列,cosmid/BAC/YAC 末端,及其他。 5、 dbSTS :序列标签位点的数据库,短的在基因组上可以被唯一操作的序列,用于产生作图位点。 6.、 dbSNP :单核苷酸多态性数据库,包括 SNPs,小范围的插入/缺失,多态重复单元,和微卫 星变异。 2. 完整的基因组 : 1、 参见下面 Genome 和 Maps 部分,包括各种物种资源,人,小鼠,大鼠,酵母,线虫,疟原虫, 细菌,病毒,viroids,质粒。 2、 发 UniGene : 被整理成簇的 EST 和全长 mRNA 序列,每一个代表一种特定已知的或假设的 人类基因,有定位图和表达信息以及同其它资源的交叉参考。序列数据可以以 cluster 形式在 Unigene 网 页下载,完整的数据可以从 FTP 站点 repository/UniGene 目录下下载。 1) 人类:UniGene 2) 小鼠:UniGene 3) 大鼠:UniGene 4) 斑马鱼:UniGene 3、 BLAST :将你的序列同核酸库中的的序列比较,检索相似的序列。(更详细的信息见下面 Too ls/Sequence 相似搜索部分) [b]蛋白序列 :[/b] 1、 Entrez 蛋白 :用 accession number,作者姓名,物种,基因/蛋白名字,以及很多其它的文本术 语来搜索蛋白序列记录(在 GenPept + Swiss-Prot + PIR + RPF + PDB 中)。更多的关于 Entrez 的 信息见

下。如果要检索大量数据,也可使用 Batch Entrez(批量 Entrez)。 RefSeq — NCBI 数据库的 参考序列。Curated, 非冗余集合包括基因组 DNA contigs,已知基因的 mRNAs 和蛋白,在将来,整个的染 色体。Accession numbers 用 NT_xxxxxx, NM_xxxxxx, NP_xxxxxx, 和 NC_xxxxxx 的形式来表示。 FT PGenPept — 下载“genpept.fsa.Z”文件,这个文件包含了从 GenBank/EMBL/DDBJ 记录中翻译过来的 F ASTA 格式的氨基酸序列,这些记录都有一到两个 CDS 特性的描述。 2、 完整基因组 :参见下面 Genome 和 Maps 部分,包括各种物种资源,人,小鼠,大鼠,酵母, 线虫,疟原虫,细菌,病毒,viroids,质粒。 1) Entrez 基因组 :提供了一个编码区的概要和各种物种的分类表(TaxTable)。编码区概要列出 了在基因组中所有的的蛋白,并提供链接到 FASTA 文件和 BLAST。分类表总结了蛋白 BLAST 分析的结 果,建议他们的可能功能,并用颜色编码的图来显示物种同其它物种之间的关系(参见下面'Genomes 和 Maps,'部分 Entrez 基因组的一般描述) 2) FTP 基因组蛋白 :从 ftp 站点的 genbank/genomes 目录下下载各种物种的 FASTA 格式的氨基 酸序列*.faa 和蛋白表文件*.ptt。参见 readme 文件。蛋白表也可以在 Entrez 基因组中看到。 3、 PROW : Web 上的蛋白资源,关于大约 200 种人类的 CD 细胞表面分子的简短官方向导。互 相检索,为每个 CD 抗原提供大约 20 中标准信息的分类(生化功能,配体,等等) 4、 BLAST : 将你的序列同蛋白库中的的序列比较,检索相似的序列。(更详细的信息

见下面 To ols/Sequence 相似搜索部分) [b]结构: [/b] 1、 结构主页 — 关于 NCBI 结构小组的一般信息和他们的研究计划,另外也可以访问分子模型数据 库(MMDB)和用来搜索和显示结构的相关工具。 2、 MMDB:分子模型数据库 — 一个关于三维生物分子结构的数据库,结构来自于 X-ray 晶体衍 射和 NMR 色谱分析。MMDB 是来源于 Brookhaven 蛋白数据库(PDB)三维结构的一部分,排除了那些 理论模型。MMDB 重新组织和验证了这些信息,从而保证在化学和大分子三维结构之间的交叉参考。数据 的说明书包括生物多聚体的空间结构,这个分子在化学上是如何组织的,以及联系两者的一套指针。利用 将化学,序列,和结构信息整合在一起,MMDB 计划成为基于结构的同源模型化和蛋白结构预测的资源服 务。MMDB 的记录以 ASN.1 格式存储,可以用 Cn3D, Rasmol, 或 Kinemage 来显示。另外,数据库中 类似的结构已经被用 VAST 确认,新的结构可以用 VASTsearch 来同数据库进行比较。 3、 Cn3D — “See in 3-D”, 一个用于 NCBI 数据库的结构和序列相似显示工具,它允许观察 3D 结构和序列—结构或结构—结构同源比较。Cn3D 用起来就象你浏览器上的一个帮助工具。 4、 VAST — 矢量同源比较搜索工具—一个在 NCBI 开发的计算算法,用于确定相似的蛋白三维结 构。每一个结构的“结构邻居”都是预先计算好的,而且可以通过 MMDB 的结构概要页面的链接访问。这些 邻居可以用来确认那些不能被序列比较识别的远的同源性。 5、 VAST 搜索 — 结构—结构相似搜索服务。比较一个新解出的蛋白结构和在

MMDB/PDB 数据 库中的结构的三维坐标。VAST 搜索计算一系列可能会被交互浏览的结构邻居,用分子图形来观察重叠和 同源相似。 [b]分类学 :[/b] 1、 NCBI 的分类数据库主页 — 关于分类计划的一般信息,包括分类资源和同 NCBI 分类学家合作 的外部管理者的列表。 2、 分类浏览器 — 搜索 NCBI 的分类数据库,包括大于 70000 个物种的名字和种系,这些物种都 至少在遗传数据库中有一条核酸或蛋白序列。可以检索一个特定种或者更高分类(如属,科)的核酸,蛋 白,和结构记录。如果有新物种的序列数据被放到数据库中,这个物种就北加到(分类)数据库中。NCBI 的分类数据库的目的是为序列数据库建立一个一致的种系发生分类学。 [b]文献数据库概要 :[/b] 1、 PubMed — 一个关于生物医药科学的检索系统,包括引用,摘要,和杂志的索引术语。它包括 直接由出版商提供给 NCBI 的文献引用以及链接到在出版商网址上的全文的 URLs。PubMed 包括 MEDLI NE 和 PREMEDLINE 的完整内容。它还包括一些被 MEDLINE 认为超出范围的文章和杂志, (这些文章或 杂志)由于内容或在某一时期不在索引范围内。因此 PubMed 是比 MEDLINE 的更大的集合。 2、 杂志浏览器 — 允许你去查找收录到 PubMed 系统的杂志的名字,MEDLINE 的缩写,或 ISSN 号码。 3、 PubRef(开发中)— 一个关于来自于广大范围的科学杂志的数目记录,和链接到出版商网址的 全文。PubRef 包含了 PubMEd,加上了来自其它学科的杂志出版商提供的引用和摘要。因此它是比 Pub Med 更大的集合。这个计划的启动是因为 NAS 要求

为科学领域的核心刊物提供一个“白皮书”服务。 4、 PubMed 中心(开发中) — PubMed 中心是一个无障碍的 NIH 资源,用于在生命科学领域中 同业互查的基础研究报告。从 2000 年一月开始接受杂志文章。所有在 PubMed 中心的材料将由目前任一 主要的摘要和索引服务中列出的杂志提供,或者在编辑委员会中拥有 3 个以上有主要资金机构的研究经费 的拥有人的杂志提供。 5、 OMIM — 在线人类孟德尔遗传—经常更新的人类基因和遗传失调的目录,有链接到其它相关的 文献参考,序列记录,和相关数据库。 6、 书籍 — 同书籍出版商合作 NCBI 为网络改编了教科书,并把他们链接到 PubMed—生物医药书 目数据库 这是为了给 PubMed 提供背景信息 这样使用者可以探究在 PubMed 搜索结果中不熟悉的概念。 。 , 目前收录的书有: 7 Molecular Biology of the Cell, 3rd ed. Alberts B., Bray D., Lewis J., Raff M., Roberts K., 、 Watson J.D., 1994, Garland Publishing. 8、 外部链接 — 一个登记服务,用于建立从在 Entrez 中的特定的文章,杂志,或生物数据到外部 网址的链接。第三方可以提供一个 URL,资源名字,关于他们网址的简要的描述,和关于从 NCBI 数据的 哪里他们希望建立链接的详细说明。这个详细说明可以用对 Entrez 有效的布尔查询来写,也可以用特定的 文章或序列的标志列表来写。这样 NCBI PubMed 的用户将可以通过“NCBI 小房间”服务(开发中)来选择 哪个外部链接在他们的搜索中是可见的。 9、 引用匹配 — 允许你找到任何一篇在 PubMed 数据库中的文章的 PubMed ID 或 MEDLINE UI D,给出

书目信息(杂志,卷,页码等)。 10、 单篇文章的引用匹配。 11、 许多文章的批量引用匹配。 12、 E-mail 引用匹配也是可以的,也可以用于单篇或许多文章。如果要获得帮助文件,给[email=ci tation_matcher@ncbi.nlm.nih.gov]citation_matcher@ncbi.nlm.nih.gov[/email]写一封只有内容为 HELP 的 E-Mail。 [b]Genomes and Maps Overview:[/b] 1、 Entrez 基因组:人,小鼠,大鼠,酵母,线虫,疟原虫,细菌,病毒,viroids,质粒,和真核 细胞器。 2、 Entrez 基因组(各种物种) 3、 Entrez 基因组 — 超过 800 种在 GenBank 中被完整测序的物种,包括大于 500 种病毒,〉25 种细菌,酵母,和许多 viroids,质粒,和细胞器。还包括正在进行中的基因组,比如人,小鼠,线虫,疟 原虫,果蝇,利什曼原虫,水稻,和玉米。提供完成的基因组/染色体的图形概览,并可以探究那些逐步细 化的区域。也提供那些已经被 NCBI 工作人员分析过的物种的编码区的摘要和 TaxTables。另外,Entrez Map Viewer,Entrez 基因组的一个软件组成部分,提供整合的果蝇(细胞遗传学和序列图谱)和人类(细 胞遗传学,遗传连锁,序列,放射杂交,和其它图谱)的染色体图谱的浏览。 4、 通过每个物种的 Entrez 基因组页面来下载〈350kb 的基因组。 5、 通过 NCBI ftp 站点来下载〉350kb 的基因组—参见在 genbank/genomes 目录下的 readme 文 件,ftp 链接在每个物种的 Entrez 基因组页面上也有。 [b]NCBI 站点地图---其他基因组数据介绍:[/b] 1、 小鼠基因组 1) 小鼠基因组资源向导 :把从各个中心来的各种小鼠相关的资源整合在一起,包括序列,图谱,

和 克隆信息以及指向小鼠种系和突变资源的指针。 2) 小鼠基因组测序:小鼠基因组计划的测序进展,HTG 序列 contigs(可以用大小和染色体号来浏 览)由测序中心的数据建立,可以 contig 或染色体的形式来下载。 3) 小鼠 UniGene :被整理成簇的 EST 和全长 mRNA 序列,每一个代表一种特定已知的或假设的基 因,有定位图和表达信息以及同其它资源的交叉参考。序列数据可以以 cluster 形式在 Unigene 网页下载, 完整的数据可以从 FTP 站点 repository/UniGene 目录下下载 4) 位点链接(LocusLink) :为校正过的序列和遗传位点的描述信息提供一个单次查询界面。Locu sLink 给每个位点发布一个稳定的 ID,并提供官方的命名,序列 accesssion number, Unigene 簇,图谱 信息,和相关的网址。LocusLink 是 NCBI,人类基因命名委员会,OMIM 和其它组织的合作结果。Locus Link 目前包含人类,小鼠,大鼠,斑马鱼,和果蝇的位点,物种可以被分开或合在一起查询。 5) Entrez :包括了来自〉70000 个物种的序列数据,可以用物种字段来限制记录只在小鼠搜索。 6) 人类/小鼠同源图 :University of California at Davis 的 M. F. Seldin 建立,一张比较人和老鼠 在同源区段 DNA 上基因的表,按在每个基因组上的位置排列。 2、 大鼠基因组 1) 大鼠 UniGene :被整理成簇的 EST 和全长 mRNA 序列,每一个代表一种特定已知的或假设的基 因,有定位图和表达信息以及同其它资源的交叉参考。序列数据可以以 cluster 形式在 Unigene 网页下载, 完整的数据可以从 FTP 站点 repository/UniGene 目录下下载 2)

位点链接(LocusLink):为校正过的序列和遗传位点的描述信息提供一个单次查询界面。Locus Link 给每个位点发布一个稳定的 ID,并提供官方的命名,序列 accesssion number, Unigene 簇,图谱 信息,和相关的网址。LocusLink 是 NCBI,人类基因命名委员会,OMIM 和其它组织的合作结果。Locus Link 目前包含人类,小鼠,大鼠,斑马鱼,和果蝇的位点,物种可以被分开或合在一起查询。 3、 斑马鱼基因组 1) 斑马鱼 UniGene :被整理成簇的 EST 和全长 mRNA 序列,每一个代表一种特定已知的或假设的 基因,有定位图和表达信息以及同其它资源的交叉参考。序列数据可以以 cluster 形式在 Unigene 网页下 载,完整的数据可以从 FTP 站点 repository/UniGene 目录下下载 2) 位点链接(LocusLink) :为校正过的序列和遗传位点的描述信息提供一个单次查询界面。Locu sLink 给每个位点发布一个稳定的 ID,并提供官方的命名,序列 accesssion number, Unigene 簇,图谱 信息,和相关的网址。LocusLink 是 NCBI,人类基因命名委员会,OMIM 和其它组织的合作结果。Locus Link 目前包含人类,小鼠,大鼠,斑马鱼,和果蝇的位点,物种可以被分开或合在一起查询。 4、 果蝇基因组 1) 黑腹果蝇主页 : 提供所有可使用的果蝇资源的概要,用图形的方式显示了染色体,允许你通过 Entrez 基因组浏览器的方法来搜索整个基因组的细胞遗传和序列信息。Entrez 基因组提供了对于一个物种 一致的遗传,物理,和序列数据的图形界面。当你用一个基因的代号来搜索时,它给出搜索结果的一个图 形的基因组视图,从那你可以放

大到你所感兴趣的区域的更详细的图谱视图,并且链接到序列数据和包含 更多信息的相关资源。 2) 黑腹果蝇基因组测序的状态 :描述了目前在 GenBank,Entrez Genomes,和 FTP 站点中的数 据的范围 3) Entrez 图谱浏览器 :整合的染色体图谱—图谱浏览器是 Entrez 基因组的一个软件组成部分,用 来显示一个或多个用共同标记或基因名字互相 align 过的图谱,以及用相同序列进行比较过的序列图谱。在 人类基因组数据和搜索技巧文件中有关于目前可以使用的果蝇的序列和细胞遗传学图谱。Entrez 图谱浏览 器的帮助文件提供了关于如何使用这个工具的一般说明。 4) 位点链接(LocusLink): 为校正过的序列和遗传位点的描述信息提供一个单次查询界面。Locu sLink 给每个位点发布一个稳定的 ID,并提供官方的命名,序列 accesssion number, Unigene 簇,图谱 信息,和相关的网址。LocusLink 是 NCBI,人类基因命名委员会,OMIM 和其它组织的合作结果。Locus Link 目前包含人类,小鼠,大鼠,斑马鱼,和果蝇的位点,物种可以被分开或合在一起查询。 5、 线虫基因组 Entrez 基因组:染色体的图形表示,可以整个的查看,也可以逐步放大的看。链接到相关的序列数 据。 6、 酵母基因组 1) Entrez 基因组 :染色体的图形表示,可以整个的查看,也可以逐步放大的看。链接到相关的序 列数据。 2) COGs :相邻类的聚簇 — 来自于完整基因组的基因家族自然系统。COGs 用比较 21 种完整的 基因组的编码的蛋白序列描绘了 17 个主要的种系发生系统。每个 COG 包含至少来自 3 个世系的独立蛋白 或蛋白家族的相邻

体,所以对应了一个古老的保守 domain。 7、 疟原虫基因组 1) 疟原虫遗传学和基因组:提供与疟原虫遗传学和基因相关的数据和信息。资源包括物种特异的序 列 BLAST 数据库(恶性疟原虫,所有疟原虫,以及弓形虫),基因组图谱,连锁标记,以及遗传学研究 信息。链接到其他的疟原虫网站和相关的寄生虫遗传学数据库包括弓形虫。 2) Entrez 基因组 — 恶性疟原虫的染色体全长的图形视图,完整的染色体序列数据(2 和 3),链 接到正在进行的染色体的分离数据表(来自于 HB3 X Dd2 杂交的染色体) ,链接到其他基因组测序中心。 3) FTP 站点 (pub/Malaria 目录):用于查找在 DNA 序列中 STS 的电子 PCR 疟原虫版。 4) FTP 站点 (genbank/genomes 目录):下载各种格式的完整的染色体序列数据(2 和 3) ,包括 G enBank 的 flat file (*.gbk),GenBank 的概要文件(*.gbs),FASTA 核酸文件(*.fna),FASTA 氨基酸文 件(*.faa),蛋白表(*.ptt)和其他。 8、 细菌基因组 1) Entrez 基因组 — 完整细菌基因组的图形表示,可以整个的查看,也可以逐步放大的看。链接到 相关的序列数据。对每一个细菌都提供了一个编码区域的概要和 TaxTable。 2) 微生物基因组测序计划:完成的和正在进行的测序计划,链接到 NCBI 的图形视图和测序中心。 3) COGs :相邻类的聚簇 — 来自于完整基因组的基因家族自然系统。COGs 用比较 21 种完整的基 因组的编码的蛋白序列描绘了 17 个主要的种系发生系统。每个 COG 包含至少来自 3 个世系的独立蛋白或 蛋白家族的相邻体,所以对应了一个古老的保守 domain。 4) FTP 站点:

下载各种格式的完整的细菌染色体序列数据,包括 GenBank 的 flat file (*.gbk),Gen Bank 的概要文件(*.gbs),FASTA 核酸文件(*.fna),FASTA 氨基酸文件(*.faa),蛋白表(*.ptt)和其 他。 5) 微生物基因组 BLAST 数据库 :与完成的和未完成的微生物基因组进行 BLAST

GenBank Overview 基本信息

? 什么是GenBank?GenBank是一个有来自于70,000多种生物的核苷酸序列的数据库。每条纪录都有编码区(CDS)特征的注释,还包括氨基酸的翻译。GenBank属于一个序列数据库的国际合作组织,包括EMBL和DDBJ。

? 纪录样本 - 关于GenBank的各个字段的详细描述,以及同Entrez搜索字段的交叉索引。

? 访问GenBank - 通过Entrez Nucleotides来查询。用accession number,作者姓名,物种,基因/蛋白名字,还有许多其他的文本术语来查询。关于Entrez更多的信息请看下文。用BLAST来在GenBank和其他数据库中进行序列相似搜索。用E-mail来访问Entrez和BLAST可以通过Query和BLAST服务器。另外一种选择是可以用FTP下载整个的GenBank和更新数据。

? 增长统计 - 参见公布通知的2.2.6(每个分类的统计),2.2.7(每

个物种的统计),2.2.8(GenBank增长)小节。

? 公布通知,最新 - 最近和即将有的变化,GenBank的分类,数据增长统计,GenBank的引用。

? 公布通知,旧 - 同上相同,是过去公布的统计。

? 遗传密码 - 15个遗传密码的概要。用来确保GenBank中纪录的编码序列被正确的翻译。 (向)GenBank提交(数据)

? 关于提交序列数据,收到accession number,和对纪录作更新的一般信息。

? BankIt - 用于一条或者少数条提交的基于WWW的提交工具软件。(请在提交前用VecScreen去除载体)

? Sequin - 提交软件程序,用于一条或者很多条的提交,长序列,完整基因组,alignments,人群/种系/突变研究的提交。可以独立使用,或者用基于TCP/IP的“network aware”模式,可以链接到其他NCBI的资源和软件比如Entrez和PowerBLAST。(请在提交前用VecScreen去除载体)

? ESTs - 表达序列标签,短的、单次(测序)阅读的cDNA序列。也包括来自于差异显示和RACE实验的cDNA序列。

? GSSs - 基因组调查序列,短的、单次(测序)阅读的cDNA序列,exon trap获得的序列,cosmid/BAC/YAC末端,及其他。 ? HTGs - 来自于大规模测序中心的高通量基因组序列,未完成的(阶段0,1,2)和完成的(阶段3)序列。(注意:完成的人类的HTG

序列可以同时在GenBank和Human Genome Sequencing页面上访问。)

? STSs - 序列标签位点。短的在基因组上可以被唯一操作的序列,用于产生作图位点。

? 注:SNPs - 人类的和其他物种的遗传变异数据可以提交到NCBI数据库的单核苷酸多态性库中(dbSNP)。 国际核苷酸序列数据库合作组织

? GenBank,DDBJ,EMBL - 合作计划的概述,并链接到相应的主页。GenBank,DDBJ(DNA Data Bank of Japan),and EMBL (European Molecular Biology Laboratory)数据库共享的数据是每天都交换的,因此他们是相等的。数据纪录的格式和搜索方式可能会不一样,但是accession number,序列数据和注解都是一模一样的。即,你可以用accession number U12345在GenBank,DDBJ或EMBL中查找相应纪录,得到的结果是完全一样的序列数据,参考内容等等。

? DDBJ/EMBJ/GenBank特性表 — 特性表格式和标准被合作数据库用在序列记录的注释上,使得数据共享成为可能,包括详细的描述生物特性和特性限定语的附录,以及IUPAC规定的核苷酸和氨基酸的代号。

________________________________________ FTP GenBank and Daily Updates

? GenBank普通文件格式 — 参见GenBank记录样本和在

GenBank公布通知中的详细描述,下载大多数最近的完全公告和日常积累或非积累更新数据。

? ASN.1格式 — 摘要句法记号1,国际标准组织(ISO)数据表示格式,下载大多数最近的完全公告和日常积累或非积累更新数据。 ? FASTA格式 — 定义行号后只跟随序列数据(示例),参见描述数据库的readme文件,包括nt.Z(每天更新的非冗余BLAST核酸数据库,包括GenBank+EMBL+DDBJ+PDB序列,但是不包括EST, STS, GSS, or HTGS序列),nr.Z(每日更新的非冗余蛋白质),est.Z, gss.Z, htg.Z, sts.Z,和其它文件。 分子数据库概览 核酸序列

? Entrez核酸 — 用accession number,作者姓名,物种,基因/蛋白名字,以及很多其它的文本术语来搜索核酸序列记录(在GenBank + PDB中)。更多的关于Entrez的信息见下。如果要检索大量数据,也可使用Batch Entrez(批量Entrez)。

? RefSeq — NCBI数据库的参考序列。校正的,非冗余集合,包括基因组DNA contigs,已知基因的mRNAs和蛋白,在将来,整个的染色体。Accession numbers用NT_xxxxxx, NM_xxxxxx, NP_xxxxxx, 和NC_xxxxxx的形式来表示。

? dbEST — 表达序列标签数据库,短的、单次(测序)阅读的cDNA序列。也包括来自于差异显示和RACE实验的cDNA序列。 ? dbGSS —基因组调查序列的数据库,短的、单次(测序)阅读的

cDNA序列,exon trap获得的序列,cosmid/BAC/YAC末端,及其他。

? dbSTS —序列标签位点的数据库,短的在基因组上可以被唯一操作的序列,用于产生作图位点。

? dbSNP — 单核苷酸多态性数据库,包括SNPs,小范围的插入/缺失,多态重复单元,和微卫星变异。 完整的基因组

? 参见下面Genome和Maps部分,包括各种物种资源,人,小鼠,大鼠,酵母,线虫,疟原虫,细菌,病毒,viroids,质粒。 ? UniGene — 被整理成簇的EST和全长mRNA序列,每一个代表一种特定已知的或假设的人类基因,有定位图和表达信息以及同其它资源的交叉参考。序列数据可以以cluster形式在Unigene网页下载,完整的数据可以从FTP站点repository/UniGene目录下下载。 o 人类UniGene o 小鼠UniGene o 大鼠UniGene o 斑马鱼UniGene

? BLAST — 将你的序列同核酸库中的的序列比较,检索相似的序列。(更详细的信息见下面Tools/Sequence相似搜索部分) 蛋白序列

? Entrez蛋白 —用accession number,作者姓名,物种,基因/蛋白名字,以及很多其它的文本术语来搜索蛋白序列记录(在GenPept +

Swiss-Prot + PIR + RPF + PDB中)。更多的关于Entrez的信息见下。如果要检索大量数据,也可使用Batch Entrez(批量Entrez)。 ? RefSeq — NCBI数据库的参考序列。Curated, 非冗余集合包括基因组DNA contigs,已知基因的mRNAs和蛋白,在将来,整个的染色体。Accession numbers用NT_xxxxxx, NM_xxxxxx, NP_xxxxxx, 和NC_xxxxxx的形式来表示。

? FTPGenPept — 下载“genpept.fsa.Z”文件,这个文件包含了从GenBank/EMBL/DDBJ记录中翻译过来的FASTA格式的氨基酸序列,这些记录都有一到两个CDS特性的描述。 完整基因组

? 参见下面Genome和Maps部分,包括各种物种资源,人,小鼠,大鼠,酵母,线虫,疟原虫,细菌,病毒,viroids,质粒。 ? Entrez基因组 — 提供了一个编码区的概要和各种物种的分类表(TaxTable)。编码区概要列出了在基因组中所有的的蛋白,并提供链接到FASTA文件和BLAST。分类表总结了蛋白BLAST分析的结果,建议他们的可能功能,并用颜色编码的图来显示物种同其它物种之间的关系(参见下面'Genomes和Maps,'部分Entrez基因组的一般描述)

? FTP基因组蛋白 — 从ftp站点的genbank/genomes目录下下载各种物种的FASTA格式的氨基酸序列*.faa和蛋白表文件*.ptt。参见readme文件。蛋白表也可以在Entrez基因组中看到。 ? PROW — Web上的蛋白资源,关于大约200种人类的CD细胞表

面分子的简短官方向导。互相检索,为每个CD抗原提供大约20中标准信息的分类(生化功能,配体,等等)

? BLAST — 将你的序列同蛋白库中的的序列比较,检索相似的序列。(更详细的信息见下面Tools/Sequence相似搜索部分) 结构

? 结构主页 — 关于NCBI结构小组的一般信息和他们的研究计划,另外也可以访问分子模型数据库(MMDB)和用来搜索和显示结构的相关工具。

? MMDB:分子模型数据库 — 一个关于三维生物分子结构的数据库,结构来自于X-ray晶体衍射和NMR色谱分析。MMDB是来源于Brookhaven蛋白数据库(PDB)三维结构的一部分,排除了那些理论模型。MMDB重新组织和验证了这些信息,从而保证在化学和大分子三维结构之间的交叉参考。数据的说明书包括生物多聚体的空间结构,这个分子在化学上是如何组织的,以及联系两者的一套指针。利用将化学,序列,和结构信息整合在一起,MMDB计划成为基于结构的同源模型化和蛋白结构预测的资源服务。MMDB的记录以ASN.1格式存储,可以用Cn3D, Rasmol, 或 Kinemage来显示。另外,数据库中类似的结构已经被用VAST确认,新的结构可以用VASTsearch来同数据库进行比较。

? Cn3D — “See in 3-D”, 一个用于NCBI数据库的结构和序列相似显示工具,它允许观察3-D结构和序列—结构或结构—结构同源比较。Cn3D用起来就象你浏览器上的一个帮助工具。

? VAST — 矢量同源比较搜索工具—一个在NCBI开发的计算算法,用于确定相似的蛋白三维结构。每一个结构的“结构邻居”都是预先计算好的,而且可以通过MMDB的结构概要页面的链接访问。这些邻居可以用来确认那些不能被序列比较识别的远的同源性。

? VAST 搜索 — 结构—结构相似搜索服务。比较一个新解出的蛋白结构和在MMDB/PDB数据库中的结构的三维坐标。VAST搜索计算一系列可能会被交互浏览的结构邻居,用分子图形来观察重叠和同源相似。 分类学

? NCBI的分类数据库主页 — 关于分类计划的一般信息,包括分类资源和同NCBI分类学家合作的外部管理者的列表。

? 分类浏览器 — 搜索NCBI的分类数据库,包括大于70000个物种的名字和种系,这些物种都至少在遗传数据库中有一条核酸或蛋白序列。可以检索一个特定种或者更高分类(如属,科)的核酸,蛋白,和结构记录。如果有新物种的序列数据被放到数据库中,这个物种就北加到(分类)数据库中。NCBI的分类数据库的目的是为序列数据库建立一个一致的种系发生分类学。

文献数据库概要

? PubMed — 一个关于生物医药科学的检索系统,包括引用,摘要,和杂志的索引术语。它包括直接由出版商提供给NCBI的文献引用以及链接到在出版商网址上的全文的URLs。PubMed包括MEDLINE

和PREMEDLINE的完整内容。它还包括一些被MEDLINE认为超出范围的文章和杂志,(这些文章或杂志)由于内容或在某一时期不在索引范围内。因此PubMed是比MEDLINE的更大的集合。 ? 杂志浏览器 — 允许你去查找收录到PubMed系统的杂志的名字,MEDLINE的缩写,或ISSN号码。

? PubRef(开发中)— 一个关于来自于广大范围的科学杂志的数目记录,和链接到出版商网址的全文。PubRef包含了PubMEd,加上了来自其它学科的杂志出版商提供的引用和摘要。因此它是比PubMed更大的集合。这个计划的启动是因为NAS要求为科学领域的电子杂志提供一个“白皮书”服务。

? PubMed中心(开发中) — PubMed中心是一个无障碍的NIH资源,用于在生命科学领域中同业互查的基础研究报告。从2000年一月开始接受杂志文章。所有在PubMed中心的材料将由目前任一主要的摘要和索引服务中列出的杂志提供,或者在编辑委员会中拥有3个以上有主要资金机构的研究经费的拥有人的杂志提供。 ? OMIM — 在线人类孟德尔遗传—经常更新的人类基因和遗传失调的目录,有链接到其它相关的文献参考,序列记录,和相关数据库。 ? 书籍 — 同书籍出版商合作NCBI为网络改编了教科书,并把他们链接到PubMed—生物医药书目数据库。这是为了给PubMed提供背景信息,这样使用者可以探究在PubMed搜索结果中不熟悉的概念。目前收录的书有:

? Molecular Biology of the Cell, 3rd ed. Alberts B., Bray D.,

Lewis J., Raff M., Roberts K., Watson J.D., 1994, Garland Publishing.

? 外部链接 — 一个登记服务,用于建立从在Entrez中的特定的文章,杂志,或生物数据到外部网址的链接。第三方可以提供一个URL,资源名字,关于他们网址的简要的描述,和关于从NCBI数据的哪里他们希望建立链接的详细说明。这个详细说明可以用对Entrez有效的布尔查询来写,也可以用特定的文章或序列的标志列表来写。这样NCBI PubMed的用户将可以通过“NCBI小房间”服务(开发中)来选择哪个外部链接在他们的搜索中是可见的。

? 引用匹配 — 允许你找到任何一篇在PubMed数据库中的文章的PubMed ID或MEDLINE UID,给出书目信息(杂志,卷,页码等)。 ? 单篇文章的引用匹配。 ? 许多文章的批量引用匹配。

? E-mail引用匹配也是可以的,也可以用于单篇或许多文章。如果要获得帮助文件,给citation_matcher@ncbi.nlm.nih.gov写一封只有内容为HELP的E-Mail。 ?

? ________________________________________ ? Genomes and Maps Overview ?

? Entrez基因组:人,小鼠,大鼠,酵母,线虫,疟原虫,细菌,病毒,viroids,质粒,和真核细胞器。

? Entrez基因组(各种物种)

? Entrez基因组 — 超过800种在GenBank中被完整测序的物种,包括大于500种病毒,〉25种细菌,酵母,和许多viroids,质粒,和细胞器。还包括正在进行中的基因组,比如人,小鼠,线虫,疟原虫,果蝇,利什曼原虫,水稻,和玉米。提供完成的基因组/染色体的图形概览,并可以探究那些逐步细化的区域。也提供那些已经被NCBI工作人员分析过的物种的编码区的摘要和TaxTables。另外,Entrez Map Viewer,Entrez基因组的一个软件组成部分,提供整合的果蝇(细胞遗传学和序列图谱)和人类(细胞遗传学,遗传连锁,序列,放射杂交,和其它图谱)的染色体图谱的浏览。

? 通过每个物种的Entrez基因组页面来下载〈350kb的基因组。 ? 通过NCBI ftp站点来下载〉350kb的基因组—参见在

genbank/genomes目录下的readme文件,ftp链接在每个物种的Entrez基因组页面上也有。

? NCBI站点地图---Human Genome人类基因组数据介绍 ? 》》》NCBI 资源介绍 ? 向导

? 人类基因组资源向导 — 可用的人类基因组数据资源概览。包括关于人类基因组的公告和进展报告和提供对以前分离的数据的集中访问。

? 人类基因组序列数据的状态 — 描述了目前在GenBank中的数据

的范围,包括完成的和草图高通量基因组序列数据的讨论。 ? 染色体

? 人类基因组测序 — 每一条染色体,概述了人类基因组计划的测序进展(图示和统计)。提供对基因组序列数据的访问,也有链接到参与的国际基因组中心,各种STS图谱,疾病基因信息,和选择出的参考文献。列出完成的contig的大小和位置。Contig可以被显示出来,以表示组成他们的GenBank中的记录的成分,或者那些由e-PCR确定的位于其上的STS标记。Contig用在GenBank中处于第三期的HTG序列记录来组装起来,组装的办法是用Jang, et al描述的过程,并给于一个NT_*的accession number,作为RefSeq计划的一部分。关于各期HTG序列的详细说明见HTG网页。 ? Entrez图谱浏览器 — 整合的染色体图谱—图谱浏览器是Entrez基因组的一个软件组成部分,用来显示一个或多个用共同标记或基因名字互相align过的图谱,以及用相同序列进行比较过的序列图谱。在人类基因组数据和搜索技巧文件中有关于20种序列,细胞遗传,遗传连锁,放射杂交,和其它的图谱。Entrez图谱浏览器的帮助文件提供了关于如何使用这个工具的一般说明。

? FTP — 每个染色体都有一个文件目录包含各种格式的完成的基因组contig(NT_*记录):

? hs_chr*.asn ASN.1 格式 (description above) ? hs_chr*.fna.gz FASTA 格式(description above) ? hs_chr*.gbk.gz GenBank flat file 格式

? (目前注解包括STS标记,已知和预期的基因将被在将来几个月中加入)

? hs_chr*.gbs GenBank summary 格式

? (这个格式不含有序列数据,但是包含一个“CONTIG”字段,表明这个contig是如何有独立的GenBank记录组装起来的。) ? BLAST人类基因组序列数据

? BLAST人类染色体 — 将一个核酸或蛋白序列同已经完成的HTG contig比较。Contig用在GenBank中处于第三期的HTG序列记录来组装起来,组装的办法是用Jang, et al描述的过程,并给于一个NT_*的accession number,作为RefSeq计划的一部分。关于各期HTG序列的详细说明见HTG网页。同人类染色体作BLAST是人类基因组测序页面的一个组成部分。

? BLAST htgs数据库 — 将一个核酸或蛋白序列同未完成的HTG序列(第0,1,2期)进行比较(关于各期HTG序列的详细说明见HTG网页)。尽管htgs数据库包含有来自许多物种的序列,你可以使用Advanced BLAST页面来限定你的搜索只在人类。

? BLAST gss数据库 — 将一个核酸或蛋白序列同随机的“单次(测序)阅读”的基因组调查序列比较,如同cosmid/BAC/YAC末端序列,exon trap获得的基因组序列,和Alu PCR序列。尽管gss数据库包含有来自许多物种的序列,你可以使用Advanced BLAST页面来限定你的搜索只在人类。 ? 基因

? 位点链接(LocusLink) — 为校正过的序列和遗传位点的描述信息提供一个单次查询界面。LocusLink给每个位点发布一个稳定的ID,并提供官方的命名,同名,序列accesssion number,表型,EC号码,OMIM号码,Unigene簇,图谱信息,和相关的网址。LocusLink是NCBI,人类基因命名委员会,OMIM和其它组织的合作结果。LocusLink目前包含人类,小鼠,大鼠,斑马鱼,和果蝇的位点,物种可以被分开或合在一起查询。

? OMIM — 在线人类孟德尔遗传—经常更新的人类基因和遗传失调的目录,有链接到其它相关的文献参考,序列记录,和相关数据库。 ? RefSeq — NCBI数据库的参考序列。校正的,非冗余集合,包括基因组DNA contigs,已知基因的mRNAs和蛋白,在将来,整个的染色体。Accession numbers用NT_xxxxxx, NM_xxxxxx, NP_xxxxxx, 和NC_xxxxxx的形式来表示。

? UniGene — 被整理成簇的EST和全长mRNA序列,每一个代表一种特定已知的或假设的人类基因,有定位图和表达信息以及同其它资源的交叉参考。序列数据可以以cluster形式在Unigene网页下载,完整的数据可以从FTP站点repository/UniGene目录下下载。 ? 序列

? 人类基因组测序 — 每一条染色体,概述了人类基因组计划的测序进展(图示和统计)。提供对基因组序列数据的访问,也有链接到参与的国际基因组中心,各种STS图谱,疾病基因信息,和选择出的参考文献。列出完成的contig的大小和位置。Contig可以被显示出

来,以表示组成他们的GenBank中的记录的成分,或者那些由e-PCR确定的位于其上的STS标记。Contig用在GenBank中处于第三期的HTG序列记录来组装起来,组装的办法是用Jang, et al描述的过程,并给于一个NT_*的accession number,作为RefSeq计划的一部分。关于各期HTG序列的详细说明见HTG网页。 ? RefSeq — NCBI数据库的参考序列。校正的,非冗余集合,包括基因组DNA contigs,已知基因的mRNAs和蛋白,在将来,整个的染色体。Accession numbers用NT_xxxxxx, NM_xxxxxx, NP_xxxxxx, 和NC_xxxxxx的形式来表示。

? Entrez — 对GenBank, EMBL, DDBJ, PIR-International, PRF, Swiss-Prot, and PDB数据库中的核酸和蛋白序列数据提供整合的访问,同时提供对3D蛋白结构,基因组图谱信息和PubMed MEDLINE的访问。Entrez包含了对每个数据库记录的预先计算好的相似搜索,产生一个相关序列,结构,和MEDLINE记录的表。包括了来自〉70000个物种的序列数据,可以用物种字段来限制记录只在人类搜索。

? UniGene — 被整理成簇的EST和全长mRNA序列,每一个代表一种特定已知的或假设的人类基因,有定位图和表达信息以及同其它资源的交叉参考。序列数据可以以cluster形式在Unigene网页下载,完整的数据可以从FTP站点repository/UniGene目录下下载。 ? DbEST — 表达序列标签数据库—短的(300—500bp)的cDNA序列,代表mRNA的单次(测序)阅读。常常有大量的EST被测序,

并代表了在一个给定的组织或一个给定的发育阶段的基因表达的快照。同时包含了由CGAP计划产生的ESTs,和来自差异显示及RACE实验的序列。 ? 克隆

? 克隆登记 — 由多方人类基因组测序中心使用的数据库,用来记录哪些克隆已经被选来测序,哪些正在被测序,哪些已经完成,哪些已经被送到GenBank中去了。包括BACs, PACs, cosmids, fosmids。使用统一的克隆名字表示克隆在微量板上的位置(板号,行,和列),位置前面加上库的缩写,来产生唯一的名字。包括了克隆定购的信息。 ? 基因组图谱

? Entrez基因组 — 链接到人类基因组测序站点的人类染色体视图。Entrez基因组同时包括了一个人类线粒体的视图(通过真核细胞器来访问),可以查看完整情况或查看逐步详细的信息。

? Entrez图谱浏览器 — 整合的染色体图谱—图谱浏览器是Entrez基因组的一个软件组成部分,用来显示一个或多个用共同标记或基因名字互相align过的图谱,以及用相同序列进行比较过的序列图谱。在人类基因组数据和搜索技巧文件中有关于20种序列,细胞遗传,遗传连锁,放射杂交,和其它的图谱。Entrez图谱浏览器的帮助文件提供了关于如何使用这个工具的一般说明。

? GeneMap’99 — 〉35000个人类基因标记的物理图谱,由国际放射杂交图谱联合用一致的RH试剂和方法建成。提供了突出了染色体

上关键标志(富含基因区)的框架,从而加速了测序,代表了超过100名科学家的国际合作努力。

? NCBI RH图谱 — NCBI整合的RH图谱,包括来自GeneMap’99的G3和GB4的RH单子上的23723个标记。这些标记相对于1084个框架标记(一个G3和GB4共同的子集)被绘制。所有的标记被统一在GB4的尺度上。R. Agarwala et al.的文章提供了详细的整合策略,以及评估整合图谱质量的方法。

? Mitelman癌症染色体变异摘要 — 由Drs. Mitelman, Mertens, 和 Johansson建立的基因组范围的人类癌症中染色体断裂位点图谱。参见Nature Genetics, Vol. 15(Spec. No.):417-74 (April 1997)的超文本版本。

? OMIM基因图 — 被报道的和被许多定位方法决定的基因的细胞遗传位点。可以用基因代号或细胞遗传染色体位点来搜索。可以从OMIM页面上访问。

? OMIM致病图 — 按字母排列的疾病和相应的细胞遗传图位点,链接到OMIM的条目。可以从OMIM页面访问。

人类/小鼠同源图 —University of California at Davis的M. F. Seldin建立,一张比较人和老鼠在同源区段DNA上基因的表,按在每个基因组上的位置排列。 ? 绘制的标记

? dbSTS —序列标签位点的数据库,短的在基因组上可以被唯一操作的序列,因而可以确定在物理图谱上的特定位置。

? 电子PCR(e-PCR) — 找到一个查询序列的假设位点图。用于在DNA序列上发现STS位点计算过程。

? GeneMap’99 — 〉35000个人类基因标记的物理图谱,由国际放射杂交图谱联合用一致的RH试剂和方法建成。提供了突出了染色体上关键标志(富含基因区)的框架,从而加速了测序,代表了超过100名科学家的国际合作努力。

? 人类基因组测序 — 绘制的标记已经用e-PCR自动被放到完成的HTG序列组成的contig上。标记来源于dbSTS, GeneMap'99(基于基因的标记),Stanford G3 RH单子(又有基因标记也有非基因标记),Whitehead GB4 RH单子和YAC图谱(又有基因标记也有非基因标记),Genethon遗传图谱,和一些染色体特异的图谱,如NHGRI的7号染色体图谱,Washington University的X染色体图谱。

? OMIM基因图 — 被报道的和被许多定位方法决定的基因的细胞遗传位点。可以用基因代号或细胞遗传染色体位点来搜索。可以从OMIM页面上访问。 ? 基因表达

? CGAP cDNA表达谱 — 在UniGene簇和cDNA库中的ESTs分布。可以在CGAP页面上访问。

? SAGEmap — CGAP SAGE(Serial Analysis of Gene Expression)库的差异显示。也包含了对在人类GenBank记录中的SAGE标签的完整分析,在人类GenBank记录中一个UniGene

的标志被分配给了每个含有一个SAGE标签的人类序列 ? 遗传变异

? dbSNP — 单核苷酸多态性数据库,包括SNPs,小范围的插入/缺失,多态重复单元,和微卫星变异。DbSNP包含种族特异的频率和基因型数据,实验条件,分子上下文,及中性多态和临床变异的定位信息。

? OMIM — 在线人类孟德尔遗传—约900个OMIM记录的等位变异。为了查看这些OMIM记录的列表,在等位变异字段上搜索“0001”。或者,把一个疾病的名字同“0001”放到一起。如:Gaucher & 0001。 ? 位点特异突变数据库 — 从OMIM主页和相关的LocusLink条目链接到许多外部数据库。 ? 失调

? 基因和疾病 — 介绍遗传因素和人类疾病的关系。有约60种遗传疾病的概要信息,以及链接到相关数据库和组织。

? Mitelman癌症染色体变异摘要 — 由Drs. Mitelman, Mertens, 和 Johansson建立的基因组范围的人类癌症中染色体断裂位点图谱。参见Nature Genetics, Vol. 15(Spec. No.):417-74 (April 1997)的超文本版本。

? OMIM — 在线人类孟德尔遗传—经常更新的人类基因和遗传失调的目录,有链接到其它相关的文献参考,序列记录,和相关数据库。 ? OMIM Morbid Map - alphabetical listing of diseases and corresponding cytogenetic map locations, with links to OMIM

entries. Accessible from OMIM page (see Genes).

? OMIM致病图 — 按字母排列的疾病和相应的细胞遗传图位点,链接到OMIM的条目。可以从OMIM页面访问。 ? 癌症研究

? CCAP — 癌症染色体变异计划—计划用来加速同恶性转移相关的显著染色体变异的定义和详细的特征描述。

? CGAP — 癌症基因组剖析计划 — 交叉学科项目,目的是基于cDNA库,鉴定在不同癌症阶段的人类基因表达,和决定正常,癌前和恶性细胞的分子表达谱。是NCI,NCBI和其它许多实验室的合作。 ? Mitelman癌症染色体变异摘要 — 由Drs. Mitelman, Mertens, 和 Johansson建立的基因组范围的人类癌症中染色体断裂位点图谱。参见Nature Genetics, Vol. 15(Spec. No.):417-74 (April 1997)的超文本版本。

? SAGE分析 — 在癌症库中的SAGE标签的差异表达。

如何使用NCBI

2011-01-15

Part one 如何查找基因序列、mRNA、Promoter

Part two 如何查找连续的mRNA、cDNA、蛋白序列

Part three 运用STS 查找已经公布的引物序列

Part four 如何运用BLAST 进行序列比对、检验引物特异性

First of all,还是让我们从查找基因序列开始。

第一部分 利用Map viewer 查找基因序列、mRNA 序列、

启动子(Promoter)

下面以人的IL6(白细胞介素6)为例讲述一下具体的操作步骤

1.打开Map viewer 页面,网址为:http://www.ncbi.nlm.nih.gov/mapview/index.html

在search 的下拉菜单里选择物种,for 后面填写你的目的基因。操作完毕如图所示:

2.点击“GO”出现如下页面:

3.在步骤二图示的右下角有一个Quick Filter,下面是让你选择的几个复选框,在Gene

前面的小方框里打勾,然后点击Filter. 出现下图:

说明一下:1、染色体的红色区域即为你的目的基因所处位置。2、下面参考序列给出了

三个,是不同的部门做出来的,经我验证,序列有微小的差异,但总体来说基本相同。尽管

你分别点击后,序列代码、序列代码等有所差异,但碱基基本一致,不影响大家研究分析序

列。现在普遍采用的是最上面的那个序列,这一条是世界范围的生物科学家用计算机合成的

一个序列。我也推荐大家使用这个序列。

4.点击上述三条序列第一条序列(即reference)对应的\,出现新的页面,

页面下方为:

5.点击上图出现的“Download/View Sequence/Evidence ”,即下载查看序列等功能,

结果如图所示:

先对上面这张图做点简要的说明,在Sequence Format(序列输出格式)后面是一个下

拉式选择菜单,默认的为FASTA 格式,还有一个是GenBank 格式。我推荐大家选择GenBnak

格式,因为这个格式提供了很多该基因的信息,而FASTA 格式只有基因序列。

6.在Sequence Format 后选择GenBank,然后点击下面的Display,目的基因的相关

信息和序列就出现在眼前了。点击后如图所示(网页较大,只抓取一小部分以作示范):

在上述打开的网页中,你可以看到基因长度,基因序列,以及这个基因是如何被报道出

来的等各种信息。

你会看到: mRNA join(3598..3678,3841..4031,5090..5203,5911..6057, 7803..8394)

这代表了从基因的3598 位开始就是转录区了,即我们常说的mRNA 片断,由于内含子的存在,

所以mRNA 在DNA 序列上分成了几段。

CDS join(3660..3678,3841..4031,5090..5203,5911..6057, 7803..7970)

CDS 代表编码序列,即蛋白编码区是从3660 开始的(ATG),由于剪接作用所以CDS 区

也是不连续的。

说到这里,可能很多朋友都已经明白了promoter 即启动子区域在哪里了。但我还是再

唠叨几句:转录起始位点前面是基因的调控区,启动子区没有明显的位置定义,大家也只是

猜测它的大体位置,如果你要研究promoter 区的话,建议你选择转录起始位点前的2000

个碱基进行研究,一般默认的是这样。当然你如果觉得长度太长不好研究的话,也可以只研

究-1000 到0 这一千个碱基,因为一般情况下,启动子区的变异都在这个区域内。

这样大家就可以找到自己的目的基因序列和启动子了,这种方法可能使用的人不是很

多,但我个人比较喜欢,因为它最大的优点是可以找到启动子区域和其他调控区域。

部分 如何查找连续的mRNA、cDNA、蛋白序列(依

然以人类的IL6 为例)

1.进入NCBI 主页:http://www.ncbi.nlm.nih.gov/

在search 后面选择Gene,在for 后面填写需要查找的基因的名字。如图所示:

点击“Go”,出现以下界面:

出现了很多基因序列,在每个序列的右边还有“Order cDNA clone” 的链接,这些序

列中有些序列是跟你的目的基因同名的,有些是别名(Other Aliases)与你的目的基因一

致,根据每个序列的介绍认真选择你的目的基因。上图中我需要的IL6 是标号为2 的序列。

2.1 查找cDNA 序列

2.1.1 点击Order cDNA clone, 出现目的页面如图所示:

2.1.2 点击Clone Sequence 后面的链接即可得到cDNA 序列。点击后如图所示(只抓

取其中一部分):

2.2 查找mRNA、蛋白序列

回到步骤1 点击“Go”之后出现的页面,点击目的基因的名字,出现以下页面(只抓取

相关部分):

页面的下半部分,即可以获取mRNA 和蛋白序列的部分:

找到“NCBI Reference Sequences (RefSeq)”,它分为几个板块,第一个“mRNA and

Protein ”区可以让我们找到连续的编码mRNA 序列和蛋白序列。在mRNA and Protein

下面有两个序列代码(中间划有一个箭头),这代表了mRNA 序列和蛋白序列。分别点击就可

以得到相应的序列页面。点击后如图所示,mRNA 序列:

蛋白序列如下:

NCBI Reference Sequences (RefSeq)的第二个板块是Reference assembly,它下面显

示的是Genomic ,点击Genomic 下面Reference assembly 对应的Genbank 或FASTA 即可出

现编码的DNA 序列(注意:只是编码序列,其中包括内含子,但一般没有5‘非编码区)。

这一步就不做贴图演示了吧,呵呵。

这样我们就可以找到基因的cDNA 序列、连续的编码mRNA 序列、蛋白序列以及含有内

含子的编码DNA 序列了。相信这些操作对很多战友还是有用的。

如果大家有更好的方法,欢迎发帖交流!

第三部分 运用STS 查找已经公布的引物序列

STS,序列标签位点(Sequence Tagged Site):一段短的DNA 序列(200-500 个碱基

对),这种序列在染色体上只出现一次,其位置和碱基顺序都是已知的。在PCR 反应中可以

检测处STS 来,STS 适宜于作为人类基因组的一种地标,据此可以判定DNA 的方向和特定序

列的相对位置。

以上内容基本是STS 的定义,我主张活学活用,下面就介绍一下我个人用STS 数据库查

找引物的一点经验。

还是使用人的IL6 基因为例,呵呵

1. 打开NCBI 主页,在Search 后面的下拉菜单选择UniSTS,在FOR 后面填写目的基

因。

操作完毕如图所示:

点击GO 以后出现以下页面,

这是你会发现NCBI 又提供了很多序列,下面我们还是要初步筛选我们需要的序列。

2.根据物种、目的阴物所在染色体的位置等选择相应序列(可能不只一个),点击。

下面以点击第一个进入的画面为例。

你会发现这个页面直接就给出了引物序列,PCR 之后的片段长度也是给了的(247bp)。

下面还有很多相关的信息??

3.点击GeneBank Accession 后面的代码,进入下一个页面。

啊!前后引物都呈现在眼前了,还有反应体系和反应条件!其中Primer A 是前引物序

列,Primer B 则是后引物序列,并且给出了他们在DNA 序列中的位置。有兴趣的朋友可以

在序列中找一下,是可以找到的, 不过要注意,PCR 是双链扩增,在序列中可以直接找到

的是Primer A 的原序列 和 Primer B 的互补序列。

在步骤二里面我只点开了一个序列,继续打开其他的可能还会有对自己有用的引物,不

过这要你自己慢慢发掘了。

这种寻找引物的方法有点投机取巧的味道,实用程度不是很高,但如果这里面恰好有你

想P 的片段的话,恭喜你,这些引物都是很成熟的引物,可以直接拿过来使用了。

如果想寻找引物,大家可以查阅相关论文,已经报道的引物我们为什么不用呢?!既省

时间,可靠性又强。

如果这两种方法都不能找到你需要的引物的话,那就自己设计吧,建议使用Primer 5 和

Oligo。引物设计的详细内容我在这里就不多说了,推荐两个帖子给大家看一下,第一个是

本版版主liuzeyi2002 发起的,内容很丰富,很值得学习,另一个则是我发的。

http://www.dxy.cn/bbs/post/view?bid=64&id=9517792&sty=1&tpg=1&age=0

http://www.dxy.cn/bbs/post/view?bid=67&id=9523263&sty=1&tpg=1&age=0

第四部分 如何运用BLAST 进行序列比对、检验引物特

异性

提到序列比对,绝大多数战友都会想到BLAST,但BLAST 的使用确实又是一个很大的难

本文来源:https://www.bwwdw.com/article/19o3.html

Top