RepeatMasker网页版和命令行版使用说明(中文翻译版) - 图文

更新时间:2024-03-11 15:20:01 阅读量: 综合文库 文档下载

说明:文章内容仅供预览,部分内容可能不全。下载后的文档,内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的,是否完整无缺。

1 / 12

RepeatMasker网页版和命令行版使用说明(中文翻译版)

引用自Tarailo-Graovac M, Chen N. Using RepeatMasker to identify repetitive elements in genomic sequences. CurrProtoc Bioinformatics. 2009 Mar;Chapter 4:Unit 4.10.doi: 10.1002/0471250953.bi0410s25.

RepeatMasker是一款广泛应用于基因鉴定、分类和mask repetitive elements,包括低复杂度序列和散布重复序列。RepeatMasker通过将数据库如:Repbase中已知的重复序列与输入的基因组序列比对来搜素重复序列。在此我们描述两个基础协议,它对如何运用RepeatMasker去分析基因组序列的重复元件提供细节上的指导,而不论是通过网络界面还是通过Unix/Linux命令系统。在RepeatMasker中的序列比较通常经过cross-match程序的序列比对来实现,对于较大序列这一过程需要大量处理时间。交替协议描述的是通过应用诸如WU-BLAST这样的选择性比对程序来怎样减少处理时间。而且RepeatMasker的优势、局限和已被发现的漏洞将在此进行讨论,最后提供理解其处理结果的指南。

在新的RepeatMasker程序包中添加了鉴定蛋白质序列的重复原件的程序。

要运行RepeatMasker,首先要选择重复库文件(repeat library files),这一文件包含重复元件共有序列。目前,Repbase Update是最大的商业性(商购)重复库(free for academic use)并且包含了相当数量的包括人、啮齿动物、斑马鱼、果蝇以及拟南芥在内的生物体。生物体的库文件中没有Repbase Update时,库文件会用RECON(Bao and Eddy, 2002;

http://selab.janelia.org/recon.html)

RECON 的

v.1.06列

较已常

经通

发过

且Green

可改

以进

或从的

RepeatScout(http://bix.ucsd.edu/repeatscout/; Price et al., 2005)从头产生。最新

http://www.repeatmasker.org/RepeatModeler.html.中获得RepeatModeler程序包。

RepeatMasker

Phil

cross-match(http://www.phrap.org/consed/consed.html#howToGet)来实现,另外也可以为了快速程序来用WU-BLAST(http://info.cchmc.org/help/wublast.html; see Alternate Protocol)来代替cross-match。

一、通过网络界面运用RepeatMasker

RepeatMasker可通过http://www.repeatmasker.org/cgibin/WEBRepeatMasker来获得,它不像命令行版本的RepeatMasker,网络版RepeatMasker的核苷酸序列长度限制在100kb,不能分析长度超过100kb的序列(提示会在窗口中显示)。短于100kb的序列可以用网络版RepeatMasker来分析,其花费的时间与序列的长度相关。对于北美以外的快速服务有在德国、以色列和澳大利亚的RepeatMasker镜像网站。另外,如果常规分析大片段序列,最好是下载并本地运行命令行版本。重要的是,如果需分析的序列超过100kb,唯一的选择就是下载RepeatMasker并在本地运行。

必需资源

硬件:任意一台联网的计算机。

软件:浏览器 如IE或火狐浏览器

文件:FASTA文件或能通过网络界面处理的收集的FASTA文件。

2 / 12

1.点击网页浏览器,进入http://www.repeatmasker.org/cgi-bin/WEBRepeatMasker.通过序列名或浏览文件下载FASTA序列文件(最大100kb),或者粘贴FASTA序列(最大100kb)到指定的文本框。

如果输入的序列包含非DNA符号或者序列太长,RepeatMasker会提示错误信息。

2. 从单选框下的“return format”来选择结果的格式:“html”或“tar file”。 如果选择“html”,那么结果会以一个超文本标记语言(html.)文件输出。如果选择“tar file”,那么结果会打包为用Unix系统“tar”协议的文档。

3. 从“return method”下两个单选按钮选择会送结果的方法,即:“html”或“email”。

如果选择这一步和上述第2步都选择“html”,那么所有的结果会通过窗口显示,如果过这步选择“html”,而第2步却选择“tar file”,那么结果会在窗口内提供链接。如果选择“email”,那么需要填写电子邮件地址,以确保结果可以通过电子邮件发送。这里以“html”为例。

4.目前,可以选择点击提交序列的按钮来运行RepeatMasker,同时可选择其他选项来设置默认值。如果系统默认值不能满足需要,可继续第5到8步并按第9步提交序列。

设置其他选项设置默认值后点击提交序列,结果会在窗口中展示,如图4.10.2,4.10.3,4.10.4和4.10.5.为理解结果的细节可以看参考。

3 / 12

4 / 12

5 / 12

6 / 12

5. 通过点击Speed/Senitivity下的四个单选按钮来调整速度:“rrush”,“quick”,“default”,或“slow”。

注意速度和敏感度相关。比如选择“default”,为了便于理解结果可以看参考。 6.在下拉菜单中选择“DNA source”的次选项,每一项等同于不同的重复原件库。

比如这里的例子,其默认值是人,选择人是因为其序列来自于人类的基因组。 注意如果待测序列所来自的生物体在菜单中没有,那么就必须本地运行命令行版本的RepeatMasker了,而且需要选用来自Rebase中的合适的副本文件。如果Rebase中不含合适的副本文件,那么RECON(Bao and Eddy,2002; Stein et al., 2003)或

RepeatScout(http://bix.ucsd.edu/repeatscout/; Price et al.,2005)会从头建立重复文件。

7. 在下拉菜单的一系列功能中,单选按钮和Lineage Annotation Options下的检查框(check boxes)来选择合适的选择项。

这些选项不需要说明,比如选择Comparison Species,与所选物种相关的世系特异性重复就会通过RepeatMasker输出。

8. 在高级选项(Advance Option)的下拉菜单中,选择合适的选项。

这些选项同样简单明了。比如,如果想在MaskingOption的两个选项间选择,则要么选择模糊特性,诸如“N”或“X”此类的隐藏,要么选择小写字母,这更适合于序列比对。

7 / 12

这些细节解释和附加选项可通过右边的下拉菜单中获得。 9. 点击提交序列按钮运行RepeatMasker。

二、在Unix/Linux下运行RepeatMaker

命令行版本的RepeatMasker为使用者提供了更多的选择,并且没有最大100kb的长度限制。要本地运行RepeatMasker需要获得RepeatMasker、cross_match和来自Repbase Update的相应的重复元件库,下文有详细描述。这也是对于RepeatMasker运行快速程序WU-BLAST所必须的(参见可选项目)。

注意:对于不熟悉Unix的研究者请参见附录1C和附录1D。 必须资源:

硬件:任意链接网络的Unix或Linux计算机 软件:

RepeatMasker:现在软件为开源版本V.2.1,可从http://www.repeatmasker.org/RMDownload.html下载。

Cross_match:软件为Phred/Phrap/Consed软件安装包的一部分,同时也是对学术研究者免费的(http://www.phrap.org/consed/consed.html#howToGet; also see UNIT 11.2)。为Phil Green所写(phg@u.washington.edu)包括以下信息:(a)姓名;(b)同意网站上描述的授权条件(描述Cross_match要求);(c)研究机构或部门;(d)以后联系用得e-mail地址(e-mail的获得需通过Unix电脑运行通用mail程序,因为许多程序发送的是非编码文件,而这是与一些mail程序相冲突的)。需要注意的是获得许可需要花费大约两周的时间。

Repbase Update:这一数据库(http://www.girinst.org/; Jurka, 2001)包含大量可选择的重复元件库,这些是运行RepeatMasker所需的。这些库对于学术研究者是免费下载的,对于需求者需要填写在线表格以说明要获得的数据库文件(http://www.girinst.org/accountservices/register.php)。而商业性质的使用者需要联系JolantaWalichiewicz(jola@girinst.org)。此外,如果要研究的基因组在Repbase Update中没有合适的重复库时就需要利用RECON(Bao and Eddy,2002)或RepeatScout(http://bix.ucsd.edu/repeatscout/; Price et al., 2005)来进行处理。Stein et al. (2003)使用RECON建立了线虫C. elegans和C. briggsae的重复库。RECON可以从RepeatMasker安装包中获得,有效的可用下载地址是:http://www.repeatmasker.org/RepeatModeler.html,另外RepeatMasker利用RepeatScout软件从新的基因组序列中标注重复家族的序列。 文件:

某一FASTA文件(附件1B)或者一批FASTA文件可以通过命令行版RepeatMasker处理,注意在这里没有文件大小的限制。例子中使用的是Caenorhabditis elegans的基因组全序列,有102,287,094 bp长,下载自WormBase(http://www.wormbase.org)FTP站点(ftp://ftp.wormbase.org/pub/wormbase/genomes/elegans/sequences/dna/)。 系统准备 1、下载并安装RepeatMasker、Tandem Repeat Finder(TRF)、cross_match、WU-BLAST和Repbase库文件。RepeatMasker为Perl文件,可以安装在任一所需根目录下。

Cross_match会通过e-mail方式由作者发送给符合条件的申请者。Repbase Update将给予使用者名字和密码以便下载重复数据库文件。

在实例中,建立一个文件,将其命名为repeat并置于home根目录下,然后复制RepeatMasker、TRF和cross_match到这一目录下。实例

8 / 12

命令如下:

$ mkdir repeat $ cd repeat

2、更改程序许可。

命令:

$ chmodu+x RepeatMasker

$ chmodu+x cross match $ ln -s trf321.linux.exe trf

3、通过配置脚本设置路径 首先,找到Perl的安装路径: $whichperl

默认为:/usr/bin/perl

然后更改到repeat文件目录和RepeatMasker的目录,获得现在路径的命令是: usernameRepeatMasker$ pwd

默认路径是:/home/user name/repeat/RepeatMasker 接下来按照同样的方法获得TRF和cross_match的路径。 用下列命令安装程序: $ cd RepeatMasker

$ perl ./configure

输入所需路径,如实例中,键入Perl解释器的路径:

Enter path: /usr/bin/perl

键入RepeatMasker程序的本地安装路径:

Enter path: /home/ user name /repeat/RepeatMasker

键入TRF的安装路径:

Enter path: /home/user name/repeat 键入cross_match的安装路径:

Enter path: /home/ user name/repeat/cross match

4、将repeat文件置于正确的目录中(即,RepeatMasker的目录)。

确保Libraries的次级目录在RepeatMasker的目录下并包含RepeatMasker.lib和

RepeatMaskerLib.embl文件。

5、为输入和输出创建新目录。

注意要将RepeatMasker的输出文件和输入文件置于同一目录下。命令如: $ mkdir RepeatMasker file

$ cd RepeatMasker file RepeatMasker file $ 下载或复制包含C.elegans基因组序列的FASTA文件(如:current.dna.fa.gz)并解压。 $ gunzip current.dna.fa.gz

6、调出命令行参数和选项的简介,方法是在命令行键入RepeatMasker,如: $ ../RepeatMasker/RepeatMasker

将会显示以下内容:

SYNOPSIS

RepeatMasker [-options] . . .

default settings are for masking all type of repeatsin a primate sequence. . . .

9 / 12

Choose from a number of options:

-q Quick search; 5-10% less sensitive, 2-5 timesfaster than default -nolowDo not mask low complexity DNA or simplerepeats

-div [number] Mask only those repeats < x percentdiverged from consensus seq . . .

-species Specify the species orclade of the input sequence (choose only one!) . . .

contamination options . . .

running options . . .

output options . . .

获得详细的帮助可键入:

$../RepeatMasker/RepeatMasker –h

运行RepeatMasker

7、在本地运行命令行版RepeatMasker: % /path/to/RepeatMasker -el current.dna.fa

如:运行命令 $ ../RepeatMasker/RepeatMasker -species eleganscurrent.dna.fa

因为例子中的序列来自于C. elegans,使用-species elegans命令以保证调用C. elegansRepbase重复元件数据库文件。

结果文件将写在RepeatMasker_file的目录中,在这一目录中调用的序列文件也在这里。如例中结果文件包括:

current.dna.fa.masked current.dna.fa.log current.dna.fa.dna.cat current.dna.fa.dna.out current.dna.fa.dna.tbl

这些文件的解释参见后面输出结果文件的导读部分。

8、RepeatMasker为使用者提供了大量的选择以满足不同需要。在这里仅对常用的选择进行介绍,更多的细节参见repeatmasker.help,这些也包含在RepeatMasker安装包中。

注意当命令众多时,这些选择项命令的先后顺序并不重要。

a. species options和-lib标志允许使用者为特定文库指定相应的物种。RepeatMasker为许多生物提供通用名,比如-cat或-dog,但不是所有的生物都有通用名。鉴于此,特别推荐拉丁名作为物种的命名。使用者也可提供重复文库文件,特别是当文库文件不是来自于Repbase时,RepeatMasker使用-lib标记。重复文库的默认值是首要的选择。

为RepeatMasker建立个人的重复数据库,repeatmasker.help推荐使用ID格式。如 >repeatname#class/subclass 或者是简略格式: >repeatname#class

b. 掩码选项是确定哪一种重复需要掩蔽。通常的选择项包括:-cutoff、-nolow和-div。-cutoff选项是设定调用-lib时掩蔽重复序列的水平值,默认的值是225.低于该值将出现更多的错误匹配。-nolow是提示RepeatMasker不要掩蔽低复杂度的DNA或简单重复序列。-div

10 / 12

是用来设定离散度以限制掩码并对较小离散的(新生成的)重复序列子集进行注释。

c. 有一些选项用来控制进程速度和搜索参数。 影响进程速度的选项有:

-q快速检索;低于默认5%到10%敏感度,默认速度的3倍到4倍。 -qq急速检索;低于默认10%的敏感度。

-s慢速减速;高于默认0%到5%的敏感度;默认速度的-2.5倍。 这些标记在输入长序列时会产生显著差异。如果只需要快速检索,-qq会快速产生结果,与之对应的是结果的质量要求较高时,应使用默认(即不需要输入任何选项)或者是-s选项命令。

使用-pa(prallel)时可以引入更多的计算机来进行RepeatMasker运算,这种情况常用于输入的文件很多或查询文件很大(>50kb)时。

-w(ublast)是用WU-BLAST替代cross_match(参见选择项目)。

d. 输出选项支持以下频繁使用的命令格式(其他的可通过repeatmasker.help获得): -a 在.align的输出文件中展示比对情况。

-small .maked文件中的序列全部转换成小写字母。 -xsmall将重复区间转换成小写字母(其余的大写)。 -x 用X字母来掩蔽重复区域

-gff创建附加的General Feature Finding输出格式。

注意,-cut选项是不支持现行版本的RepeatMasker的,要获得该功能函数可以联系Robert Hubley(rhubley@systemsbiology.org)。

运行RepeatMasker的WU-BLAST

如果通过RepeatMasker计算更大序列(比如智人的全基因组序列)时,进程时间将会显著延长。而用WU-BLAST来取代cross-match时,进程时间会节省近30倍(Bedell et al.,2000)。尽管含有WU-BLAST的RepeatMasker更节省时间,但是其整合依然有些限制:(1)低复杂度的重复序列的掩蔽并不是像cross-match一样的效率;(2)不支持一些输出格式;(3)对其运算结果的精确度缺少评估。

注意:对于不熟悉Unix运行环境的需要学习附录1c和1D。 必须资源

硬件:Unix或Linux站点

软件:RepeatMasker(参见Basic Protocol 2) WU-BLAST 2.0 : 联系licensing@blast.wustl.edu

Repbase Update repeat libraries (参见Basic Protocol 2 ) 文件:

FASTA文件或FASTA文件集(附录1B)。对于整合有WU-BLAST的RepeatMasker命令行版本对文件的运算没有大小限制。本示例中引用的是下载自数据库WormBase(http://www.wormbase.org)FTP站点(ftp://ftp.woembase.org/pub/wormbase/genomes/elegans/sequences/dna/)C. elegans的全基因组序列,其长度为102,278,094bp。

1、下载并安装RepeatMasker、WU-BLAST和Repeat文库文件。注意直到2004年6月MaskerAid(Bedell et al.,2000)是RepeatMasker运算WU-BLAST所必须的。现在这些功能被应用到程序中而不需要再进行整合。鉴于此,建立一Repeat目录,然后将RepeatMasker/目录复制到该目录下。完成这些操作需要利用mkdir更改根目录并创建一新的repeat目录。利用cd锁定当前路径为repeat,如下操作:

mkdir repeat

11 / 12

cd repeat

复制RepeatMasker/到这一目录下,复制WU-BLAST软件包到这一目录下并解压 $ gunzip -WU BLAST |tar xvf -wu blast/ 解压后的存放目录

在wu-blast/目录下的程序如blastp和blastx在解压后均可执行操作。

2、更改程序权限和路径。

$ chmodu+x RepeatMasker

$ chmodu+xwu-blast

3、通过运行配置脚本设定正确路径,参见Basic Protocol 2. 加入WU-BLAST搜索引擎,键入:

Enter path: /home/mta57/repeat/wu-blast

4、为输入文件和输出文件创建新的目录。

RepeatMasker的输出文件和输入文件必须要在同一个目录写,如: $ mkdir RepeatMasker file

$ cd RepeatMasker file/

[当前目录]$

接下来下载或复制C. elegans的全基因组序列的FASTA文件(current.dna.fa.gz)到相应的目录中并解压。

$ gunzip current.dna.fa.gz

5、用-W(ublast)标签来运行程序,如:

$ ../RepeatMasker/RepeatMasker -w -species eleganscurrent.dna.fa 这里的-w标签是用以指示WU-BLAST为使用的匹配引擎;-species elegans是用以指示使用C. elegansRepbase文库文件,因为运算的序列是C. elegans。注意包含多个词的物种名需要用””(如:”Caenorhabditis elegans”)。

除了用于指示WU-BLAST的-w选项命令外,其他的命令参数和选项与Basic Protocol 2 类似。

运算结果指导说明

RepeatMasker的运算结果会被写成5个不同的文件,这些文件与查询序列或序列集同在一个目录下。其中,三个.out、.masked和.tbl扩展名的文件含有运算结果;其他的文件是储存运算进程信息的,所以在此不再详述。如果RepeatMasker是通过网络界面运算的,那么这三的文件会写成页面文件。参见列表:

.out扩展名的文件

Column Content

SW score Smith-Waterman score of the match

Perc div. Percent substitutions in matching region compared to the consensus Perc del. Percent of bases opposite a gap in the query sequence (deleted bp) Perc ins. Percent of bases opposite a gap in the repeat consensus (inserted bp) Query sequence Name of query sequence Position in query

Begin Starting position of match in query sequence End End position of match in query sequence

(Left) Number of bases in query sequence past the end position of the

current match

12 / 12

Column Content Matching repeat Repeat Name of repeat

Class/family The class of the repeat Position in repeata

Begin Starting position of match in repeat consensus sequence End End position of match in repeat consensus sequence

(Left) Number of bases in repeat consensus sequence past the end of the

current match

ID Repeat identification number

a

Note that if the repeat consensus matches the positive strand, the three subcolumns are begin, end, and (left); otherwise,the three subcolumns are (left), end, and begin.

本文来源:https://www.bwwdw.com/article/y7z8.html

Top