2011-02-19 10:08:36| 分类: Bioinformatics | 标签: |举报 |字号大中小 订阅
http://biflife.blog.163.com/blog/static/139815582201031393851149/
安装BLAST+
在前面的文章已经提过了如何安装BLAST+ (http://biflife.blog.163.com/blog/static/1398155822010220393975/),这里再介绍一个绿色版的安装,从NCBI FTP下载ncbi-blast-2.2.23+-ia32-win32.tar.gz文件 下载地址:ftp://ftp.ncbi.nlm.nih.gov/blast/executables/blast+/2.2.23/,然后解压到任意位置,例如D:\Bif下面,进入解压后的文件夹内的bin目录(在我电脑上是D:\Bif\ncbi-blast-2.2.23+\bin),可以看到已经编译好的BLAST+程序了,见图 1。启动Windows命令行界面,进入到当前bin目录,输入“blastn help”命令,如果屏幕显示blastn命令参数的帮助信息,则说明程序完好,可以运行,见图 2。
图 1 解压后BLAST+文件夹内bin目录下面包含有可执行的各种程序
图 2 运行blastn help命令
BLAST+程序结构
关于BLAST+的主要变化已经在这篇文章中介绍过了,这里主要介绍一下BLAST+中的主要应用程序。最为重要的一个改变就是BLAST+中没有blastall程序了,取而代之的是blastn, blastx, blastp等之前出现在blastall p 参数后面的属性值。图 3标明了新老版本程序的进化关系。
另外需要注意的是,blastn以及blastp新增加了-task参数,可用的值参见图 4。这个参数如同其名称所示,是执行相应任务的,例如,对于短序列,例如探针、引物,则应该选择-task blastn-short。通常情况下,选择-task blastn。因为blastn的参数较多,对于不同的任务(引物序列vs基因组片段)需要选择不同的参数,而普通用户常常不太熟悉这些参数,导致相似性搜索失败。根据不同的任务类型,将其封装起来,形成-task参数,确实是一个大的进步,着实为用户着想。感谢NCBI。
图 3 BLAST新老版本程序对应图
图 4 BLAST+中的-task参数可用属性值列表
下载数据库
本地化搜索没有本地数据库是不行的,这篇文章介绍了如何使用update_blastdb.pl下载数据库,但如果电脑使用代理上网的话,就会出现错误导致无法下载。建议还是直接到NCBI FTP(ftp://ftp.ncbi.nih.gov/)上下载数据库,使用lftp (Linux)或者迅雷(没试过)还可以多线程下载,用update_blastdb.pl下载比较慢。
作为测试,本文下载了人类的mRNA数据库,下载地址是:ftp://ftp.ncbi.nih.gov/refseq/H_sapiens/mRNA_Prot/human.rna.fna.gz 。解压后存放在 D:\Bif\test目录下。
格式化数据库
Blastn要求格式化好的数据库,从NCBI ftp站点下载下来的fasta格式的数据库不能直接使用,需要使用makeblastdb程序来格式化,命令如下(图 5):
D:\Bif\test>”D:\Bif\ncbi-blast-2.2.23+\bin\makeblastdb.exe” -in human.rna.fna -parse_seqids -hash_index -dbtype nucl
-in参数后面接将要格式化的数据库,-parse_seqids, -hash_index两个参数一般都带上,主要是为blastdbcmd取子序列时使用,-dbtype nucl告诉程序这是核酸数据库,默认为蛋白 prot。
注意:BLAST+2.2.24中这个参数不要加 -parse_seqids,不然成死循环
makeblastdb -in nr -parse_seqids -hash_index -dbtype prot
图 5 格式化数据库
准备自己的查询序列
BLAST+系列程序均要求查询序列以fasta格式存在,fasta格式已经程序事实上的序列标准被广泛采用,几乎所有的序列处理程序都要求fasta格式。所谓FASTA格式是指DNA序列第一行开始于一个标识符:">",紧接着(没有空格)是对该序列的唯一描述(即ID),然后一个空格,接着是对该序列的描述(也可以没有),从第二行开始就是一行行的序列,中间的空格,换行没有影响。为了方便阅读,每一行序列最好不要超过80个字母。详细的说明请看着这里http://biocompute.bmi.ac.cn/MPprimer/Fasta_help.html 。
本文准备了fasta格式的人源NGB mRNA序列,见图 6。
图 6 Fasta格式的人源NGB mRNA序列
运行blastn (BLAST+)
当一切都准备好之后,运行blastn就非常简单了,命令如下:
D:\Bif\test>”D:\Bif\ncbi-blast-2.2.23+\bin\blastn.exe” -task blastn -query NGB.rna -db human.rna.fna out NGB_blast.txt
-task blastn:任务类型,前面已有描述;
-query NGB.rna:查询序列,必须是fasta格式;
-db human.rna.fna:格式化好的查询数据库;
-out NGB_blast.txt:结果输出文件,见图 8;
其他参数请使用blastn help查阅。
另外新版blastn还有一个可以定制输出结果的参数-outfmt,有了这个参数,BioPerl、 Biopython中的blast解析器就可以不必使用了。这确实又是BLAST+新版另外一个最大的提高,非常非常方便。本人的一些工作就依赖于BLAST结果的解析,有了这个参数,就不需要解析BLAST结果了,确实很好很强大。具体如何使用,各位可以摸索一下,非常简单。
图 7 运行blastn程序
图 8 blastn结果文件示例
其他
完整的BLAST+说明文档请参阅解压后的BLAST+目录/doc文件夹下的NCBI-BLAST-user_manual.pdf文件。
本文引用地址:http://biflife.blog.163.com/blog/static/1398155822010313938
评论