登录  
 加关注
   显示下一条  |  关闭
温馨提示!由于新浪微博认证机制调整,您的新浪微博帐号绑定已过期,请重新绑定!立即重新绑定新浪微博》  |  关闭

Black

Life is a travel

 
 
 

日志

 
 

Blast相关介绍  

2009-10-12 10:31:13|  分类: Bioinformatics |  标签: |举报 |字号 订阅

  下载LOFTER 我的照片书  |

       Blast是通过比对(alignment)在数据库中寻找和你的查询序列(query)相似度很高的序列!通俗地说就是在已知的序列数据库中找和你的序列差不多的序列。序列类似性检索就是将新测定的核酸或蛋白质序列对核酸或蛋白质序列数据库进行检索,找出与之相似的序列,从而评判新测定的序列是重复别人的工作,还是在前人的基础上有所创新,或是发现了新的序列。现在用于序列类似性检索的软件很多,下面主要介绍GenBank的序列类似性检索工具棗BLAST。

1. BLAST简介

      BLAST是Basic Local Alignment Search Tool的英文缩写,意即碱基局部对准检索工具,是一种序列类似性检索工具。它采用统计学记分系统,能将真正配对的序列同随机产生的干扰序列区别开来;同时采用启发式算法系统,即采用的是局部对准算法(Local Alignment Algorithm),而不是全序列对准算法(Global Alignment Algorithm)。全序列对准算法是在检索结果中两个被比较序列所有片断均类似;而局部对准算法是找出两个被比较序列的“最类似”片断,并得出可能只包含两个序列的某个部分的对准结果。

      在BLAST的基础上,NCBI又开发了BLAST 2.0、Gapped BLAST和PSI-BLAST。BLAST 2.0是一种新的BLAST检索工具,它对BLAST作了改进,运行速度更快,灵敏度更高,同时具有Gapped BLAST和PSI-BLAST两种软件的新功能。Gapped BLAST允许在对准的序列中引入空位(碱基缺失或插入),引入“空位”(Gaps)意味着在比较两个相关序列时不会出现中断(Break)现象。这些空位对准的记分系统更能反映相关序列的类似程度。PSI-BLAST的全称是Position-Specific Iterated BLAST,意即特殊位置重复BLAST,它提供了自动、易用的概貌(Profile)检索,是查找序列同源(Sequence Homologues)的有效方法。目前,PSI-BLAST仅用于比较蛋白质查询序列与蛋白质数据库中的序列的类似程度。

2. 使用NCBI BLAST服务的四种基本方法

(1)经由WWW使用的BLAST

使用BLAST最容易的方法是WWW方式。在用户的浏览器中键入NCBI的URL地址:http//www.ncbi.nlm.nih.gov,进入NBCI主页,然后链接到BLAST主页。BLAST主页提供了好几种BLAST检索软件,包括BLAST、BLAST 2.0、Gapped BLAST和PSI-BLAST等,其中BLAST和BLAST 2.0提供了基本检索和高级检索两种模式。

(2)网络版的BLAST

BLAST2是标准的网络BLAST客户软件,它可以通过NCBI匿名的FTP服务器(ftp://ncbi.nlm.nih.gov)下的/blast/network/blast2/获取。

PowerBlast是用于大规模分析基因序列的网络BLAST客户应用软件,它可以通过NCBI匿名的FPT服务器(ftp://ncbi.nlm.nih.gov)下的/blast/network/blast2/powerBLAST/获取。

(3)独立运行的BLAST

BLAST 2.0可以在本地计算机上独立运行,也可以在自建的序列数据库中进行BLAST检索,还可以下载NCBI数据库中的记录。BLAST运行的软硬件环境为IRIX 6.2、Solaris 2.5、PEC OSF1(第四版)和Win32系统。可独立运行的BLAST 2.0在NCBI匿名的FTP服务器(ftp://ncbi.nlm.nih.gov)下的/blast/executables/获取。

(4) 电子邮件的BLAST

通过电子邮件对基因库进行BLAST检索。

3. BLAST的检索方法

(1) BLAST数据库的选择

BLAST检索的数据库包括两大类:一类是肽序列数据库,另一类是核酸序列数据库。

① 肽序列数据库包括:

nr: 所有无冗余基因库CDS转录产物、PDB、SwissProt以及PIR序列

month: 最近30天注释的所有新增的或修订的基因库CDS转录产物、PDB、SwissProt和PIR序列。

SwissProt: SwissProt蛋白质序列数据库中最新的主要注释(无更新)序列。

yeast: Yeast(Saccharomyces Cerevisiae)蛋白质序列。

E.coli: E.coli基因CDS转录产物。

pdb: 从Brookhaven蛋白质序列数据和三维结构衍生出来的序列。

Kabat [Kabatpro]: 免疫学上感兴趣的蛋白质序列Kabat数据库。

alu: 从重复序列数据库(REPBASE)选取的Alu重复序列,适用于过滤查询序列中Alu重复序列。通过匿名FTP从ncbi.nlm.nih.gov下的/pub/jmc/alu目录中获取。

② 核酸序列数据库包括:

nr: 所有无冗余的GenBank+EMBL+DDBJ+PDB序列;但不包括EST、STS、GSS或HTGS序列。

month: 最近30天注释的新增加的或修订的GenBank+EMBL+DDBJ+PDB序列

dbEST: GenBank+EMBL+DDBJ+PDB中EST部分的无冗余数据。

dbSTS: GenBank+EMBL+DDBJ+PDB中STS部分的无冗余数据。

htgs: 高允许能力(High Throughput)基因序列。

yeast: yeast(Saccharomyces Cerevisiae)基因核酸序列。

E.coli: 大肠杆菌(E.coli)基因核酸序列。

pdb: 蛋白质数据库。

Kabat[Kabatnuc]: 免疫学上感兴趣的核酸序列Kabat数据库。

Vector: GenBank载体数据库。

mito: 线粒体序列数据库。

alu: 从重复序列数据库(REPBASE)选取的Alu重复序列,适用于过滤查询序列中Alu重复序列。通过匿名FTP从ncbi.nlm.nih.gov下的/pub/jmc/alu目录中获取。

epd: 真核生物的启动子数据库。

gss: 基因搜寻序列,包括单递基因数据、外切核酸酶捕获序列和Alu PCR序列。

(2) BLAST程序的选择

BLAST是一种碱基局部对准检索工具,实质上是一种序列类似性检索工具,它运行blastp、blastn、blastx、tblastn、tblastx等五种程序的启发式检索算法;这五种程序是利用改进的Karlin和Altschul的统计学方法来描述检索结果的显著性。这些程序不支持主题形式检索,也就是不支持主题词、自由词、文本词等检索。

下面介绍五种程序的基本功能。

blastp:将待查询的蛋白质序列及其互补序列一起对蛋白质序列数据库进行查询;

blastn:将待查询的核酸序列及其互补序列一起对核酸序列数据库进行查询;

blastx:先将待查询的核酸序列按六种可读框架(逐个向前三个碱基和逐个向后三个碱基读码)翻译成蛋白质序列,然后将翻译结果对蛋白质序列数据库进行查询;

tblastn:先将核酸序列数据库中的核酸序列按六种可读框架翻译成蛋白质序列,然后将待查询的蛋白质序列及其互补序列对其翻译结果进行查询;

 tblastx:先将待查询的核酸序列和核酸序列数据库中的核酸序列按六种可读框架翻译成蛋白质序列,然后再将两种翻译结果从蛋白质水平进行查询。

因此,根据你查询的目的和序列选择合适的blast程序,有助于获得满意的检索结果。

(3) BLAST参数的设置

BLAST提供了许多参数可限制你的检索,以达到满意的结果。对于BLAST基本检索,系统预设的参数默认值即可满足需要,不需要你重新设定。但是对于BLAST高级检索,可开窗选择如下几种参数,也可在输入框增加其它参数。

①直方图(Histogram):显示每次检索评分的直方图。有yes、no两种选择,默认值为yes

②描述(Descriptions):限定描述性类似序列的条数。有default、0、10、50、100、250、500等七种选择,默认值为100。

③对准(Alignments):限定检出高积分片断配对(High-scoring Segment Pairs,HSPs)的数据库序列的条数,有default、0、10、50、100、250、500等七种选择,默认值为50。如果检索到的数据库序列超出设定值,BLAST仅显示最具统计学意义的配对序列,直到设定值。

④期望值(Expect,E值):它是期望数据库中具有某一统计学意义配对序列的值。有default、0.001、0.01、0.1、1、10、100、1000等选择值,默认值为10,一般地,期望值越低,限制越严格,甚至会导致无随机配对序列。

⑤Cutoff:设定高积分片断配对(HSPs)的Cutoff值。有default、60、70、80、90、100、110等七种选择值,其默认值一般通过期望值来计算得出。一般地,Cutoff值越高,其限制就越严格,甚至会导致无随机配对序列。

⑥矩阵(Matrix):为BLAST、BLASTX、TBLASTN和TBLASTX程序指定一个交替记分矩阵。其默认值为BLOSUM62,有PAM40、PAM120、PAM250和IDENTITY等四种有效选择。但交替记分矩阵对BLASTN不起作用。

⑦股(Strand):把BLASTN检索限定在数据库序列的股的首端或末端;或者把BLASTN、BLASTX、TBLASTX检索限定在查询序列股的首端或末端的机读部分。

⑧过滤器(Filter):过滤器可以过滤查询序列中低成分复杂性(Low Compositional Complexity)片断。它只过虑查询序列及其转录产物中的低成分复杂性片断,不能过虑数据库序列中的低成分复杂性片断。用户可以在BLAST和BLAST 2.0的高级检索中选择相应的过滤程序以消除对检索结果的干扰,如不用过滤功能则选择“NONE”。但是在BLAST和BLAST 2.0基本检索中,因为,系统对于不同的BLAST程序设定了默认值,例如对于blastn程序,其默认值为“DUST”,对于其他程序,默认值为“SEG”,所以用户只须选择用不用过虑功能,而不必设定过虑程序。

值得注意的是,过滤器中的SEG和XUN程序不能过滤SWISS-PROT数据库中的低复杂性片断,因此,虽然过滤器可以应用于SWISS-PROT数据库序列,但并未起作用。

⑨NCBI-GI:在输出结果中除存取号和位点名称(Locus Name)外,还可以选择NCBI-GI标识号。有yes 和no两种选择,其默认值为no。

(4) BLAST检索结果

BLAST程序用大致相同的格式显示检索结果,它包括四个部分:一是程序的介绍;二是一系列配对数据库序列的描述,从积分高到低排列,一行描述一条序列;三是实际的序列对准;四是检索中设定的参数及其它统计数据。

      主要的Blast入口:

http://blast.ncbi.nlm.nih.gov/Blast.cgi

http://www.ebi.ac.uk/Tools/blast/

http://blast.ddbj.nig.ac.jp/top-e.html

http://blast.genome.ad.jp/

待续。。。

 

  评论这张
 
阅读(1174)| 评论(4)

历史上的今天

评论

<#--最新日志,群博日志--> <#--推荐日志--> <#--引用记录--> <#--博主推荐--> <#--随机阅读--> <#--首页推荐--> <#--历史上的今天--> <#--被推荐日志--> <#--上一篇,下一篇--> <#-- 热度 --> <#-- 网易新闻广告 --> <#--右边模块结构--> <#--评论模块结构--> <#--引用模块结构--> <#--博主发起的投票-->
 
 
 
 
 
 
 
 
 
 
 
 
 
 

页脚

网易公司版权所有 ©1997-2018