2010-10-24 19:57:32| 分类: Bioinformatics | 标签: |举报 |字号大中小 订阅
引用
fhqdddddd 的 ClustalW、ClustalX介绍及最新版下载地址
Clustal的使用 http://blog.sina.com.cn/s/blog_4a215df70100g9tx.html
1.Clustalx
2.Clustalw
序列同源性分析:
是将待研究序列加入到一组与之同源,但来自不同物种的序列中进行多序列同时比较,以确定该序列与其它序列间的同源性大小。这是理论分析方法中最关键的一步。完成这一工作必须使用多序列比较算法。常用的程序包有CLUSTAL等;
Clustal是一个单机版的基于渐进比对的多序列比对工具,由Higgins D.G. 等开发。有应用于多种操作系统平台的版本,包括linux版,DOS版的clustlw,clustalx等。
CLUSTAL是一种渐进的比对方法,先将多个序列两两比对构建距离矩阵,反应序列之间两两关系;然后根据距离矩阵计算产生系统进化指导树,对关系密切的序列进行加权;然后从最紧密的两条序列开始,逐步引入临近的序列并不断重新构建比对,直到所有序列都被加入为止。Clustalx的工作界面(多序列比对模式)
Clustalx的工作界面(剖面(pro
file)比对模式) Clustal的工作原理
Clustal输入多个序列>>>快速的序列两两比对,计算序列间的距离,获得一个距离矩阵。>>>邻接法(NJ)构建一个树(引导树)>>>根据引导树,渐进比对多个序列。
Clustal的应用
1.输入输出格式。
输入序列的格式比较灵活,可以是前面介绍过的FASTA格式,还可以是PIR、SWISS-PROT、GDE、Clustal、GCG/MSF、RSF等格式。输出格式也可以选择,有ALN、GCG、PHYLIP和NEXUS等,用户可以根据自己的需要选择合适的输出格式。
2.两种工作模式。
a.多序列比对模式。
b.剖面(pro file)比对模式。 3.一个实际的例子。
输入文件的格式(fasta):>KCC2_YEAST
NYIFGRTLGAGSFGVVRQARKLSTN……
>DMK_HUMAN
DFEILKVIGRGAFSEVAVVKMKQTGQVYAMKIMNK…….
>KPRO_MAIZE
TRKFKVELGRGESGTVYKGVLEDDRHVAVKKLEN……
>DAF1_CAEEL
QIRLTGRVGSGRFGNVSRGDYRGEAVAVKVFNALD……
>1CSN
HYKVGRRIGEGSFGVIFEGTNLLNN…… 第一步:输入序列文件。
第二步:设定比对的一些参数。
参数设定窗口。
第三步:开始序列比对。
第四步:比对完成,选择保存结果文件的格式
Clustalw的使用(一)
Clustalw还提供了命令调用形式的使用方式,方便于批处理过程,下面是一个典型的执行多序列比对的clustalw命令:
$ ./clustalw –infile=dna.fa –type=dna –gapopen=10 –gapext=2 –output=gcg –outfile=align.gcg -align
EBI提供的在线clustalw服务
http://www.ebi.ac.uk/clustalw/可以在这里得到更多关于clustal的帮助:
http://www-igbmc.u-strasbg.fr/BioInfo/ClustalX/Top.html
Clustal 命令行http://wanguan2000.blog.ubuntu.org.cn/2009/03/page/2/
Clustal的基本思想是基于相似序列通常具有进化相关性这一假设。比对过程中,先对所有的序列进行两两比对并计算它们的相似性分数值,然后根据相似性分数值将它们分成若干组,并在每组之间进行比对,计算相似性分数值。根据相似性分数值继续分组比对,直到得到最终比对结果。比对过程中,相似性程度较高的序列先进行比对,而距离较远的序列添加在后面。作为程序的一部分,Clusal可以输出用于构建进化树的数据。
Clustal程序有许多版本,ClustalW(Thompson等,1994),根据对亲缘关系较近的序列间空位情况,确定如何在亲缘关系较远的序列之间插入空位。同样,相似性较高的序列比对结果中的残基突变信息,可用于改变某个特殊位置空位罚分值的大小,推测该位点的序列变异性。
ClustalX-是CLUSTAL多重序列比对程序的Windows版本。Clustal X为进行多重序列和轮廓比对和分析结果提供一个整体的环境。
下列网站提供在线ClustalW服务:
http://www.ebi.ac.uk/Tools/clustalw/
http://www.ch.embnet.org/software/ClustalW.html
http://npsa-pbil.ibcp.fr/cgi-bin/npsa_automat.pl?page=/NPSA/npsa_clustalw.html
http://clustalw.ddbj.nig.ac.jp/top-e.html
ClustalW、ClustalX最新版本下载,目前最新版本为2.0.11,有WIN版本和Linux版本:
http://www.clustal.org/download/current/
EMBL的下载地址:
ftp://ftp.ebi.ac.uk/pub/software/clustalw2/
参考文献:
Larkin MA, Blackshields G, Brown NP, Chenna R, McGettigan PA, McWilliam H, Valentin F, Wallace IM, Wilm A, Lopez R, Thompson JD, Gibson TJ, Higgins DG.
(2007). Clustal W and Clustal X version 2.0. Bioinformatics, 23, 2947-2948.有点相关的文章
本文详细出处参考:http://liucheng.name/387/
clustalw 命令行
clustalw -INFILE=myfile.seqs -GAPOPEN=2 -GAPEXT=4 -OUTPUTTREE=nj
clustalw -INFILE=2.txt -OUTPUTTREE=nj -TYPE=PROTEIN
DA
TA (sequences) -INFILE=file.ext :input sequences.
-PROFILE1=file.ext and -PRO FILE2=file.ext :profiles (old alignment). VERBS (do things)
-OPTIONS :list the command line parameters
-HELP or -CHECK utline the command line params.
-ALIGN :do full multiple alignment
-TREE :calculate NJ tree.
-BOOTSTRAP(=n) :bootstrap a NJ tree (n= number of bootstraps; def. = 1000).
-CONVERT utput the input sequences in a different file format.PARAMETERS (set things)
***General settings:****
-INTERACTIVE :read command line, then enter normal interactive menus
-QUICKTREE :use FAST algorithm for the alignment guide tree
-NEGATIVE :protein alignment with negative values in matrix
-OUTFILE= :sequence alignment file name
-OUTPUT= :GCG, GDE, PHYLIP or PIR
-OUTORDER= :INPUT or ALIGNED
-CASE :LOWER or UPPER (for GDE output only)
-SEQNOS= :OFF or ON (for Clustal output only) ***Fast Pairwise Alignments:***
-KTUPLE=n :word size -TOPDIAGS=n :number of best diags.
-WINDOW=n :window around best diags. -PAIRGAP=n :gap penalty
-SCORE ERCENT or ABSOLUTE***Slow Pairwise Alignments:***
-PWMATRIX= rotein weight matrix=BLOSUM, PAM, GONNET, ID or filename
-PWDNAMATRIX= NA weight matrix=IUB, CLUSTALW or filename2
-PWGAPOPEN=f :gap opening penalty -PWGAPEXT=f :gap extension penalty***Multiple Alignments:***
-NEWTREE= :file for new guide tree
-USETREE= :file for old guide tree
-MATRIX= rotein weight matrix=BLOSUM, PAM, GONNET, ID or filename
-DNAMATRIX= NA weight matrix=IUB, CLUSTALW or filename
-GAPOPEN=f :gap opening penalty -GAPEXT=f :gap extension penalty
-ENDGAPS :no end gap separation pen. -GAPDIST=n :gap separation pen. range
-NOPGAP :residue-specific gaps off -NOHGAP :hydrophilic gaps off
-HGAPRESIDUES= :list hydrophilic res. -MAXDIV=n :% ident. for delay
-TYPE= ROTEIN or DNA -TRANSWEIGHT :transitions weighted.***Pro
file Alignments:***
-PROFILE :Merge two alignments by pro file alignment
-NEWTREE1= :file for new guide tree for profile1
-NEWTREE2= :file for new guide tree for profile2
-USETREE1= :file for old guide tree for profile1
-USETREE2= :file for old guide tree for profile2 ***Sequence to Pro
file Alignments:***
-SEQUENCES :Sequentially add profile2 sequences to pro file1 alignment
-NEWTREE= :file for new guide tree
-USETREE= :file for old guide tree***Structure Alignments:***
-NOSECSTR1 :do not use secondary structure-gap penalty mask for profile 1
-NOSECSTR2 :do not use secondary structure-gap penalty mask for profile 2
-SECSTROUT= :STRUCTURE or MASK or BOTH or NONE output in alignment file
-HELIXGAP=n :gap penalty for helix core residues
-STRANDGAP=n :gap penalty for strand core residues
-LOOPGAP=n :gap penalty for loop regions
-TERMINALGAP=n :gap penalty for structure termini
-HELIXENDIN=n :number of residues inside helix to be treated as terminal
-HELIXENDOUT=n :number of residues outside helix to be treated as terminal
-STRANDENDIN=n :number of residues inside strand to be treated as terminal
-STRANDENDOUT=n:number of residues outside strand to be treated as terminal***Trees:***
-OUTPUTTREE=nj OR phylip OR dist
-SEED=n :seed number for bootstraps.
-KIMURA :use Kimura’s correction. -TOSSGAPS :ignore positions with gaps.
评论