登录  
 加关注
   显示下一条  |  关闭
温馨提示!由于新浪微博认证机制调整,您的新浪微博帐号绑定已过期,请重新绑定!立即重新绑定新浪微博》  |  关闭

Black

Life is a travel

 
 
 

日志

 
 

序列组装及其后续分析z  

2011-01-10 18:30:21|  分类: Bioinformatics |  标签: |举报 |字号 订阅

  下载LOFTER 我的照片书  |
和大家分享这篇日志,我的看法是:

 
原文地址:序列组装及其后续分析    原文作者:selene

   对一种真菌的基因组测序研究或许能够回答下面的问题:
  为什么一种真菌能够成为病原物,而另外一种能够成为一种杀虫剂。
  同样的,对水稻或者其它工程菌的测序或许也能回答下面的问题:
  为什么有的水稻穗大粒多,高产,而另外一种水稻穗小粒少,低产。
 
  下一代的测序技术(SOLiD, 454 and Genome Analyzer System)使得对真菌进行快速的测序成为可能,
  在得到测序数据后,主要要进行后续的数据处理和分析:
 
  第一步:
  对序列进行组装,如果是重测序,可以用MAQ进行组装;
  如果是对新物种进行(de novo)测序,用velvet进行组装.
  
  第二步:
  对组装后得到的Scaffold进行全基因组基因注释:
  包括:基因组组分分析;编码基因预测;重复序列注释;Non-coding RNA基因注释;Micro RNA基因注释;tRNA基因注释;假基因(Pseudogene)注释等.
 
  常用到的编码基因用到的软件有:
  Augustus: http://augustus.gobics.de/
  Fgenesh: http://www.softberry.com/
  Genemark: http://exon.biology.gatech.edu/

  第三步:
  对预测的基因进行功能(Gene Ontology,调控Motif,Pathway等)注释:
  可以使用的软件有:InterproScan,SignalP,SMURF
 
  第四步:
  比较基因组和分子进化分析:
  如快速进化(rapid evolution)分析,共线性分析(Synteny Block),基因家族分析等;

  常用的进化树分析软件:

  MEGA:http://www.megasoftware.net/

  与真菌相关的基因家族如:
  P450: 

http://p450.riceblast.snu.ac.kr 

http://drnelson.utmem.edu/CytochromeP450.html

主要的真菌测序机构:

http://www.genolevures.org/

http://www.broadinstitute.org

http://www.jgi.doe.gov/

http://www.sanger.ac.uk/

参考文献:

http://www.aikexue.org/?p=327


 

短序列组装Sequence Assembly

(说明:转了一部分,自己写了一部分)
短序列组装(Sequence assembly)几乎是近年来next-generation sequencing最热门的话题。简单来说,就是把基因组长长的序列打断(shotgun sequencing),因为我们不知道基因组整条序列是如何排列(成一条链,最后成为一条染色体)组合(如何区分不同染色体)的,而我们又无法实现一次把整条长序列完整测序(现在有单子测序可能是一个新的sunlight)。然后,我们通过算法,计算机的帮助,把这些短的序列组装起来成为一条完整有序的序列。
就好比我们有这样一句话:

    it is just a hypothesis, so don't be seriously!

    假设,我们现在不知道这句话到底是什么,就像我们有一个box,我们抽到一张纸,但没打开,我们把这张纸撕成pieces,当然可能还发生了变化,所有的空格和标点都消失了(魔术!)我们得到:

    itis ypo stah the sodo eriou siss ju ntbes sly……

    因为我们测了几次,为了增加覆盖度,这样我们能通过高覆盖度而提高置信度:

    itis ypo stah the sodo eriou siss ju ntbes sly tis yopth sodon beser beser ssod iti sju……

    另外,我们又发明了一种称作为paired-ends的序列测序方法,即两头定长,中间插入片段一定的序列,像这样:

    iti*****ahyp sju*****pot the*****don sod*****ser bes*****sly ……

    这样我们根据如下图的方法,我们可以把这句话拼回来:

     itisjustahypothesissodontbeseriously

但它不是最终结果,我们根据我们的现有的语法习惯,我们给它们加上空格(gap)和标点(遗漏的关键东西),我们能够还原原话!


第一:介绍一下组装的方法:
方法一:对序列进行组装,如果是重测序,可以用MAQ进行组装:Map to reference genome
方法二:如果是对新物种进行(de novo)测序,用velvet进行组装:De novo assembly
第二:组装的原理和流程图:
序列组装及其后续分析 - selene - 小鱼悠悠
  

    

方法一和方法二的区别是有无参考基因组(reference genome):下面是有参考基因组的一个结果显示

                       

序列组装及其后续分析 - selene - 小鱼悠悠

 

Mapping short reads to a reference
Eland
aligner for Illumina data
alignment policies:
??allows up to 2 mismatches/alignment
??non-unique alignments are discarded
Maq
??quality aware - takes seq quality into
  account
??allows non-unique alignments
Index methods
??reference genome is loaded into active
 memory as k-mers
??very fast alignments
??SOAP
??Bowtie
SNP detection, paired-end mapping, RNA-seq, ChIP-seq, etc.

                           

Analysis depends on application
Mapping to reference genome
??useful for interrogating the “known” genome
??RNA sequencing
??ChIP sequencing
??SNP detection (targeted and whole-genome)
??methyl-seq
??CNV detection (sometimes)
De novo assembly
??no genome sequence
??unbiased ascertainment of variation in
  known genome by whole-genome reseq

第三:short reads alignment by MAQ

序列组装及其后续分析 - selene - 小鱼悠悠

    

第四:velvet示意图:

序列组装及其后续分析 - selene - 小鱼悠悠

 

    通过上述两种方法可以完成高通量短序列数据的组装,但事实它并不简单,因为基因组中含有大量的重复序列(Repeats),多态性变异(Polymorphism),测序错误(Sequencing error),这三个方面就是组装过程中出现组装错误的主要来源.

参考资料:http://blog.sina.com.cn/s/blog_4860086b0100dnos.html

http://seqanswers.com/forums/showthread.php?t=1024

  评论这张
 
阅读(892)| 评论(0)

历史上的今天

评论

<#--最新日志,群博日志--> <#--推荐日志--> <#--引用记录--> <#--博主推荐--> <#--随机阅读--> <#--首页推荐--> <#--历史上的今天--> <#--被推荐日志--> <#--上一篇,下一篇--> <#-- 热度 --> <#-- 网易新闻广告 --> <#--右边模块结构--> <#--评论模块结构--> <#--引用模块结构--> <#--博主发起的投票-->
 
 
 
 
 
 
 
 
 
 
 
 
 
 

页脚

网易公司版权所有 ©1997-2018