登录  
 加关注
   显示下一条  |  关闭
温馨提示!由于新浪微博认证机制调整,您的新浪微博帐号绑定已过期,请重新绑定!立即重新绑定新浪微博》  |  关闭

Black

Life is a travel

 
 
 

日志

 
 

UniGene Resources   

2010-01-06 09:18:49|  分类: Bioinformatics |  标签: |举报 |字号 订阅

  下载LOFTER 我的照片书  |

The UniGene System

UniGene是从属于GeneBank的一部分,专门收集非冗余性的基因来源的clusters数据。每一个UniGene Cluster包含代表单一基因的序列和相关的信息,例如基因表达的组织类型和图谱定位信息。

除了这些具有具有特征的序列以外,成千上万的EST也被收录在内。因此,相应的,这些收集的资源可以作为基因发现的来源。现在,许多实验室研究人员已经利用UniGene进行大规模的基因表达图谱分析,并且所有这些序列并没有被用来尝试产生ContigsConsensus。这里存在一些原因解释为什麽同属于某一基因的序列不用来产生一个单一的Contig.

1.    所有属于同一基因的剪切变异被放在同一聚类中。

2.    来从同一cDNA克隆的EST序列,通常都有5’3’端的序列,但这些序列并不都具有重叠部分。

当前,Unigene已收录了Human RatMouseCowZebrafish的序列。选择这些物种是因为它们有大量的EST可用数据,其它物种的序列将在今后陆续被加入。

UniGene的数据可通过FTP下载

UniGene Build Procedure

聚类是一个发现同属于一个大类中的小的亚序列的过程,可通过转换离散相似值为序列之间的布尔数学体系联系。也就是说,如果序列间的相似性超过某一阈值,则认为它们具有相关性。UniGene clustering 对于这种相关性分析提供更多的生物学意义上的考虑,聚类过程大致如下:

1.对序列中的载体、寡核苷酸、重复片段以及线粒体、核糖体等污染序列进行过滤。去除污染序列之后的序列至少要含有100bp的带有信息的序列才可作为候选序列。

2.Gene links

从属于同一基因的序列(包括 mRNA or genome sequences, 完整的 CDS)彼此之间要进行比较,足够相似的序列被放在一起,形成初始的clusters

3.EST to Gene links and EST to EST

通过megablastEST属于同一基因的序列进行比较,足够相似的序列 被加入到这些clusters。如果某一个序列,表现为可同时放在2不同clusters,但不能把2clusters联成一个cluster,这样的序列必须被剔除。另外,如果在clusters2个以上的带有 3’末端标记EST或在Cluster中没有带有polyA)信号的序列,这样的Clusters必须被抛弃。

经过这些标准筛选得到的clusters,称为锚定clusters 。因为这些clusters具有3’ 末端序列,并被假定为已知的。

4 根据克隆信息设定Cluster的边界。

这样可以确保如果同属于一个Cluster5’末端3’末端ESTs即使中间没有重叠的片段将它们联系起来,也能认定它们属于同一个cluster。如果在一个Cluster中有两个3’末端ESTs,那么就可在相同的克隆中找到两个5’末端EST,并将其放到同一个Cluster中。并且可以提供Clusters之间合并的信息。

由于新的序列数据的加入和每星期的不断更新,因此在UniGene中的resulting Cluster每星期也随之重新整理,不断更新。Clusters之间会发生融合,因此使用ClusterID作为标识,是不明智之举,最好利用GB accession numbers比较安全。

目前,在UniGene包括有48,000clustesClusters 大部分依据EST序列形成,每一个Cluster代表一个human gene 的转录子,当前估计人类基因组约有80,000100,000基因。利用UniGene Clusters的一个重要的目的是识别新的,非冗余的候选b表达图谱,为产生一个转录子图谱-识别基因组所有的编码序列。

 UniGene References

一篇发表在NCBI NEWS(19978月)上的文章对clustering算法以及UniGene项目作了介绍,为我们提供了了解UniGene&Transcript Map project的背景知识(see Schuler et al., 1996, below).

其它参考文献:

Schuler (1997). Pieces of the puzzle: expressed sequence tags and the catalog of human genes. J Mol Med 75(10),694-698. [PubMed]

Schuler et al. (1996). A gene map of the human genome. Science 274, 540-546. [PubMed] [SCIENCE On-line]

Boguski & Schuler (1995). ESTablishing a human transcript map. Nature Genetics 10, 369-371. [PubMed] [Full Text]

 

 转:http://www.biosino.org/pages/ncbi-6.htm

  评论这张
 
阅读(793)| 评论(0)

历史上的今天

评论

<#--最新日志,群博日志--> <#--推荐日志--> <#--引用记录--> <#--博主推荐--> <#--随机阅读--> <#--首页推荐--> <#--历史上的今天--> <#--被推荐日志--> <#--上一篇,下一篇--> <#-- 热度 --> <#-- 网易新闻广告 --> <#--右边模块结构--> <#--评论模块结构--> <#--引用模块结构--> <#--博主发起的投票-->
 
 
 
 
 
 
 
 
 
 
 
 
 
 

页脚

网易公司版权所有 ©1997-2018