登录  
 加关注
   显示下一条  |  关闭
温馨提示!由于新浪微博认证机制调整,您的新浪微博帐号绑定已过期,请重新绑定!立即重新绑定新浪微博》  |  关闭

Black

Life is a travel

 
 
 

日志

 
 

基因剪接的信号序列分析和相关特征研究z  

2010-11-26 10:46:16|  分类: Bioinformatics |  标签: |举报 |字号 订阅

  下载LOFTER 我的照片书  |

 

引用

液相色谱柱法基因剪接的信号序列分析和相关特征研究

基因剪接的信号序列分析和相关特征研究

【摘要】: 生物信息学是信息科学与生命科学的交叉学科,随着生物技术和计算机技术的迅猛发展,生物信息学已经成为目前最为活跃的新型学科之一。剪接是基因转录过程中的一个重要步骤,其得到的序列直接决定了翻译的产物——蛋白质,而选择性剪接机制的存在,使得同样的基因可以得到不同的蛋白质产物,从而导致生命的多样性。剪接和选择性剪接机制的研究为我们理解基因的表达提供重要帮助,已成为目前生物信息学研究的一个主要方向。本文对剪接和选择性剪接的信号序列以及相关特征进行了深入地分析和研究,其中主要工作和创新之处包括: (1)编码区剪接位点识别的研究。剪接序列分析的一个重要目标就是精确地识别出基因序列中的剪接位点,包括供体位点和受体位点。本文采用隐Markov模型作为剪接位点识别系统的主要模型,根据剪接位点信号序列中碱基之间的相关性,分别构建了供体位点信号和受体位点信号的识别模型。因为仅仅依赖于位点信号的保守信息还不足以精确地识别出剪接位点,所以用2阶隐Markov模型来对剪接位点两侧的外显子序列和内含子序列分别进行建模,结合序列模型和信号模型,最后得到剪接位点识别的总体模型。利用实际的人类基因数据,本文对剪接位点识别模型进行了验证,其识别结果达到了目前国际上同类优秀软件的水平。 (2)非翻译区剪接位点识别的研究。基因非翻译区在基因转录的过程中也进行了剪接,其外显子保留在转录物中,但是在翻译的过程中并不被翻译成氨基酸。正是由于非翻译区的内含子和外显子均为非编码序列,剪接位点两侧的序列不存在编码到非编码的状态转换,所以非翻译区剪接位点的识别一直是生物信息学中的一个挑战性问题。为了提高非翻译区剪接位点识别的精度,本文采用支持向量机作为位点识别模型。考虑到剪接位点的选取与位点附近的核酸序列有着重要的关联,特别为支持向量机构造了一个新的核函数——位置权重子序列核函数。位置权重子序列核函数的特征变换综合了剪接位点两侧序列的组成信息和位置信息,能够较好反映实际的剪接机制。以人类5’非翻译区序列数据为实验对象,本文对该模型进行了实验验证,其识别精度与目前国际上非翻译区剪接位点识别软件的水平大体相当,甚至在一些指标上超过了其他的识别软件。 (3)信号位点附近寡核苷酸模体发现的研究。生物信号位点附近通常存在一些保守性较高的短序列片断,称之为寡核苷酸模体。这些寡核苷酸模体往往对生物信号起着重要的调控作用。如果能够找出这些保守的模体,不仅有利于识别信号位点,还可以帮助理解生物信号产生作用的生理机制。为此,本文提出一个基于最大熵分布的模体发现算法,根据候选模体在信息增益上的差别,采用逐步筛选的方法,选取信息增益突出的寡核苷酸序列作为信号的模体。但是,在信号序列较长的情况下,该算法将占用大量的空间和时间,在实际中无法实现。为了解决这一问题,本文采用了序列分解的方法,将较长的序列分解为多个短片断。为了保留短片断之间的相关性,并不是简单地分割这些长序列,而是同时考虑了短片断之间分界点两侧的序列,这样既可以降低算法对空间和时间的需求,又尽可能地保留了全局信息。考虑到在众多的候选寡核苷酸序列中,只有少量的序列是真正的模体,本文在选取模体的时候加入了一个预选阈值,如果候选模体的出现频率小于预选阈值,则在进入迭代前,就将这个模体从候选模体集中去除。利用筛选后的寡核苷酸模体,信号序列能够较好地与背景序列区分开来,这说明选取的寡核苷酸模体较好地体现了信号特征。 (4)选择性剪接在物种间的保守性研究。选择性剪接作为高等生物中普遍存在的一种生命现象,极大地丰富了基因的表达产物——蛋白质。通过选择不同的位点进行剪接,可以得到不同的蛋白质,它们可能会导致物种的变异,疾病的产生,生物功能的转变等等。通过分析不同物种之间选择性剪接的保守性,既可以得到物种在进化中保留下来的选择性剪接模式,还可以发现进化中单个物种产生的特异选择性剪接模式。为了详细分析选择性剪接与物种进化之间的关系,本文采用多个特征指标,从不同方面对常见选择性剪接方式中的外显子跳跃剪接进行了人类和小鼠这两个物种之间的保守性分析。结果表明,大部分的特征在两个物种之间具有很强的相似性,这说明人类和小鼠从共同的祖先处遗传得到相似的选择性剪接方式,具有很强的亲缘关系,这与近年来的研究结果相吻合。但同时也存在一些单个物种特有的特征,它们应该是物种在进化过程中独立发展出的特性。
【关键词】:生物信息学 剪接位点识别 模体发现 外显子跳跃剪接 进化分析 隐Markov模型 支持向量机
【学位授予单位】:国防科学技术大学
【学位级别】:博士
【学位授予年份】:2006
【分类号】:TN911.6
【DOI】:CNKI:CDMD:1.2007.141099
【目录】:
  • 摘要9-11
  • ABSTRACT11-13
  • 第一章 绪论13-27
  • 1.1 引言13-15
  • 1.2 研究背景15-21
  • 1.2.1 生物信号识别的相关研究15-17
  • 1.2.2 模体发现的相关研究17-18
  • 1.2.3 选择性剪接的相关研究18-21
  • 1.3 论文的主要工作与创新21-24
  • 1.4 论文的结构24-27
  • 第二章 基因的剪接和选择性剪接27-37
  • 2.1 引言27
  • 2.2 基因简介27-28
  • 2.3 基因的结构和表达28-31
  • 2.3.1 基因的结构28-29
  • 2.3.2 基因的表达29-31
  • 2.4 剪接和选择性剪接31-36
  • 2.4.1 RNA 剪接31-34
  • 2.4.2 选择性剪接34-36
  • 2.5 小结36-37
  • 第三章 基因编码区剪接位点识别37-59
  • 3.1 概述37
  • 3.2 隐Markov 模型的基本理论37-45
  • 3.2.1 隐Markov 模型的定义37-39
  • 3.2.2 隐Markov 模型的基本算法39-44
  • 3.2.3 隐Markov 模型算法的标定44-45
  • 3.3 隐Markov 模型在基因编码区剪接位点识别中的应用45-58
  • 3.3.1 数据准备45
  • 3.3.2 识别的评价指标45-46
  • 3.3.3 模型46-55
  • 3.3.4 测试与讨论55-58
  • 3.4 小结58-59
  • 第四章 基于SVM 的非翻译区剪接位点识别59-81
  • 4.1 概述59-60
  • 4.2 支持向量机理论60-64
  • 4.2.1 最优分类面60-62
  • 4.2.2 广义最优分类面62-63
  • 4.2.3 核函数63-64
  • 4.3 剪接位点识别的核函数64-72
  • 4.3.1 序列核函数65-69
  • 4.3.2 位置权重子序列核函数69-72
  • 4.4 实验结果72-78
  • 4.4.1 数据准备72-73
  • 4.4.2 参数选择73-76
  • 4.4.3 实验结果与讨论76-78
  • 4.5 小结78-81
  • 第五章 信号序列中的寡核苷酸模体发现81-101
  • 5.1 概述81-82
  • 5.2 最大熵模体选取方法82-90
  • 5.2.1 最大熵原理82-83
  • 5.2.2 最大熵分布的计算83-86
  • 5.2.3 模体的评价标准86-88
  • 5.2.4 模体的选取策略88-90
  • 5.2.5 最大熵模型90
  • 5.3 剪接信号序列中的模体选取90-99
  • 5.3.1 数据准备90-92
  • 5.3.2 模体选取92-99
  • 5.4 小结99-101
  • 第六章 外显子跳跃剪接在物种间的保守性分析101-117
  • 6.1 概述101-102
  • 6.2 跳跃外显子的保守性分析102-115
  • 6.2.1 数据收集102-103
  • 6.2.2 特征分析103-115
  • 6.3 小结115-117
  • 结束语117-119
  • 致谢119-121
  • 参考文献121-133
  • 作者在攻读博士期间撰写的论文133


--《国防科学技术大学》2006年博士论文
来源  基因剪接的信号序列分析和相关特征研究--《国防科学技术大学》2006年博士论文
  评论这张
 
阅读(352)| 评论(0)

历史上的今天

评论

<#--最新日志,群博日志--> <#--推荐日志--> <#--引用记录--> <#--博主推荐--> <#--随机阅读--> <#--首页推荐--> <#--历史上的今天--> <#--被推荐日志--> <#--上一篇,下一篇--> <#-- 热度 --> <#-- 网易新闻广告 --> <#--右边模块结构--> <#--评论模块结构--> <#--引用模块结构--> <#--博主发起的投票-->
 
 
 
 
 
 
 
 
 
 
 
 
 
 

页脚

网易公司版权所有 ©1997-2018