1、TRANSFAC(
http://www.gene-regulation.com/pub/databases.html#transfac)
德国生物工程研究所开发的TRANSFAC数据库是关于转录因子、它们在基因组上的结合位点和与DNA结合的profiles的数据库。由SITE、GENE、FACTOR、CLASS、MATRIX、CELLS、METHOD和REFERENCE等数据表构成。此外,还有几个与TRANSFAC密切相关
的扩展库:PATHODB库收集了可能导致病态的突变的转录因子和结合位点;S/MART DB收集了与染色体结构变化相关的蛋白因子和位点的信息;TRANSPATH库用于描述与转录因子调控相关的信号传递的网络;CYTOMER库表现了人类转录因子在各个器官、细胞类型、生
理系统和发育时期的表达状况。TRANSFAC及其相关数据库可以免费下载,也可以通过Web进行检索和查询。TRANSFAC数据库始建于1988年,采用关系数据库模式,用表格存放数据。1997年起,基于Web的版本开始上网,目前,该数据库正在进一步开发,如构建各种转
录因子在不同细胞组织中的表达特异性数据库等。
2、EPD(
http://www.epd.isb-sib.ch/)
是真核基因启动子数据库,提供从EMBL中得到的真核基因的启动子序列,目标是帮助实验研究人员、生物信息学研究人员分析真核基因的转录信号。现有1500多个启动子序列数据,按照层次式方式组织数据。关于启动子的描述信息直接摘自科学文献,因而相对独立于EMBL。
该数据库所有的启动子均经过一系列的实验证实:如是否为真核RNA聚合酶Ⅱ启动子、是否在高等真核生物中有生物学活性、是否与数据库中的其他启动子有同源性等等。
EPD与其他的相关数据库也建立了相关链接,如EMBL、SWISS-PROT、TRANSFAC等。在最新版本第76版本中,EPD将收集的启动子分为六大类:植物启动子、线虫启动子、拟南芥启动子、软体动物启动子、棘皮类动物启动子和脊椎动物启动子。共2997个条目,其中脊椎动物中的人类启动子有1871个,约占总数的62%。
EPD是目前唯一的一个实验证实启动子数据库,所以是各种预测软件的评论手段之一。
3、SCPD(
http://cgsigma.cshl.org/jian/)
酵母启动子数据库(The Promoter Database of Saccharomyces cerevisiae)P[11]P提供6000余条酵母基因和ORF以及相关的调控元件和转录因子数据。在SCPD中列有酵母菌的256个转录因子,目前已经可以借助基因表达分析来搜寻基因的调控位置。Roth等人及Hughes等人针对有类似基因表现图谱的基因启动子位置,寻找统计上经常出现的DNA序列,发现3311个DNA motif,经归类后有近400个DNA motif。由于一个基因的启动子区域经常含有一个以上的不同的DNAmotif,并且无法知道哪些DNAmotif必须同时与转录因子结合进而促进基因表达。Pilpel等人设计了一种称作基因表达一致性分数(Expression Coherence Score)的度量,做法是先收集酵母菌全部在启动子区域上拥有某种特殊DNA motif组合的基因,接下来计算酵母菌在不同生理状况下基因表现的相关性(即Expression Coherence Score),如果相关系数高,则可以推测出此种DNAmotif的特殊组合对基因表达进行调控。
4、TRRD(
http://wwwmgs.bionet.nsc.ru/mgs/gnw/trrd/)
转录调控区数据库(Transcription Regulatory Regions Database)是在不断积累的真核生物基因调控区结构-功能特性信息基础上构建的。每一个TRRD的条目里包含特定基因各种结构-功能特性:转录因子结合位点、启动子、增强子、静默子、以及基因表达调控模式等。TRRD包括五个相关的数据表:TRRDGENES(包含所有TRRD库基因的基本信息和调控单元信息);TRRDSITES(包括调控因子结合位点的具体信息);TRRDFACTORS(包括TRRD中与各个位点结合的调控因子的具体信息);TRRDEXP(包括对基因表达模式的具体描述);TRRDBIB(包括所有注释涉及的参考文献)。TRRD主页提供了对这几个数据表的检索服务。
评论