增强子操作
来源/作者:普拉特泽-生物医学整体课题外包平台
上一篇师姐带我们一起学习了增强子的理论知识,那现在我们就一起来学习一下如何用增强子数据来进行增强子的预测以及序列下载吧。
一、数据库EnhancerAtlas(http://www.enhanceratlas.org/index2.php)
首先先给大家介绍一下如何用EnhancerAtlas来进行增强子的预测和序列下载。演示:首先在浏览器中输入EnhancerAtlas,进入该网站的首页,首页显示了该数据库的数据来源及增强子的数量:这个数据库包含了来自170种细胞或组织共4,506,217个人类增强子信息和来自150种细胞或组织共2,811,699个小鼠增强子信息。
该数据库有多种检索方式,支持直接输入基因名称或者基因组特定区域,查看在该区域内的增强子,同时还能比较增强子在不同细胞系中的表达。以鼠源基因klf4为例来演示如何在这个数据库中预测增强子,在选框中选择物种,选择细胞或组织,输入基因名称,点击search,跳转到结果页面。
该数据库采用了基因组浏览器的展示形式,每一行称之为track。最上方显示了检索的范围为小鼠4号染色体的55342150-55750150bp,即目的基因上下游各20kb,可调节滑轮来控制检索的位置。黑色字体对应行表示每种方法检测到的该区域reads覆盖结果(如P300、DNA超敏位点、转录因子结合位点、组蛋白修饰及染色质修饰因子等),有些基因还会有红色字体,为对应行为综合多种方法得到的增强子区域的结果。由图可知,该数据库在这个范围内共预测到6个与该基因相关的增强子,从左到右依次为1-6,2号、3号、6号增强子在几种增强子特征物处都被检测到,说明这个位置是潜在的增强子所处的位置,可作为我们的重点关注对象。点击show the details可查看每个增强子的细节(包括增强子ID、增强子在染色体上的位置等),点击download也可下载预测到的每个增强子的序列,用于后续CHIP实验的引物设计。
同时该数据库也可以比较增强子在不同细胞或组织中的表达,检索框示意如下:选择想要比较的细胞系或组织,结果显示了该基因在不同细胞中的增强子情况,可以看到2号增强子在各细胞或组织中相对保守,在后续研究中可作为重点关注对象。同样可以点击进去查看各细胞系中的增强子信息细节及下载增强子序列。
二、dbSuper数据库(http://asntech.org/dbsuper/)
dbSUPER是超级增强子数据库的开山之作,收录了人和小鼠中的超级增强子信息(两种方式:一是从PubMed中收集已发表的,有文献支持的超级增强子;二是利用ENCODE, GEO等公共数据库下载H3K27ac chip_seq数据后采用MACS识别增强子区,ROSE识别超级增强子区)。对于human而言共收录了来自102种不同细胞/组织共69205个超级增强子;对于mouse而言共收录了来自25种不同细胞/组织共13029个超级增强子信息。但是该数据库只是提供了超级增强子区域的染色体位置等基本信息,缺乏对超级增强子区域内的其他基功能元件的注释。
进入该数据库首页,点击左边的Detailed Search,然后选择参考基因组(人或鼠),选择细胞或组织类型,输入基因名称,选择增强子识别因子类型点击search,即可得到预测结果,预测结果显示了根据不同的增强子结合蛋白鉴定出来的超级增强子和增强子,并显示了该结果的细胞或组织来源。点击超级增强子ID进去后会呈现该增强子和关联基因的相关信息(该超级增强子的位置等),右边为关联基因的相关信息,有些基因的信息会有错误,建议直接点进NCBI的链接进去看基因的相关信息。然后将左侧的超级增强子的序列位置输入进来,即为超级增强子的序列。下方还显示了超级增强子的组分增强子的信息,同样将这些位置输入到NCBI中,可查看每个组分增强子的序列。
如果需要查看基因、增强子/超级增强子、转录因子等调控网络,可用下面两个数据库。
三、SEdb数据库(http://www.licpathway.net/sedb/)
该包含了来自542个样本的总共331601个超级增强子,采用了H3K27ac组蛋白修饰作为增强子区的标记,和dbSuper一样,该数据库也利用从ENCODE、 RoadMap、 GEO等公共数据库中下载的H3K27ac chip-seq数据后采用MACS识别增强子区,ROSE识别超级增强子区。该数据库包含许多超级增强子注释(SNP位点、Enhancers、TFBS等),且可通过6种不同策略对超级增强子的靶基因进行预测。
浏览器中输入这个网址:http://www.licpathway.net/sedb。这个网站不太好找。然后可以根据基因名称或基因位置来进行检索。以基因SOX4为例,选择物种,输入基因名称,点击search,得到预测结果,点击SE ID可查看详细信息,右边还能看到基因、转录因子、超级增强子及信号通路的共同调控网络,往下翻可以看到与超级增强子结合的转录因子及与超级增强子关联的信号通路,下方还有SNP位点的分析(网络不好的时候加载不出来)。
四、SEA数据库(http://sea.edbc.org)
该数据库包含了11个物种164,545个超级增强子(人,小鼠,果蝇,线虫,斑马鱼,鸡,黑猩猩,恒河猴,绵羊,非洲爪蟾和棘背鱼)以及3,361,785个典型增强子。同时提供超级增强子区域的染色质相互作用、SNPs、转录因子结合位点信息。
浏览器中输入网站,进入官网后点击上方的Search Engine,根据自己的实验需求选择物种,识别因子,选择检索增强子或超级增强子,选择在编码区或非编码区检索,选择染色体,输入基因名称,选择细胞或组织类型。这里以人源TP53基因为例,选择human,识别因子,检索增强子或超级增强子,在编码区或非编码区检索这三项都选择All,选择17号染色体,输入基因名称,点击search。结果显示了增强子和超级增强子的信息,包括在染色体上的位置,长度,关联基因,细胞组织来源,增强子识别因子等。点击Visual就可以跳转到UCSC上看到可视化的信息了(目前无法查看)。点击关联我们的目的基因的增强子ID即可查看详细信息。左侧展示了该超级增强子的基本信息以及转录因子的情况,右侧展示了增强子、基因,转录因子的调控网络。
大家可以分别用这些数据库去预测,综合分析后筛选出符合自己实验需求的增强子或超级增强子。那关于增强子部分的内容就介绍到这里了,纸上得来终觉浅,绝知此事要躬行,希望大家打开电脑跟着一起操作。同时别忘了给我们一键三连哟!祝大家科研顺利!还有实验相关的疑问可以加入我们实验交流群哦!