临床基本信息当作变量轻松发2+分专业期刊
临床基本信息当作变量轻松发2+分专业期刊 今天要和大家分享的是一篇2+分的学习笔记。这篇学习笔记使用了GEO数据库的数据,进行了差异表达基因的筛选、GO和KEGG富集分
今天要和大家分享的是一篇2+分的学习笔记。这篇学习笔记使用了GEO数据库的数据,进行了差异表达基因的筛选、GO和KEGG富集分析、PPI网络分析,确定了阿尔茨海默病(Alzheimer’s disease,AD)发病过程中关键的差异表达基因(DEGs)和通路,找到了AD的潜在生物标志物。
题目:阿尔茨海默病不同脑区异常调控基因和通路的鉴定
一、 研究背景
阿尔茨海默病(Alzheimer disease,AD)是一种慢性进行性神经退行性疾病。目前对AD的病理生理机制尚未完全了解。所以这篇学习笔记对阿尔茨海默病患者和正常对照的脑组织(包括海马组织—HIP、颞回组织—TG、额回组织—FG和全血—WB)的可用基因表达谱进行了综合分析。以确定阿尔茨海默病发病机制中的关键差异表达基因和途径,获得潜在的阿尔茨海默病诊断生物标志物,为今后研究中阿尔茨海默病诊断生物标志物和治疗靶点的确定提供有价值的信息。
二、分析流程
三、结果解读1. 鉴定差异表达基因(DEGs)
从GEO数据库中筛选16个数据集,包括海马组织(HIP)六个、颞回组织(TG)三个、额叶回组织(FG)三个和全血(WB)四个,详细信息如表1所示。筛选标准为:
数据集为全基因组表达数据(数据完整)
数据库来源于所需要研究的组织(数据与研究相关)
表1. 数据集的详细信息
由于在HIP、TG和FG组织中的比较数据来源于多个数据集,所以需要对这些数据使用了log2转换进行归一化处理,并且使用R包 metaMA合并这些数据集。接着计算单个基因的p值,并使用Benjamini & Hochberg法计算多重比较校正的错误发现率(FDR),然后筛选出FDR < 0.01的基因,于是得到了DEGs。
为了验证在这三个组织中,对照组和AD组的基因的表达是存在差异的,于是利用这些数据绘出在三个组织中的基因表达热图。
热图的红色代表了上调表达,绿色代表了下调表达。以TG组织为例,可以看到在TG中表达的基因大致可以分成两类:一类是上面一组,代表了对照组高表达而AD组低表达(左上红色块和右上绿色块);一类是下面一组,代表了对照组低表达而AD组高表达(左下绿色块和右下红色块)。
图1. 在三个组织中的差异表达基因DEGs热图
从三个组织筛选得到的所有数据集中筛选出了325个DEGs。筛选标准为:FDR <0.01(FDR是指错误发现率,一般取FDR<0.01作为默认标准)。图2中,三个组织样本中的差异表达基因的交集即为3个组织样本中表达均有差异的基因(上调的117个,下调的148个,总共325个)。
图2. 筛选得到的上调和下调表达的DEGs
2. GO和KEGG富集分析
使用Gene codis 3软件对未与全血样本重合的325个DEGs进行富集分析(FDR < 0.05)。富集结果如下图3所示。从图中可以看到这些基因在与AD有关的信号通路中出现了显著的富集,比如:在HIP中,参与粘附体连接的途径;在FG中,Wnt信号通路;此外,MAPK信号通路也出现了明显的富集。
图3. KEGG富集分析结果
325个DEGs的GO和KEGG富集分析的详细结果如下表所示(表2)。从GO分析结果可以看出这些基因在凋亡过程调节、凋亡过程和细胞死亡等基因功能出现了明显的富集。
表2. GO和KEGG富集分析表
3. PPI网络构建
利用BioGRID数据库和Cytoscape软件构建来PPI网络,寻找核心调控基因(hub genes)。利用前20个上调和下调基因来构建PPI网络。
小编以HIP为例(图4)进行说明:图中红色的圆点代表了上调表达的基因,蓝色的圆点代表了下调表达的基因,三角形基因代表了与其它基因连接度高的基因。PPI网络筛选核心调控基因的原理也就是根据一个基因和其余基因的连接度(connectivity)的大小来筛选的,简而言之就是图中基因周围线最多的基因就是我们需要寻找的核心调控基因。
图4. 根据HIP的DEGs构建的PPI网络
通过在HIP、TG、FG的PPI网络中的基因进行连接度从高到低排序,可以得到以下结果:
在HIP的PPI网络中,YAP1的连接度最高,与18个DEGs相互作用;
在TG的PPI网络中,MAPK9的连接度最高,与16个DEGs相互作用;
在FG的PPI网络中,GJA1的连接度最高,与6个DEGs相互作用。
4. 在全血样本中寻找DEGs
为了寻找血液中的生物标志物,需要单独对全血样本进行差异表达基因DEGs的筛选,筛选方法同上。作者总共筛选到了2101个DEGs,并将HIP、TG、FG和WB共有的DEGs筛选出来,总共筛选到了40个DEGs(图5)。
图5. 全血标本中基因表达热图(A);利用韦恩图筛选4个组织样本中共有的差异表达基因(B)
进一步将四个组织样本中共有的40个DEGs进行富集分析。这些DEGs在脂肪细胞因子信号通路、细胞因子-细胞因子受体相互作用和阿尔茨海默病相关通路出现了显著的富集(图6)。
图6. 40个DEGs的富集结果
构建PPI网络发现,在WB的PPI网络中,TNFRSF1A和MAP3K5的连接度最高,分别与152个和76个DEGs有相互作用(图7)。
图7. 根据WB的DEGs构建的PPI网络
4. 验证
这一部分分为两步
第一步的思路是:使用验证集进行DEGs的筛选,并与之前筛选得到的40个DEGs进行对比,验证之前筛选得到的DEGs与验证集是否一致,同时筛选HIP、TG、FG、WB以及验证集中表达都有显著差异的基因用于下一步验证。
第一步的详细过程为:利用脑组织HIP的验证集GSE1297筛选到了35个DEGs,并比较这35个基因中31个常见的基因与之前筛选得到的40个DEGs的基因表达情况,发现它们的表达上调或下调情况一致。然后筛选了HIP、TG、FG、WB以及验证集中表达都有显著差异的基因14个(图8),这些DEGs包括:
显著上调表达的:ARHGEF40、WWC3、VCAN、SSH3、SAFB2、LRCH4、IL10RA、CDK13、BBX和SPSB3;
显著下调表达的:MRPL15、COPS3、TXNDC9和RAD51C
图8. 差异表达基因在正常组织和AD患者HIP组织中的表达情况(箱线图左边代表正常组织,右边代表了AD患者的HIP组织)
第二步的思路是:对筛选的到的DEGs的诊断价值进行验证。
第二步的详细过程为:利用全血样本WB的验证集GSE63060和GSE63061对上述验证过程中筛选得到的14个DEGs进行了ROC分析。ROC曲线由pROC绘出,使用AUC(ROC曲线下面积)以评估各DEG的诊断价值,当AUC值大于0.6时,认为DEG能够区分病例和正常对照。结果发现在这14个DEGs中只有MRPL15、RAD51C、SAFB2、SSH3、TXNDC9、VCAN和WWC3能够区分AD患者与健康对照的WB样本(图9)。
图9. 7个DEGs的ROC曲线
小结
这篇学习笔记先是筛选出AD的HIP、TG和FG组织中的DEGs;然后进行GO和KEGG富集分析;接着构建了PPI网络,发现YAP1、MAPK9和GJA1是HIP、TG和FG组织中的核心调控基因。为了在血液中寻找生物标志物,在WB、HIP、TG和FG找到了表达都有显著差异的40个DEGs;下一步利用验证集对40个DEGs进一步进行筛选,找到了14个DEGs;最后验证了这14个DEGs的诊断价值,发现有7个DEGs可以作为诊断标志物。这篇学习笔记的套路简单易懂,值得我们学习。
-
亿康基因:用3个故事谱写中国千亿辅助生殖图景2021-02-03
-
攻克臭名昭著癌基因,化不可能为可能2021-02-01
-
长度决定功能,基因“剪刀”新发现2021-01-30
-
关闭驱动癌症生长基因,挑战癌症治疗2021-01-29
-
国内首例!博雅辑因CRISPR/Cas9基因编辑疗法获批临床2021-01-20
-
预见2021:《2021年中国基因测序产业全景图谱》(市场规模、投资现状、竞争格局等)2021-01-19
-
学术前瞻:创新型mRNA递送技术将引领基因治疗领域新一轮风潮2021-01-13
-
通过整合基因组分析以鉴定肺肿瘤内皮细胞异质性和血管生成候选物2021-01-07
-
TCGA预后基因联合免疫浸润2021-01-05
-
单细胞基因组研发商百奥智汇近日完成A+轮融资2020-12-29
-
华大基因与瀚维智能医疗联合推出可移动“两癌”智能筛查2020-12-28
-
国内首台纳米孔基因测序仪样机在成都问世了!2020-12-25
-
使用DriverPower识别癌症driver基因的综合负荷和功能影响测试2020-12-24
-
三元基因:从高速度增长到高质量发展 毛利率提升至84.7%2020-12-21
-
新冠病毒序列整合人类基因组,将带来什么?2020-12-20