数据分析介绍(II)
本期为大家介绍一个开放源码的生物资讯软件 –Cytoscape,它可以建构可视化的分子交互作用网络,并可将已有的基因表达信息(gene expression profiles) 整合进此网络中,轻易观察分子间 (蛋白质—蛋白质 或 蛋白质—DNA…) 的关联性。
Cytoscape 是 Institute for Systems Biology (Leroy Hood 实验室)、加州大学圣地亚哥分校 (Trey Ideker 实验室)、加州大学旧金山分校 (Bruce Conklin 实验室)、Memorial_Sloan-Kettering 癌症研究中心 (Chris Sander 实验室)、Pasteur 研究院 (Benno Schwikowski 实验室) 等研究单位共同合作开发的一个开放源码的生物信息分析软件。Cytoscape 的核心即是网络 (图一),每个节点 (node) 是基因、蛋白质或分子,而节点与节点之间的连接 (edge) 则代表着这些生物分子之间的相互作用 (图二)。
使用 Cytoscape 案例
我们先举一些有使用 Cytoscape 的文献作为例子,让大家知道它所带来的意义为何。Jie Wang1 等人利用华联的 HOA 和 HmiOA 芯片产品,于今年发表了一篇文章,研究是否可以从 mRNA 和 miRNA 基因表现整合的网络调控关系中找出影响疾病 (有 BSS 症状的心绞痛病人) 可能的关键因子(biomarker);实验结果发现 23 个 miRNA 被正向调控 (up-regulated) 以及 408 个基因被负向调控,作者将这些资料全部丢进在线分析网站miRTrail (Laczny2 等人于 2012 年发表整合 mRNA 和 miRNA 芯片表现分析工具) 进行分析, 利用内建的 microCosm 预测 miRNA 对应的标的基因 (target genes) 并和 408 基因做交叉比对,发现交集的基因总共有115个;并依据预测标的基因和 408 基因交叉比对且符合负向调控程度较高的基因群,作优先选择的 miRNA 标的(前百分之五),从 23 个 miRNA 中挑出了 6 个(miR-146b-5p, miR-199a-3p, miR-199a-5p, miR-326, miR-423-3p and miR-484)。最后将找到的 115 基因和 6 个 miRNA 绘制成 network (图三),我们就可以清楚观察这 6 个 miRNA 和经过芯片实验验证的基因之间调控的关系,找出交互作用频率高的基因_(尺寸较大的圆圈)。作者最后挑选了miR-146b-5p、miR-199a-5p 以及 TP53、CALR 基因,另外找了一群病人 (包含控制组 15 人、BBS 症状的心绞痛疾病 30 人以及非 BSS 症状的心绞痛疾病 30 人)做 RT-PCR 验证,也得到一致的结果,可以当成医生治疗这类病人的重要生物指标。
另外,蛋白质之间的调控作用本来就是 Cytoscape 的分析强项,所以为了观察 115 负向调控基因对应的蛋白质之间的交互作用(PPI,Protein-Protein Interaction),作者将 Reactome FI 这个配件 plug-in 于 Cytoscape 中,将对应的蛋白质交互作用,以图形方式呈现(图四),也提供后续蛋白质研究做一个参考。
除了利用颜色观察表现量的变化,也可以用来表示其他量化的连续性数据;2012 年 Pahl 3 等人的研究中利用 TargetScan、MirTarget2 以及 Pictar 提供的数据库预测实验有显著表现差异miRNA 所对应的标的基因,并使用 Cytoscape表现之间的相关性(图五)。这些预测的标的基因和 miRNA 也被放入 RNAhybrid version 2.1 程序中仿真计算 mRNA-miRNA 之间杂交的minimum free energy (△G,kcal/mole),藉此评估 mRNA-miRNA 之间键结的强度。前提是计算 minimum free energy 必须于 Ensembl Biomart 取得标的基因的 3’UTR 序列,若没有对应的序列数据将无法计算,图中会以黑线和黑色圈圈表示。从图中的四个 miRNA network 中,可以得知 miR-331-3p 拥有最低的 minimum free energy,表示此 miRNA 和对应的标的基因之间有较强的亲和性;miR-133a 和 miR-133b 因为序列相似所以对应到大部分重复的标的基因,但由于两者之间差了两个 base pair,导致和基因之间的亲和性不同。作者也进一步找出图中可能的潜在标的基因,例如:CSRNP1、SLC7AB、PLK3、FURIN 同时是 miR-133a、miR-133b、miR-331-3p 的预测 target genes;DNM2、DNAJB1、TGFBR1、TGOLN2、BCL11A、EDEM1、SFXN2、YTHDF3 八个基因同时是miR-204、miR-133a、miR-133b 的预测标的基因, 而Hypermethy- lated_in cancer 2 (HIC2) gene 则是唯一被四个 miRNA 同时所预测的标的基因;它属于 HIC1 家族基因,极可能是重要的肿瘤抑制基因。
如何使用 Cytoscape
要完成一个 Cytoscape 的网络分析,基本上有 4 个步骤:(搭配影片教学,事半功倍!)
1. Create a network
2. Import a attribute / expression profile
3. Filtering & editing
4. Annotation & data analysis
步骤 1,要先有一个网络,可以是从已知的数据库中取得某个特定的网络,例如有 TP53 参与的基因网络、Apoptosis pathway 基因网络…,或可自行建立,而后续的动作则会架构在此网络上进行分析;步骤 2,加载想要分析的属性数据,亦或是使用华联芯片服务得到的 gene expression profile (fold change、p-value…);步骤 3,由于加载的数据往往是很庞大的,要利用筛选、编辑,变成想要的信息;步骤 4,最后可利用此结果再进行后续的批注或分析。
小结
Cytoscape 源自系统生物学,用于将生物分子交互网络与高通量基因表达数据和其他的分子状态信息整合在一起。其最强大的功能在于大规模蛋白质与蛋白质相互作用、蛋白质-DNA或遗传分子交互作用的分析。Cytoscape 是开放源码的软件,任何人都可依自己的需求作修改,或是 Plug-in 后,修改成自己想要的形式,若有厉害的程序开发高手,亦可快速建构出新的功能。各位在使用上若有任何问题,都欢迎与我们讨论。
另外,带来一个好消息:华联 2013 最新力作,累积 6 年服务经验深蕴,整合推出 30 项生物信息分析服务 - BiXOneArray,带给大家从初阶到进阶的全方位分析服务 !
参考资料
(1) Jie Wang et. al. A Systems Biology Approach to Characterize Biomarkers for Blood Stasis Syndrome of Unstable Angina Patients by Integrating MicroRNA and Messenger RNA Expression Profiling. Evidence-Based Complementary and Alternative Medicine (2013) March 29
(2) Laczny C et. al. miRTrail - a comprehensive webserver for analyzing gene and miRNA patterns to enhance the understanding of regulatory mechanisms in diseases. BMC Bioinformatics (2012) 13:36
(3) Matthew C Pahl et. al. MicroRNA expression signature in human abdominal aortic aneurysms. BMC Medical Genomics (2012) 5:25
网址:数据分析介绍(II) http://c.mxgxt.com/news/view/367725
相关内容
公众号用户分析数据介绍粉丝数据分析
D10道 明星数据库介绍.ppt
社交网络分析:数据挖掘的新方向1.背景介绍 社交网络分析(Social Network Analysis,SNA)是一种
社交媒体数据分析:实时数据流处理技术深入解析1.背景介绍 社交媒体数据分析是现代数据科学的一个重要领域,它涉及到处理大规
利用大数据分析的粉丝营销
量子矩阵 数据分析
明星演员的数据分析怎么写
24款数据可视化工具介绍
大数据的舆情分析