Gene Microarray Analysis |
基因芯片数据分析
DNA微阵列按照探针设计的不同和检测目标分子及其性质的不同可以分为不同的芯片类型:
检测基因相对表达量的基因芯片(Gene Chip);
检测微小RNA表达量的microRNA芯片(microRNA Chip);
检测单核甘酸多态性的SNP芯片(SNP Chip);
检测可变剪切体差异的外显子芯片(Exon Junction Chip);
检测DNA甲基化状态的甲基化芯片(CpG-Promoter Chip);
检测整个基因组的染色体拷贝数的差异的CGH芯片(CGH Chip)。
数据的预处理以及均一化
将芯片探针同步到不同的annotation库里面,读取的杂交信号进行log化等预处理,多个探针表达水平同步到特定的基因上,然后进行背景校正,多样本之间进行归一化等等,得到各个基因的相对表达水平。
样本表达水平整体分析
使用样本间的correlation test,主成分分析(PCA)等手段,可以粗略看出各个样本间的成员关系,以及它们之间的相关性,从而对实验好坏做出推断。
表达水平差异基因筛选
基于不同的实验设计,我们使用相对应的统计手段,如student-t test, ANOVA, ANCOVA, regression test以及simulation等等,得到统计上显著的差异表达的基因、microRNA或者甲基化区域等等。
基于表达量的聚类分析
具有相似表达量变化趋势的基因很可能具有相同或者相似的功能,基于 hierarchical cluster或者k-mean cluster等方法对基因或者microRNA以及样本进行聚类分析。
Gene Ontology分析
对于得到的特定基因分类,我们采取DAVID、EasyGO等GO分析软件对所得基因进行功能分析,并得到可能的富集功能,绘制相关图和表格。GO 分析对实验结果有提示的作用,通过差异基因的GO 分析,可以找到富集差异基因的GO分类条目,寻找不同样品的差异基因可能和哪些基因功能的改变有关。
Pathway Analysis分析
基于KEGG等数据库,我们采取超几何分布检验等统计手段,得到显著富集的生物信号通路或者代谢通路。通过差异基因的Pathway 分析,可以找到富集差异基因的Pathway 条目,寻找不同样品的差异基因可能和哪些细胞通路的改变有关。
Gene Set Enrichment Analysis(GSEA)分析
基因富集分析,它是用统计学的方法分析若干类功能基因簇(gene set)是否在不同的生物样本组中存在差异,通过芯片实验数据的分析,寻找不同样品的差异基因可能与哪些生物学功能相关,为后期实验提供参考。
针对不同类型芯片的分析
例如SNP芯片的CNV和LOH分析,microRNA芯片的靶基因预测,外显子芯片的可变剪切体分析等等。