GWAS(Genome-wide association study),即全基因组关联分析,是指在人类全基因组範围内找出存在的序列变异,即单核苷酸多态性(SNP),从中筛选出与疾病相关的SNPs。
GWAS为人们打开了一扇通往研究複杂疾病的大门,将在患者全基因组範围内检测出的SNP位点与对照组进行比较,找出所有的变异等位基因频率,从而避免了像候选基因策略一样需要预先假设致病基因。GWAS一般採用非假说驱动。由于GWAS研究的各种研究设计方法以及遗传统计方法无法从根本上消除人群混杂、多重比较造成的假阳性,我们需要通过重複研究来保证遗传标记与疾病间的真关联。
基本介绍
- 中文名:全基因组关联研究
- 外文名:GWAS
- 属于:GW
- 分类:AS
定义
在遗传流行病学上,全基因组关联研究(Genome Wide Association Studies,GWAS)是一种检测特定物种中不同个体间的全部或大部分基因,从而了解不同个体间的基因变化有多大的一种方法。不同的变化带来不同的性状,如各种疾病的不同。在人类中,这种技术发现了特定基因与疾病的关联,如被称为年龄相关性黄斑变性的眼部疾病和糖尿病。在人类中,数百或数千人通常用于单个DNA突变(单核苷酸多态性或SNPs)进行测试,约600人通过GWAS来检查150 疾病和相关性状,发现800个SNP具有关联性。他们在发现疾病的分子途径时非常有用,但是通常在发现预测疾病风险的基因时却不是很有用。
这些研究通常比较两组参与者的DNA:有疾病的人(病例)和相同条件的无该疾病的人(对照)。每个人都提供些作为样本的细胞,如从口腔内侧擦下的表皮细胞,可以从这些细胞中提取DNA,并涂布在基因晶片上,该晶片上可以读取上百万个DNA序列。这些晶片被读入计算机,在那里通过生物信息学技术对其进行分析,而不是阅读的全部DNA序列,这些系统通常读的是各个SNP,这些SNP便是成组的DNA变异(单倍型)的标记。
如果在患者中某基因型的变异很频繁,那幺就说该变异与该疾病“相关”。相关的遗传变异所在的人类基因组区域被视为标示点,基因组的该区域可能是致病原因的所在。有两种方法用来寻找疾病相关的突变:假设驱动和非假设驱动的方法。假设驱动的方法为一开始假设一个特殊的基因可能与某种疾病有关,并试图找出关联。非假设驱动的研究用蛮力的方法来扫描整个基因组,看哪些基因与该病有关联。GWAS一般採用非假设驱动。
令人惊讶的是,与疾病相关的SNP变异大多不是在编码蛋白质的DNA区域。相反,他们通常位于染色体上编码基因间的大型非编码区域上,或者位于编码基因的内含子上,该内含子通常在蛋白质的表达过程中被剪下掉。这些是有控制其他基因能力的可能的DNA序列。但通常,他们的蛋白质功能是不知道的。
GWAS为人们打开了一扇通往研究複杂疾病的大门,将在患者全基因组範围内检测出的SNP位点与对照组进行比较,找出所有的变异等位基因频率,从而避免了像候选基因策略一样需要预先假设致病基因。同时,GWAS研究让我们找到了许多从前未曾发现的基因以及染色体区域,为複杂疾病的发病机制提供了更多的线索。
分析原理
基于无关个体的关联分析
病例对照研究设计:主要用来研究质量性状,即是否患病。
基于随机人群的关联分析:主要用来研究数量性状。
基于家系的关联研究
在研究基于家系的样本时,採用传递不平衡检验(TDT)分析遗传标记与疾病数量表型和质量表型的关联可以排除人群混杂对于关联分析的影响,但其在发现阳性关联的检验方面不如相同样本量的病例对照研究有效。
FBAT是运用十分广泛的基于家系的统计分析工具,能够分析质量性状及数量性状、调整混杂因素、分析基因-环境相互作用、分析单倍型、调整多重比较等。
单倍型分析研究的必要性:多位点单倍型分析能够发现单倍型-疾病表型之间的关联,这种关联要明显强于单个位点-疾病表型之间的关联。
单倍型分析能够发现非TagSNPs与疾病之间的因果关係。
表型选择
选择遗传度较高的疾病或者表型进行检测能够提升遗传学关联研究的把握度。
由于有时病症很难测量或是多种病症混杂在一起造成疾病状态的分辨困难,研究疾病相关的数量表型要优于研究疾病状态。
由于测量数量表型的难易程度和该表型的遗传度相关,通过控制测量误差、噪音和总体变异能够加强数量表型变异与遗传因素的比例关係,因此一般选择测量简单準确并且遗传度相对较高的数量表型。
设计类型
单个阶段研究
单个阶段研究即在有了足够大的病例和对照样本数量后,一次性地对其所有选中的SNP进行基因分型,然后分析每个SNP与疾病的关联,计算其关联强度和OR值。由于样本数量需求量大,单阶段研究基因分型一般耗资巨大。
两个或多个阶段研究
採用小样本数量进行第一阶段的全基因组範围SNP基因分型,统计分析过后一般能够筛选少量阳性SNPs,之后的第二阶段再在更大数量的样本中对这些阳性SNPs进行基因分型,最后整合两个阶段的结果进行分析。研究证明DNA pool和微阵列试剂盒均能够降低基因分型的工作量,能够进行低成本高效益的SNP筛选。
多重假设
Bonferroni校正法
递减调整法(Step-Down Adjustment)
模拟运算法(Permutation)
控制错误发现率法(False discovery rate)
研究重複
由于GWAS研究的各种研究设计方法以及遗传统计方法无法从根本上消除人群混杂、多重比较造成的假阳性,我们需要通过重複研究来保证遗传标记与疾病间的真关联。
通过增大样本数量来提高检验效率,增加与疾病相关联的SNPs的机率。
在两个人群中分别对样本中所有的SNP进行基因分型,之后再交换重複测量对方得到的阳性SNPs。这样做首先保证了低假阴性率,随后在较大样本中重複阳性结果又最大程度地避免了假阳性的产生。
存在问题
人群混杂(Population Stratification)是在大样本研究中导致假阳性、假阴性结果出现的重要原因之一。使用分层分数法(Stratification-score approach)控制人群分层、运用统计分析手段控制人群混杂的影响、採用基于家系的关联研究均能够避免人群混杂对关联结果分析的影响。
解释基因-变异-环境因素之间的相互作用关係需要使用GWAS对更多微效的与疾病关联的基因变异进行研究。
数据共享是使用GWAS得到遗传标记与疾病确切关联的必要手段,儘管难度很大,但是在研究複杂疾病的遗传变异中能够发挥重要的作用。