当前位置首页 > 百科资料> 正文

全基因组测序

2022-06-29 08:12:59 百科资料

全基因组测序是对未知基因组序列的物种进行个体的基因组测序。 1986年, Renato Dulbecco是最早提出人类基因组定序的科学家之一。他认为如果能够知道所有人类基因的序列,对於癌症的研究将会很有帮助。美国能源部(DOE)与美国国家卫生研究院(NIH),分别在1986年与1987年加入人类基因组计划。除了美国之外,日本在1981年就已经开始研究相关问题,但是并没有美国那样积极。到了1988年,詹姆士·华生(DNA双螺旋结构发现者之一)成为NIH的基因组部门主管。1990年开始国际合作。1996年,多个国家召开百慕达会议,以2005年完成定序为目标,分配了各国负责的工作,并且宣布研究结果将会及时公布,并完全免费。

  • 中文名 全基因组测序
  • 国际合作 1990年
  • 准备时间 19世纪80-90年代
  • 定序目标 2005年

简介

  ​每个人从受精卵开始就继承了父母的DNA遗传信息,并且携带一生,不易改变。全基因组测序就是通过运用新一代高通量DNA测序仪,进行10-20倍覆盖率的个人全基因组测序,然后与人类基因组精确图谱比较,得到完整的个人全基因组序列,破译个人全部的遗传信息的过程。

  全基因组测序覆盖面广,能检测个体基因组中的全部遗传信息;准确性高,其准确率可高达99.99%。

  全基因组测序揭示了人类生、老、病、死的奥秘,使人类从根本上认知疾病发生的原因,做到正确的治疗疾病、尽早的预防疾病。

研究经过

  1986年, Renato Dulbecco是最早提出人类基因组定序的科学家之一。他认为如果能够知道所有人类基因的序列,对癌症的研究将会很有帮助。美国能源部(DOE)与美国国家卫生研究院(NIH),分别在1986年与1987年加入人类基因组计划。除了美国之外,日本在1981年就已经开始研究相关问题,但是并没有美国那样积极。到了1988年,詹姆士·华生(DNA双螺旋结构发现者之一)成为NIH的基因组部门主管。1990年开始国际合作。1996年,多个国家招开百慕达会议,以2005年完成定序为目标,分配了各国负责的工作,并且宣布研究结果将会即时公布,并完全免费。

基因

  1998年,克莱格·凡特的塞雷拉基因组公司成立,而且宣布将在2001年完成定序工作。随後国际团队也将完成工作的期限提前。2000年6月26日,塞雷拉公司的代表凡特,以及国际合作团队的代表弗朗西斯·柯林斯(Francis Collins),在美国总统柯林顿的陪同下发表演说,宣布人类基因组的概要已经完成。2001年2月,国际团队与塞雷拉公司,分别将研究成果发表于<自然>与<科学>两份期刊。在基因组计划的研究过程中,塞雷拉基因组使用的是霰弹枪定序法(shotgun sequencing),这种方法较为迅速 ,但是仍需以传统定序来分析细节。目前,全基因组测序技术主要包括第二代测序技术(NGS)和第三代测序技术。第二代测序技术已经能够快速、低成本的进行全基因组测序,其设备供应商主要是Solexa (现被Illumina公司合并),454(罗氏公司)和SOLiD(AB公司)。第三代测序技术于2011年4月正式推广,其单分子实时(SMRT)测序技术完全不同与第二代测序,它的序列读长高达3000 bp(Pacific Biosciences 公司研发)。

技术路线

  提取基因组DNA,然后随机打断,电泳回收所需长度的DNA片段(0.2~5kb),加上接头,进行基因簇cluster制备或电子扩增E-PCR,最后利用Paired-End(Solexa)或者Mate-Pair(SOLiD)的方法对插入片段进行测序。然后对测得的序列组装成Contig,通过Paired-End的距离可进一步组装成Scaffold,进而可组装成染色体等。组装效果与测序深度与覆盖度、测序质量等有关。目前常用的组装有:SOAPdenovo、Trimity、Abyss等。

原理

  双末端(Paired-End)测序原理

  测序深度(SequencingDepth):测序得到的碱基总量(bp)与基因组大小(Genome)的比值,它是评价测序量的指标之一。测序深度与基因组覆盖度之间是一个正相关的关系,测序带来的错误率或假阳性结果会随着测序深度的提升而下降。重测序的个体,如果采用的是双末端或Mate-Pair方案,当测序深度在10~15X以上时,基因组覆盖度和测序错误率控制均得以保证。

  测序深度对基因组覆盖度和测序错误率的影响

  (HOM:纯合体HET:杂合体)

  全基因组重测序的个体,通过序列比对,可以找到大量的单核苷酸多态性(SNP),插入缺失(InDel,Insertion/Deletion)和结构变异(SV,StructureVariation)位点。SBC可以协助客户,通过生物信息手段,分析不同个体基因组间的结构差异,同时完成SNP及基因组结构注释。

分析流程  

  1.数据量产出

  总碱基数量、TotalMappingReads、UniquelyMappingReads统计,测序深度分析。

  2.一致性序列组装

  与参考基因组序列(Referencegenomesequence)的比对分析,利用贝叶斯统计模型检测出每个碱基位点的最大可能性基因型,并组装出该个体基因组的一致序列。

  3.SNP检测及在基因组中的分布

  提取全基因组中所有多态性位点,结合质量值、测序深度、重复性等因素作进一步的过滤筛选,最终得到可信度高的SNP数据集。并根据参考基因组信息对检测到的变异进行注释。

  4.InDel检测及在基因组的分布

  在进行mapping的过程中,进行容gap的比对并检测可信的shortInDel。在检测过程中,gap的长度为1~5个碱基。对于每个InDel的检测,至少需要3个Paired-End序列的支持。

  5.StructureVariation检测及在基因组中的分布

  SBC能够检测到的结构变异类型主要有:插入、缺失、复制、倒位、易位等。根据测序个体序列与参考基因组序列比对分析结果,检测全基因组水平的结构变异并对检测到的变异进行注释。

声明:此文信息来源于网络,登载此文只为提供信息参考,并不用于任何商业目的。如有侵权,请及时联系我们:baisebaisebaise@yeah.net