基因组结构变异(Structural Variation,SV)是基因组上大尺度的核苷酸序列重排性变化,它包括长度大于50 bp的插入(INS)、缺失(DEL)、倒位(INV)、重复(DUP)、易位(BND)[1]。相关研究表明,平均每个人类个体上存在大约两万个结构变异[2],结构变异尽管相较于单核苷酸变异(SNV)、短插入缺失变异(INDEL)数量较少,但因其变异长度较大,因此对基因组上核苷酸序列的影响是最广泛的[3]。结构变异会改变基因序列信息,进而影响转录过程,改变蛋白质空间结构,从而引发性状与表型的改变[4]。此外,结构变异对基因表达调控[5]、种群多样性[6]等方面有着重要影响,同时与以自闭症[7]、阿尔兹海默症[8]等为代表的许多疾病的引发有密切的关系。
结构变异会对人类遗传、进化产生影响,形成个体之间的差异,影响种群的发展与演进。对于同一个群体,相当数量的结构变异对于群体中大部分个体是共享的,这些共享的结构变异可以有效对群体的特征与结构进行刻画[9]。此外,在群体中仍存在个体特有的结构变异,这些个体特有的结构变异反映了个体独有的特性,通过对特有结构变异以及个体表型的分析,能够发掘结构变异与表型、疾病之间的重要关系[10]。
随着国际千人基因组计划的实施与推动[11-13],各国也纷纷启动了本国的大规模人群基因组计划[14-17],希望通过分析和构建本国、本民族的基因组变异图谱,更加深入地解读本国人群在遗传、进化上的机理,为接下来开展的疾病诊治、精准健康发展提供支撑。结构变异作为对基因序列影响最为广泛的基因组变异类型,如何高效、精准的检测群体结构变异已成为当前群体基因组研究中的核心。因此我们基于多层过滤的质量控制,多种算法的联合检测、多维度变异融合和校对,开发了一个高性能的群体结构变异检测工作流,实现了群体基因组结构变异的全面、精准检测。该工作流总体分为四个环节:基因组测序片段比对,单样本基因组结构变异检测,单样本基因组结构变异融合以及群体基因组结构变异检测(见图 1)。
高通量基因组测序片段比对是基因组数据分析的首要环节,测序片段的比对的精度将对变异检测、基因组拼接等下游分析产生重要的影响。因此,对基因组片段测序数据、片段比对数据等有效的质量控制,是保障以测序片段比对为基础的基因组数据分析的关键。为此,本研究设计了多重质量控制与过滤的基因组测序片段比对工作流,该工作流主要包含以下步骤(见图 2)。
(1) 使用测序片段质量评价算法FastQC(https://github.com/s-andrews/FastQC)(v0.11.9,默认参数)对各样本基因组测序数据进行质量控制,通过对测序片段中GC含量、重复性、碱基质量、片段长度分布等指标进行统计和阈值判定,若任意满足:测序片段GC含量与理论分布偏差30%;测序片段重复度超过理论重复总量的50%;测序片段任意位置的碱基质量下四分位数低于5或中位数低于20;任意测序片段长度不足或长于150 bp,则将其认定为低质量测序样本数据,并进行过滤处理。
(2) 使用高通量测序片段比对算法BWA (https://github.com/lh3/bwa)(v0.7.17,默认参数),完成各测序样本向参考基因组序列的比对。使用比对格式转换算法Sambamba[18](v0.8.0,默认参数)对各样本比对结果进行格式转换和排序;使用测序重复片段标记算法Samblaster[19](v0.1.2,默认参数)对各样本转换后的比对文件进行重复标记;使用GATK (https://github.com/broadinstitute/gatk)(v4.2.0.0,默认参数)对测序片段比对中碱基质量校正形成最终的片段比对数据。
(3) 使用测序片段比对质量评价算法Qualimap[20](v2.2.1,默认参数)对各样本测序片段比对结果进行质量控制,通过对片段比对中测序覆盖度(不低于30×测序深度)、片段重复性(不高于5%)、片段比对率(不低于95%)等指标进行统计和阈值判定,进一步过滤低质量测序样本数据。
(4) 使用DNA污染估计算法Verifybamid[21](v2.0.1,默认参数)计算各样本中DNA污染程度,过滤高污染率(高于3%)测序样本数据,形成最终用于下游分析的群体样本集合。
多重质量控制与过滤的基因组测序片段比对工作流在完成各样本测序片段比对任务的同时,将有效监控测序数据质量、比对数据质量、样本污染情况等多重指标,为高质量基因组结构变异检测奠定基础。
2 单样本基因组结构变异检测受限于高通量测序数据读长与系统性测序误差的限制,采用单一结构变异检测工具识别各样本基因组中的结构变异往往存在敏感性与准确性较低的问题,这将制约结构变异的检测能力和向下游研究转化的水平。针对这一问题,本研究采用三款当前性能最好的个体基因组结构变异检测算法,全面挖掘各样本基因组结构变异,主要步骤如下(见图 3)。
(1) 使用快速检测基因组结构变异检测算法Manta[22](v1.6.0,默认参数)识别各基因组中DEL变异、INS变异、INV变异、BND变异、DUP变异。
(2) 使用简化集成基因组结构变异检测与基因分型算法Smoove(https://github.com/brentp/smoove)(v0.2.7,默认参数)识别各基因组中DEL变异、INS变异、INV变异、BND变异、DUP变异。
(3) 使用拷贝数变异检测算法CNVNator[23](v0.4.1,默认参数)识别各基因组中的拷贝数变异(CNV),并计算各基因组区域上测序覆盖度信息。
分别使用Manta、Smoove、CNVNator三种结构变异检测算法,将有效挖掘每个样本基因组中多种类型结构变异,为融合形成群体基因组结构变异提供支撑。
3 单样本基因组结构变异融合群体基因组结构变异主要由各单样本基因组结构变异融合产生。如何对来自不同样本、不同检测算法形成的结构变异进行融合,是当前产生高精度群体基因组结构变异的核心。为此,本研究分别对群体样本中由同种检测算法与不同检测算法预测的结构变异分层次整合,从而产生最终群体结构变异候选位点,主要步骤如下(见图 4)。
(1) 分别对由Manta、Smoove检测算法产生的结构变异按照基因组坐标进行排序,完成在相同检测算法上不同样本结构变异的融合。若相邻两个结构变异存在交叠,则将两个变异合并为一个变异,直至所有变异均不存在交叠性。对于合并后的结构变异,分别记录来源样本标号,同时以累加方式累积各来源样本在此变异上的变异质量数、测序片段支持度等信息。
(2) 再次对由Manta、Smoove检测算法产生的基因组结构变异融合结果进行排序,完成对不同检测算法产生的融合结构变异数据的二次融合。
通过使用不同工具对各样本基因组中的结构变异双重融合,在充分保留各样本基因组中潜在的结构变异的同时,在融合过程中记录每个结构变异的样本支持情况、变异质量情况等信息,为过滤低质量群体结构变异提供了保障。
4 群体基因组结构变异检测在完成单样本基因组结构变异融合后,进行质量控制和多重变异属性过滤,是完成高质量群体基因组结构变异检测,绘制高精度人群基因组结构变异图谱的核心。本研究实现这一目标主要采用如下3个步骤(见图 5)。
(1) 将融合后的基因组结构变异按照变异类型分别拆分为DEL、INS、INV、DUP、BND五种类型。使用基因组结构变异断点基因型计算算法SVTyper[24](v0.7.1,默认参数),分别从单样本层面对以上融合后的五种类型结构变异重新计算基因型。使用CNVNator计算的单样本层面的测序覆盖度信息对重新校准基因型信息的各结构变异进行注释。
(2) 对重新校正基因型和测序覆盖度信息的各类型结构变异合并,计算各变异在人群中的变异频率。将合并后群体结构变异检测结果转换为bedpe文件格式并排序,对存在变异区域交叠的结构变异进行聚类,保留聚类中具有最大变异频率的结构变异,将聚类中其余结构变异修剪删除。
(3) 将经过修剪的结构变异集合重新转换为vcf格式,依据测序覆盖度信息和基因型一致性信息对各结构变异重新校对变异类型,新增移动元件变异(MEI)类型,形成最终的群体结构变异检测结果。
经过对不同类型结构变异基因型的重新校正、过滤和变异类型校对,有效消减检测形成的假阳性结构变异预测结果,最大限度反映群体中真实的结构变异位点、类型和变异频率,为最终绘制群体基因组变异图谱提供了坚实的保障。
5 结果与分析为了验证群体基因组结构变异检测工作流的真实效果,本研究构建了由267个样本组成的人群,使用Illumina高通量测序平台对该人群样本进行了30×高深度全基因组测序,并使用本研究提出的群体基因组结构变异检测工作流对此267个样本进行群体结构变异检测(见表 1),合计检测出了96 202个结构变异,其中包括:11 697个DEL变异、18 385个INS变异、3 563个DUP变异、1 278个INV变异、2 007个MEI变异、59 272个BND变异。
在该267个样本构成的人群中(见图 6),常见变异(AF≥0.05)占总体检出变异的41%(39 086/96 202),低频变异(0.05>AF≥0.01)占总体检出变异的18%(17 554/96 202),罕见变异(0.01>AF)占总体检出变异的41%(39 562/96 202)。值得关注的是,在DEL、DUP、INS、INV四种类型结构变异中,罕见变异的占比基本是均超过总体检验出变异的50%,相比之下,在MEI、BND两种类型结构变异中,检测出的常见变异数量是总体可检测变异数量的主要占比。这些结果与过去开展的基因组计划发现的结果相一致[25-26],说明本研究建立的群体基因组结构变异检测工作流具有良好的检测能力。
就每个样本可检测的结构变异而言,平均每个样本可以检测出18 388个结构变异,其中包含1 634个DEL变异、657个DUP变异、1 216个MEI变异、13 155个BND变异、1 521个INS变异、206个INV变异(见图 7)。受限于高通量测序技术中读长的限制,基因组重复片段区域中的结构变异难以检测和精确分型,其中仅可检测到断点连接关系的结构变异均归结为BND变异,因此导致了每个样本中包含了相当数量的BND变异。然而,仅获取变异断点连接关系,无法解析结构变异精准结构(如:是否为平衡变异,DNA变化方向等)将严重影响BND变异的可信度和准确性。经过对BND变异按照置信度进行过滤(见图 7),总计移除55 492个BND变异,仅保留3 780个高置信度BND变异(移除率93.62%)。平均每个样本移除11 703个BND变异,仅保留1 451个高置信度BND变异(移除率88.97%)。
此外,本研究还对群体基因组结构变异检测工作流中变异融合与群体变异检测两个关键环节的计算开销和内存使用进行了统计(见表 2)。该工作流完成群体基因组结构变异检测和融合兼容串行分析和并行分析两种方式,其中串行计算方式需要约173.4 h,最大内存开销30 GB,而采用并行计算方式仅需不足3 h,并维持最大30 GB的内存开销。这一结果表明,对于大规模人群基因组结构变异检测分析,在保持有限内存消耗的前提下,采用并行方式运行该工作流将显著提升计算速度,为高效、快速的群体基因组结构变异检测提供了保证。
1) 本研究构建了一套高效、精准的群体基因组结构变异检测工作流,该工作流通过多层过滤的质量控制,为高质量群体基因组结构变异检测提供支撑。
2) 该工作流通过使用多种高性能结构变异检测算法,提高了结构变异检测的准确性与敏感性,并通过双重融合实现了群体结构变异候选位点的精准定位。
3) 该工作流通过多维度重新校正结构变异候选位点的基因型与变异类别,进一步保障群体结构变异图谱的高质量构建。
4) 利用该工作流对由267个样本组成的人群进行基因组结构变异检测,结果表明该工作流具有良好、快速、高效的检测能力。通过并行分析策略在控制内存消耗的基础上,提高了工作流的计算速度,为大规模群体基因组研究提供了可能。
[1] |
AUTON A, ABECASIS G R, ALTSHULER D M, et al. A global reference for human genetic variation[J]. Nature, 2015, 526(7571): 68-74. DOI:10.1038/nature15393 (0) |
[2] |
SEDLAZECK F J, RESCHENEDER P, SMOLKA M, et al. Accurate detection of complex structural variations using single-molecule sequencing[J]. Nature Methods, 2018. DOI:10.1038/s41592-018-0001-7 (0) |
[3] |
ALKAN C, COE B P, EICHLER E E. Genome structural variation discovery and genotyping[J]. Nature Reviews Genetics, 2011, 12(5): 363-376. DOI:10.1038/nrg2958 (0) |
[4] |
ZICHNER T, GARFIELD D, RAUSCH T, et al. Impact of genomic structural variation in Drosophila melanogaster based on population-scale sequencing[J]. Genome Research, 2013, 23(3): 568-79. DOI:10.1101/gr.142646.112 (0) |
[5] |
WEISCHENFELDT J, SYMMONS O, SPITZ F O, et al. Phenotypic impact of genomic structural variation: insights from and for human disease[J]. Nature Reviews Genetics, 2013, 14(2): 125-38. DOI:10.1038/nrg3373 (0) |
[6] |
MAHMOUD M, GOBET N, CRUZ-DÁVALOS D I, et al. Structural variant calling: the long and the short of it[J]. Genome Biology, 2019, 20(1): 246. DOI:10.1186/s13059-019-1828-7 (0) |
[7] |
HEDGES D J, HAMILTON-NELSON K L, SACHAROW S J, et al. Evidence of novel fine-scale structural variation at autism spectrum disorder candidate loci[J]. Molecular Autism, 2012, 3(1): 2. DOI:10.1186/2040-2392-3-2 (0) |
[8] |
ROVELET-LECRUX A, HANNEQUIN D, RAUX G, et al. APP locus duplication causes autosomal dominant early-onset Alzheimer disease with cerebral amyloid angiopathy[J]. Nature Genetics, 2006, 38(1): 24-26. DOI:10.1038/ng1718 (0) |
[9] |
AUDANO P A, SULOVARI A, GRAVES-LINDSAY T A, et al. Characterizing the major structural variant alleles of the human genome[J]. Cell, 2019, 176(3): 663-675. DOI:10.1016/j.cell.2018.12.019 (0) |
[10] |
HO S S, URBAN A E, MILLS R E. Structural variation in the sequencing era[J]. Nature Review Genetics, 2020, 21(3): 171-89. DOI:10.1038/s41576-019-0180-9 (0) |
[11] |
CONSORTIUM G P. A map of human genome variation from population-scale sequencing[J]. Nature, 2010, 467(7319): 1061. DOI:10.1038/nature09534 (0) |
[12] |
CONSORTIUM G P. An integrated map of genetic variation from 1, 092 human genomes[J]. Nature, 2012, 491(7422): 56. DOI:10.1038/nature11632 (0) |
[13] |
CONSORTIUM G P. A global reference for human genetic variation[J]. Nature, 2015, 526(7571): 68. DOI:10.1038/nature15393 (0) |
[14] |
THE UK10K CONSORTIUM. The UK10K project identifies rare variants in health and disease[J]. Nature, 2015, 526(7571): 82-90. DOI:10.1038/nature14962 (0) |
[15] |
LEK M, KARCZEWSKI K J, MINIKEL E V, et al. Analysis of protein-coding genetic variation in 60, 706 humans[J]. Nature, 2016, 536(7616): 285-291. DOI:10.1038/nature19057 (0) |
[16] |
Large-scale whole-genome sequencing of the Icelandic population[J]. Nature Genetics, 2015, 47(5): 435-444. DOI: 10.1038/ng.3247.
(0) |
[17] |
MCCARTHY S, DAS S, KRETZSCHMAR W, et al. A reference panel of 64, 976 haplotypes for genotype imputation[J]. Nature Genetics, 2016, 48(10): 1279-1283. DOI:10.1038/ng.3643 (0) |
[18] |
TARASOV A, VILELLA A J, CUPPEN E, et al. Sambamba: fast processing of NGS alignment formats[J]. Bioinformatics, 2015, 31(12): 2032-2034. DOI:10.1093/bioinformatics/btv098 (0) |
[19] |
FAUST G G, HALL I M. SAMBLASTER: Fast duplicate marking and structural variant read extraction[J]. Bioinformatics, 2014, 30(17): 2503-2505. DOI:10.1093/bioinformatics/btu314 (0) |
[20] |
GARCÍA-ALCALDE F, OKONECHNIKOV K, CARBONELL J, et al. Qualimap: evaluating next-generation sequencing alignment data[J]. Bioinformatics, 2012, 28(20): 2678-2679. DOI:10.1093/bioinformatics/bts503 (0) |
[21] |
ZHANG F, FLICKINGER M, TALIUN S A G, et al. Ancestry-agnostic estimation of DNA sample contamination from sequence reads[J]. Genome Research, 2020, 30(2): 185-194. DOI:10.1101/gr.246934.118 (0) |
[22] |
CHEN X, SCHULZ-TRIEGLAFF O, SHAW R, et al. Manta: rapid detection of structural variants and indels for germline and cancer sequencing applications[J]. Bioinformatics, 2016, 32(8): 1220-1222. DOI:10.1093/bioinformatics/btv710 (0) |
[23] |
ABYZOV A, URBAN A E, SNYDER M, et al. CNVnator: An approach to discover, genotype, and characterize typical and atypical CNVs from family and population genome sequencing[J]. Genome Research, 2011, 21(6): 974-984. DOI:10.1101/gr.114876.110 (0) |
[24] |
CHIANG C, LAYER R M, FAUST G G, et al. SpeedSeq: ultra-fast personal genome analysis and interpretation[J]. Nature Methods, 2015, 12(10): 966-968. DOI:10.1038/nmeth.3505 (0) |
[25] |
ABEL H J, LARSON D E, REGIER A A, et al. Mapping and characterization of structural variation in 17, 795 human genomes[J]. Nature, 2020, 583(7814): 83-89. DOI:10.1038/s41586-020-2371-0 (0) |
[26] |
COLLINS R L, BRAND H, KARCZEWSKI K J, et al. A structural variation reference for medical and population genetics[J]. Nature, 2020, 581(7809): 444-451. DOI:10.1038/s41586-020-2287-8 (0) |