首页 / 检测产前胎儿拷贝数异常的方法和装置

检测产前胎儿拷贝数异常的方法和装置实质审查 发明

技术领域

[0001] 本发明涉及基因检测技术领域,具体而言,涉及一种检测产前胎儿拷贝数异常的方法和装置。

相关背景技术

[0002] 无创产前筛查(NIPS),是应用高通量测序等分子遗传技术检测孕期母体血浆中胎儿游离DNA片段,以评估胎儿常见染色体非整倍体风险及其他基因组疾病。
[0003] 研究表明,21、18、13三体综合征具有0.2%的发生率,而孕妇群体中其胎儿携带具临床意义pCNV的比例可达1.6%‑1.7%,是导致胎儿先天畸形、智力障碍等出生缺陷的重要遗传原因之一,因此开展胎儿的产前筛查及产前诊断对出生缺陷的防控有重大意义。
[0004] 针对染色体疾病的产前检测主要以血清学筛查、羊水穿刺为主。但血清学筛查准确度较低,具有5%的假阳性率及20‑40%漏诊率;羊水穿刺虽然准确度较高,但是对孕妇具有创伤性,有1%的流产风险,不便于大规模的产前检测。

具体实施方式

[0027] 需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将结合实施例来详细说明本发明。
[0028] 如背景技术所提到的,现有检测胎儿染色体疾病以血清学筛查、羊水穿刺为主。但血清学筛查准确度较低,而羊水穿刺虽然准确度较高,但是对孕妇具有创伤性,有1%的流产风险,不便于大规模的产前检测。因而,本申请欲保护一种检测准确性较高且对孕妇伤害较小的胎儿拷贝数异常的方法。
[0029] 在本申请第一种典型的实施方式中,提供了一种检测产前胎儿拷贝数异常的方法,方法包括:S1,将基因组测序数据划分成相同长度的窗口,统计待测样本和阴性样本的测序数据在每个窗口的读段数,得到第一待测样本和第一阴性样本中每个窗口的原始读段数;S2,依次对第一待测样本和第一阴性样本中每个窗口的原始读段数进行基础校正、数据量校正和PCA校正,分别得到第一待测样本和第一阴性样本中每个窗口经过PCA校正后的序列数目;S3,将第一待测样本中每个窗口经过PCA校正后的序列数目中的母体CNV进行去除,并重新进行数据量校正,得到校正后的第一待测样本中每个窗口的序列数目;S4,利用第一阴性样本中每个窗口经过PCA校正后的序列数目和校正后的第一待测样本中每个窗口的序列数目计算Z值,利用Z值通过滑窗法判断得到待测样本的拷贝数变异类型和变异区域;其中,基础校正包括对GC含量和可比对性进行校正。
[0030] 本申请通过将待测样本和阴性样本的测序数据进行窗口分割之后,将测序数据中的GC含量、可比对性、数据量、测序深度进行了校正,进一步地将测序数据的准确性进行了校正。之后,将待测样本经上述校正后的测序数据中的母体CNV(Copy number variation,拷贝数变异)进行进一步去除,避免了待测样本的拷贝数变异混入来自母体的测序数据。进而利用上述经校正后的待测样本和阴性样本的每个窗口的序列数目,对待测样本的拷贝数变异类型进行判断。通过得到的拷贝数变异类型及变异区域能够进一步确认待测样本胎儿是否患有染色体疾病的结果。
[0031] 在一种优选的实施例中,利用下述公式Ⅰ进行Z值的计算;
[0032] Zscore=hhtest‑mean(hh)/sd(hh),公式Ⅰ;
[0033] 其中,hhtest为校正后的第一待测样本中的待检测区域所覆盖的所有窗口的含量的平均值;mean(hh)为第一阴性样本中的待检测区域所覆盖的所有窗口经过PCA校正后的序列数目的平均值;sd(hh)为第一阴性样本中的待检测区域所覆盖的所有窗口经过PCA校正后的序列数目的方差。
[0034] 为进一步准确地进行拷贝数变异类型的判断,对每个窗口的Z值进行判断,以得到待测样本的综合检测结果,在一种优选的实施例中,S4包括:S41,构建行为Z值、列为拷贝数状态的表格,拷贝数状态包括“拷贝数缺失”和“拷贝数重复”;S42,利用计算得到的Z值,判断初始待检测窗口的拷贝数状态,并将初始待检测窗口的Z值与拷贝数状态填入表格中;S43,从待检测样本中的初始待检测窗口的结束坐标起始、最后一个窗口的结束坐标为止,以一个窗口的长度为单位依次往后滑动,每滑动至一个单位,进行一次滑窗法判断,得到待测样本的拷贝数变异类型和变异区域;其中,滑窗法判断包括:利用计算得到的Z值,判断待判断窗口的拷贝数状态,并将待判断窗口的Z值与拷贝数状态填入表格中;初始待检测窗口为待测样本中的第一个窗口、每一个正常窗口、拷贝数缺失区域或拷贝数重复区域的结束坐标后一个单位的长度的窗口。
[0035] 为进一步准确地利用Z值进行拷贝数变异类型的判断,在一种优选的实施例中,S42包括:若Z值≤‑3,则初始待检测窗口为拷贝数缺失窗口,待检测窗口的开始坐标判定为拷贝数缺失区域的开始坐标,将Z值填入表格的“拷贝数缺失”列中;若Z值≥3,则初始待检测窗口为拷贝数重复窗口,待检测窗口的开始坐标判定为拷贝数重复区域的开始坐标,将Z值填入表格的“拷贝数重复”列中;若Z值小于3且大于‑3,则初始待检测窗口为正常窗口,不携带拷贝数变异。
[0036] 为进一步准确地进行拷贝数变异类型的判断,对每个窗口的Z值进行比较,判断得到待测样本的拷贝数变异类型,在一种优选的实施例中,S43包括:若初始待检测窗口为正常窗口,则待检测区域的开始和结束坐标均向后移动一个单位的长度,重复执行S42的操作,直至检测到拷贝数变异或检测完全部窗口;若初始待检测窗口为拷贝数缺失窗口,则拷贝数缺失区域的开始坐标不变,结束坐标向后移动一个单位的长度,对后续的待判断的单一窗口重复执行滑窗法判断的操作,直至待检测窗口的Z值大于表格中“拷贝数缺失”列的最小值+1,则待检测窗口的结束坐标为拷贝数缺失区域的结束坐标;若初始待检测窗口为拷贝数重复窗口,则拷贝数重复区域的开始坐标不变,结束坐标向后移动一个单位的长度,对后续的待判断的单一窗口重复执行滑窗法判断的操作,直至待检测窗口的Z值大于表格中“拷贝数重复”列的最大值‑1,则待检测窗口的结束坐标为拷贝数缺失区域的结束坐标。
[0037] 任何能够得到样本测序数据的样本类型均适用于本申请,在一种优选的实施例中,待测样本和阴性样本包括:孕妇外周血。任何能够进行较准确的Z值判断的窗口长度均适用于本申请,在一种优选的实施例中,窗口的长度为50‑100kb。
[0038] 为得到更为准确的测序数据,在一种优选的实施例中,在进行基础校正前,待测样本和阴性样本还需要进行质控,将原始测序数据的碱基序列中的接头序列、含N的碱基和测序质量小于15的碱基切除掉,生成新的fastq文件;在一种优选的实施例中,质控工具为Trimmomatic‑0.39软件。
[0039] 为得到更为准确的测序数据,在一种优选的实施例中,在进行质控之后,需要提取原始测序数据中的唯一比对碱基序列,并进一步去除重复序列;在一种优选的实施例中,进行碱基序列比对的为人体参考基因组序列(版本hg19);在一种优选的实施例中,进行唯一比对的软件为BWA v0.7.17;进行重复序列去除的软件为Picard v2.20.3。
[0040] 由于测序过程中存在一定的GC偏好性,且染色体不同区域的可比对性也存在差异,为进一步得到更为准确的测序数据,在一种优选的实施例中,基础校正包括:利用局部加权回归法分别对第一待测样本和第一阴性样本依次进行GC含量的校正和可比对性的校正,得到第一待测样本和第一阴性样本中每个窗口经基础校正后的序列数目。
[0041] 其中,GC校正包括:将每个窗口的序列数目与每个窗口的GC含量拟合出一条趋势线,作为基线,将每个窗口的原始序列数目减去基线对应的序列数目,加上所有窗口的原始序列数目的中位数,即为GC校正后的窗口的序列数目。可比对性校正包括:将每个窗口的GC校正后的序列数目与每个窗口的可比对性的数值拟合出趋势线,作为基线,将每个窗口的GC校正后的序列数目减去基线对应的序列数目,加上所有窗口的GC校正后的序列数目的中位数,即为经过基础校正后的窗口的序列数目。
[0042] 由于不同的样本的测序水平不同,为后续进行PCA校正时,各窗口的数据量在同一水平,需要对经基础校正后的各样本中每个窗口的序列数目进行归一化校正,在一种优选的实施例中,计算每个窗口经基础校正后的序列数目占所有窗口经基础校正后的序列数目的比例,以总数据量为40‑50M,按比例计算每个窗口经基础校正后的序列数目在总数据量中的序列数目,得到每个窗口经数据量校正后的序列数目。
[0043] 为进一步对数据进行校正,在一种优选的实施例中,PCA校正包括:使用大于10个的第一阴性样本的每个窗口经过数据量校正后的序列数目构建数据参考集,对参考集进行PCA训练,构成PCA参考集;将第一阴性样本和第一待检测样本的每个窗口经过数据量校正后的序列数目去除PCA参考集中的前10个主成分,分别得到第一阴性样本和待检测样本中每个窗口经过PCA校正后的序列数目。
[0044] 具体的,PCA校正包括:将阴性样本经数据量校正后的序列数目组成一个矩阵,其中矩阵的每一列为一个样本,每一行为一个窗口,将矩阵进行SVD分解提取前10个主成分。阴性样本中每个样本经数据量校正后的序列数目可被看成一个向量,将前10个主成分去掉,比上所有阴性样本的样本经PCA算法校正后的每个窗口的序列数目的平均值,该比值称为这个样本中该窗口经过PCA校正后的序列数目。
[0045] 由于人类是二倍体,拷贝数变异大约是50%(1/2)水平,胎儿的DNA只占母体的一部分比如f,所以如果是胎儿的拷贝数变异,大约50%*f。若一个窗口含有母体CNV,与不含CNV的窗口相比,窗口的序列数目变化大约是50%。因而去除母体CNV干扰,对于准确检测孕妇胎儿的拷贝数变异类型十分重要,在一种优选的实施例中,利用隐马尔可夫链对第一待测样本中每个窗口经过PCA校正后的序列数目中的母体CNV进行去除。
[0046] 具体的,进行隐马尔可夫链校正包括:利用每条染色体的隐含状态构成一条隐马尔可夫链,并用EM算法迭代10次,拟合模型到最佳参数,最终计算出每个窗口携带母体CNV的后验概率。当窗口携带母体CNV的概率大于0.99,则将该窗口剔除出去,否则保留下来。将不携带母体CNV的窗口重新做数据量校正,得到校正后的第一待测样本中每个窗口的序列数目。
[0047] 其中,隐马尔可夫的发射函数如下公式II所示:(从隐含状态即CNV类型,到可见状态即窗口的序列数目函数关系):
[0048]
[0049] 上述公式中,k(‑1:缺失,0:阴性,1:扩增)代表着母体CNV的三种状态;
[0050] xm对应第m个窗口的窗口含量;
[0051] Zm对应第m窗口的母体CNV对应的状态,分别有‑1,0,1三种可能;
[0052] σk对应三种状态下窗口含量的方差,均设置为0.05;
[0053] mk对应三种状态下窗口含量的平均值,当k分别为‑1,0,1时,mk设置为‑0.5,0,0.5;
[0054] P(Xm|Zm=k)为该窗口母体CNV缺失、阴性、扩增三种情况的后验概率。
[0055] 第m个窗口状态是母体CNV缺失、阴性、扩增(即k=‑1,0,1)时的后验概率如下公式Ⅲ所示(从一个状态到下一个状态的转换):
[0056] Rmk=[r*P(xm‑1|zm‑1=k)+(1‑r)*αk]*P(xm|zm=k)
[0057] Zmk=Rmk/(Rm(k=‑1)+Rm(k=0)+Rm(k=1)),公式Ⅲ;
[0058] 其中,r预设为0.1;
[0059] αk当k分别为‑1,0,1时,αk分别预设为0.1,0.98,0.1,
[0060] 当m=1时,预设P(xm‑1|zm‑1=k)当k分别为‑1,0,1时,P(xm‑1|zm‑1=k)分别预设为0.1,0.98,0.1;
[0061] 假设一共有n个窗口,当m从1至n分别将每个窗口3种状态的Zmk计算出来,得到状态为‑1,0,1时的方差σk,平均值mk,迭代进公式II,重复10次,最后一次计算的Zkm为最终得到的窗口母体CNV缺失、阴性、扩增三种情况的后验概率。
[0062] 在本申请第二种典型的实施方式中,提供了一种检测产前胎儿拷贝数异常的装置,装置包括:窗口分割模块,被设置为将基因组测序数据划分成相同长度的窗口,统计待测样本和阴性样本的测序数据在每个窗口的读段数,得到第一待测样本和第一阴性样本中每个窗口的原始读段数;校正模块,被设置为依次对第一待测样本和第一阴性样本中每个窗口的原始读段数进行基础校正、数据量校正和PCA校正,分别得到第一待测样本和第一阴性样本中每个窗口经过PCA校正后的序列数目;母体CNV去除模块,被设置为将第一待测样本中每个窗口经过PCA校正后的序列数目中的母体CNV进行去除,并重新进行数据量校正,得到校正后的第一待测样本中每个窗口的序列数目;滑窗检测模块,被设置为利用第一阴性样本中每个窗口经过PCA校正后的序列数目和校正后的第一待测样本中每个窗口的序列数目计算Z值,利用Z值通过滑窗法判断得到待测样本的拷贝数变异类型和变异区域;其中,基础校正包括对GC含量和可比对性进行校正。
[0063] 本申请通过装置中的窗口分割模块、校正模块、母体CNV去除模块和滑窗检测模块,将待测样本和阴性样本的测序数据进行窗口分割之后,将测序数据中的GC含量、可比对性、数据量进行了校正,进一步地将测序数据的准确性进行了校正。之后,将待测样本经上述校正后的测序数据中的母体CNV(Copy number variation,拷贝数变异)进行进一步去除,保证待测样本的拷贝数变异检测的准确性。进而利用上述再校正后的待测样本和阴性样本的每个窗口的序列数目的原始量,对待测样本的拷贝数变异类型进行判断。通过得到的拷贝数变异类型及区域能够进一步确认待测样本胎儿是否患有染色体疾病的结果。
[0064] 在一种优选的实施例中,滑窗检测模块包括Z值计算单元:Z值计算单元,被设置为利用下述公式Ⅰ进行Z值的计算;
[0065] Zscore=hhtest‑mean(hh)/sd(hh),公式Ⅰ;
[0066] 其中,hhtest为校正后的第一待测样本中的待检测区域所覆盖的所有窗口的含量的平均值;mean(hh)为第一阴性样本中的待检测区域所覆盖的所有窗口经过PCA校正后的序列数目的平均值;sd(hh)为第一阴性样本中的待检测区域所覆盖的所有窗口经过PCA校正后的序列数目的方差。
[0067] 为进一步准确地进行拷贝数变异类型的判断,对每个窗口的Z值进行判断,以得到待测样本的综合检测结果,在一种优选的实施例中,滑窗检测模块包括:构建表格单元,被设置为构建行为Z值、列为拷贝数状态的表格,拷贝数状态包括“拷贝数缺失”和“拷贝数重复”;检测初始待测窗口单元,被设置为利用计算得到的Z值,判断初始待检测窗口的拷贝数状态,并将待检测窗口的Z值与拷贝数状态填入表格中;输出拷贝数变异单元,被设置为从待检测样本中每个待检测区域中的第一个窗口的结束坐标起始、最后一个窗口的结束坐标为止,以一个窗口的长度为单位依次往后滑动,每滑动至一个单位,进行一次滑窗法判断,得到待测样本的拷贝数变异类型和变异区域;其中,滑窗法判断包括:利用计算得到的Z值,判断待判断窗口的拷贝数状态,并将待判断窗口的Z值与拷贝数状态填入表格中;初始待检测窗口为待测样本中的第一个窗口、每一个正常窗口、拷贝数缺失区域或拷贝数重复区域的结束坐标后一个单位的长度的窗口。
[0068] 为进一步准确地利用Z值进行拷贝数变异类型的判断,在一种优选的实施例中,检测初始待测窗口单元包括:拷贝数缺失判断单元,被设置为若Z值≤‑3,则初始待检测窗口为拷贝数缺失窗口,待检测窗口的开始坐标判定为拷贝数缺失区域的开始坐标,将Z值填入表格的“拷贝数缺失”列中;拷贝数重复判断单元,被设置为若Z值≥3,则初始待检测窗口为拷贝数重复窗口,待检测窗口的开始坐标判定为拷贝数重复区域的开始坐标,将Z值填入表格的“拷贝数重复”列中;正常判断单元,被设置为若Z值小于3且大于‑3,则初始待检测窗口为正常窗口,不携带拷贝数变异。
[0069] 为进一步准确地进行拷贝数变异类型的判断,对每个窗口的Z值进行比较,判断得到待测样本的拷贝数变异类型,在一种优选的实施例中,输出拷贝数变异单元包括:拷贝数正常单元,被设置为若初始待检测窗口为正常窗口,则待检测区域的开始和结束坐标均向后移动一个单位的长度,重复执行检测初始待测窗口单元的操作,直至检测到拷贝数变异或检测完全部窗口;拷贝数缺失单元,被设置为若初始待检测窗口为拷贝数缺失窗口,则拷贝数缺失区域的开始坐标不变,结束坐标向后移动一个单位的长度,对后续的待判断的单一窗口重复执行滑窗法判断的操作,直至待检测窗口的Z值大于表格中“拷贝数缺失”列的最小值+1,则待检测窗口的结束坐标为拷贝数缺失区域的结束坐标;拷贝数重复单元,被设置为若初始待检测窗口为拷贝数重复窗口,则拷贝数重复区域的开始坐标不变,结束坐标向后移动一个单位的长度,对后续的待判断的单一窗口重复执行滑窗法判断的操作,直至待检测窗口的Z值大于表格中“拷贝数重复”列的最大值‑1,则待检测窗口的结束坐标为拷贝数缺失区域的结束坐标。
[0070] 任何能够得到样本测序数据的样本类型均适用于本申请,在一种优选的实施例中,待测样本和阴性样本包括:孕妇外周血。任何能够进行较准确的Z值判断的窗口长度均适用于本申请,在一种优选的实施例中,窗口的长度为50‑100kb。
[0071] 为得到更为准确的测序数据,在一种优选的实施例中,校正模块包括:质控单元,被设置为在进行基础校正前,待测样本和阴性样本还需要进行质控,将原始测序数据的碱基序列中的接头序列、含N的碱基、和测序质量小于15的碱基切除掉,生成新的fastq文件;在一种优选的实施例中,质控工具为Trimmomatic‑0.39软件。
[0072] 为得到更为准确的测序数据,在一种优选的实施例中,校正模块包括:唯一比对单元,被设置为在进行质控之后,需要提取原始测序数据中的唯一比对碱基序列,并进一步去除重复序列;在一种优选的实施例中,进行碱基序列比对的为人体参考基因组序列(版本hg19);在一种优选的实施例中,进行唯一比对的软件为BWA v0.7.17;进行重复序列去除的软件为Picard v2.20.3。
[0073] 由于测序过程中存在一定的GC偏好性,且染色体不同区域的可比对性也存在差异,为进一步得到更为准确的测序数据,在一种优选的实施例中,基础校正单元,被设置为利用局部加权回归法分别对第一待测样本和第一阴性样本依次进行GC含量的校正和可比对性的校正,得到第一待测样本和第一阴性样本中每个窗口经基础校正后的序列数目。
[0074] 由于不同的样本的测序水平不同,为后续进行PCA校正时,各窗口的数据量在同一水平,需要对经基础校正后的各样本中每个窗口的序列数目进行归一化校正,在一种优选的实施例中,校正模块还包括:数据量校正单元,被设置为计算每个窗口经基础校正后的序列数目占所有窗口经基础校正后的序列数目的比例,以总数据量为40‑50M,按比例计算每个窗口经基础校正后的序列数目在总数据量中的序列数目,得到每个窗口经数据量校正后的序列数目。
[0075] 为进一步进行校正,在一种优选的实施例中,校正模块还包括:PCA校正单元,被设置为使用大于10个的第一阴性样本的每个窗口经过数据量校正后的序列数目构建数据参考集,对参考集进行PCA训练,构成PCA参考集;将第一阴性样本和第一待检测样本的每个窗口经过数据量校正后的序列数目去除PCA参考集中的前10个主成分,分别得到第一阴性样本和待检测样本中每个窗口经过PCA校正后的序列数目。
[0076] 若一个窗口含有母体CNV,与不含CNV的窗口相比,窗口的序列数目变化大约是50%。因而去除母体CNV干扰,对于准确检测孕妇胎儿的拷贝数变异类型十分重要,在一种优选的实施例中,母体CNV去除模块被设置为利用隐马尔可夫链对第一待测样本中每个窗口经过PCA校正后的序列数目中的母体CNV进行去除。
[0077] 在本申请第三种典型的实施方式中,提供了一种计算机可读储存介质,储存介质包括存储的程序,其中,在程序运行时,控制储存介质所在设备执行上述的滑窗法检测产前胎儿拷贝数异常的方法。
[0078] 在本申请第四种典型的实施方式中,提供了一种处理器,处理器用于运行程序,其中,程序运行上述的滑窗法检测产前胎儿拷贝数异常的方法。
[0079] 以下结合具体实施例对本申请作进一步详细描述,这些实施例不能理解为限制本申请所要求保护的范围。
[0080] 实施例一(检测流程如图1所示)
[0081] 使用200例阴性样本、22例T21阳性样本、15例DGS阳性样本进行方法的测试:
[0082] 上述样本为北京优迅商业检测优馨安项目的样本,T21是21号三体综合征,即唐氏综合征,DGS是Digeorge综合征。
[0083] 其中,利用100例阴性样本作为本申请检测的阴性样本,其余100例阴性样本与22例T21阳性样本、15例DGS阳性样本作为本申请检测的待测样本。
[0084] 1.将来自MGI‑2000平台原始下机数据的待测样本与阴性样本利用Trimmomatic‑0.39软件进行初步质控后,使用BWA 0.7.17比对到人类参考基因组序列(版本hg19),采用Picard v2.20.3去除重复序列,Samtools v1.2提取唯一比对的碱基序列。将染色体分割成
100kb的窗口,每个窗口间有50kb的重叠部分,统计每个窗口唯一比对的碱基序列数目,生成BAM文件;
[0085] 2.基础校正。将比对到每个窗口的唯一比对碱基序列数目,通过局部加权线性回归(lowess)对进行GC含量(如图2所示)和区域可比对性(mappability)校正(如图3所示);
[0086] 3.数据量校正。随后将总数据量设为40M,按照每个窗口碱基序列占实际测得总数据量的比例分配给各窗口;
[0087] 4.PCA校正。将进行数据量校正后的每个窗口的序列数目进行PCA校正,随后求出待测样本中每个窗口的序列数目的原始含量;
[0088] 具体过程如下:用参考数据库样本(大于10个的阴性样本的每个窗口)的经过数据量校正后的序列数目组成一个矩阵,其中矩阵的每一列为一个样本,每一行为一个窗口,将矩阵进行归一化后进行SVD分解提取前10个主成分。参考数据库中每个样本经过数据量校正后的序列数目经过归一化后将前10个主成分去掉,得到的数值称为这条染色体或这段区域经过PCA校正的序列数目。
[0089] 5.利用经PCA校正后的每个窗口的序列数目,通过隐马尔可夫模型,计算待测样本中每个窗口携带母体CNV的后验概率,进而剔除携带母体CNV的窗口(即母体CNV状态为阴性的概率小于0.99),得到能够进行Z值计算的各样本中各窗口的序列数目;
[0090] 6.分别用CBS、HMM、固定Z值和本申请的滑窗法,检测另外的100例阴性样本和22例T21、15例DGS,结果如下表1‑表2所示:
[0091] 其中,CBS具体为:循环二元分割;HMM具体为:隐马尔科夫模型;固定Z值具体为:对固定区域(待检测区域)计算Z值。
[0092] 本申请的Z值按如下公式Ⅰ计算:
[0093] Zscore=hhtest‑mean(hh)/sd(hh),公式Ⅰ;
[0094] hhtest:样本在待检测区域窗口序列数目的平均值。mean(hh):参考数据库的所有样本在待检测区域窗口序列数目的平均值。sd(hh):参考数据库的所有样本在待检测区域窗口序列数目的方差。
[0095] 构建行为Z值、列分别为“拷贝数缺失”和“拷贝数重复”的表格。
[0096] 若Z值小于等于‑3,则初始待检测窗口为拷贝数缺失窗口,待检测窗口的开始坐标判定为拷贝数缺失区域的开始坐标,将Z值填入表格的“拷贝数缺失”列中;若Z值大于等于3,则初始待检测窗口为拷贝数重复窗口,待检测窗口的开始坐标判定为拷贝数重复区域的开始坐标,将Z值填入表格的“拷贝数重复”列中;若Z值小于3且大于‑3,则初始待检测窗口为正常窗口,不携带拷贝数变异。
[0097] 若初始待检测窗口为正常窗口,则待检测区域的开始和结束坐标均向后移动一个单位的长度,重复对后续的单一的待判断窗口进行Z值大小的判断,直至检测到拷贝数变异或检测完全部窗口;
[0098] 若初始待检测窗口为拷贝数缺失窗口,则拷贝数缺失区域的开始坐标不变,结束坐标向后移动一个单位的长度,重复对后续的单一的待判断窗口进行Z值大小的判断,直至待检测窗口的Z值大于表格中“拷贝数缺失”列的最小值+1,则待检测窗口的结束坐标为拷贝数缺失区域的结束坐标;
[0099] 若初始待检测窗口为拷贝数重复窗口,则拷贝数重复区域的开始坐标不变,结束坐标向后移动一个单位的长度,重复对后续的单一的待判断窗口进行Z值大小的判断,直至待检测窗口的Z值大于表格中“拷贝数重复”列的最大值‑1,则待检测窗口的结束坐标为拷贝数缺失区域的结束坐标。
[0100] 计算得到的Z值绝对值如大于3,则判定该区域高风险,否则判定为低风险。
[0101] 表1 22例T21阳性和15例DGS阳性的检出阳性率
[0102]   T21 DGSCBS 100% 86.70%
HMM 95.20% 73.30%
固定Z值 100% 66.70%
滑窗法 100% 100%
[0103] 表2 100例阴性样本的检出阳性率
[0104]   T21 DGSCBS 6% 4%
HMM 12% 13%
固定Z值 2% 3%
滑窗法 0 0
[0105] 如上所示,在几种检测方法中,本申请的滑窗法对阳性样本的检出阳性率为100%,阴性样本的检出阳性率为0%。
[0106] 从以上的描述中,可以看出,本发明上述的实施例实现了如下技术效果:在对孕妇伤害较小的情况下,本申请通过对阴性样本及待测样本的测序数据的多层级数据校正,有效提高了阳性样本的检出率并降低假阳率。且基于Z值检测的滑窗法,能够提高胎儿拷贝数变异检测的准确性,相比固定区域的Z值检测、CBS检测和HMM检测要更加敏感和特异。
[0107] 以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

当前第1页 第1页 第2页 第3页
相关技术
拷贝异常相关技术
方法装置相关技术
单光宇发明人的其他相关专利技术