技术领域
[0001] 本发明属于生信解读领域,涉及一种血液系统疾病NGS报告解读方法。
相关背景技术
[0002] 高通量测序技术(NGS)能一次并行对几十万到几百万条DNA分子进行序列测定和一般读长较短等为标志,通过读取多个短DNA片段,拼接成完整的序列信息。NGS生信流程可分为三个层级:一级信息分析——下机原始数据(BCL格式)转换为可读数据(VCF格式);二级信息分析——针对VCF数据进行位点注释过滤等;三级信息分析——结合患者临床诊疗情况,对突变基因位点进行临床意义解读。其中报告解读是最后也是最重要的环节。二代测序的报告解读需要查找大量的数据库和专业文献,面临数据量大、操作繁琐、查询困难等问题,一份肿瘤报告完全人工解读6小时左右。
具体实施方式
[0045] 以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需要说明的是,以下实施例中所提供的图示仅以示意方式说明本发明的基本构想,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
[0046] 其中,附图仅用于示例性说明,表示的仅是示意图,而非实物图,不能理解为对本发明的限制;为了更好地说明本发明的实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;对本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。
[0047] 本发明实施例的附图中相同或相似的标号对应相同或相似的部件;在本发明的描述中,需要理解的是,若有术语“上”、“下”、“左”、“右”、“前”、“后”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此附图中描述位置关系的用语仅用于示例性说明,不能理解为对本发明的限制,对于本领域的普通技术人员而言,可以根据具体情况理解上述术语的具体含义。
[0048] 请参阅图1,为本发明提供的一种血液系统疾病NGS报告解读方法,包括以下步骤:
[0049] ①上传vcf文件;
[0050] ②判断上传文件是否为注释文件,若是注释文件则执行第④步;
[0051] ③获取样本对应检测项目相关过滤条件进行过滤处理并生成注释文件;
[0052] ④读取文件中变异位点信息并结构化保存;
[0053] ⑤匹配知识库变异位点信息;
[0054] ⑥获取报告数据;
[0055] ⑦根据送检单位获取报告模板;
[0056] ⑧生成报告并导出。
[0057] 知识库结构如图2所示,分为以下几个部分:基因、变异、证据、文献、疾病。
[0058] 基因:主要收录人体基因相关的信息,包含基因名称、基因位置、基因类型以及常用转录本等基础信息,还包括解读人员整理的基因描述和genecards、omim、uniprot等相关网站该基因的描述信息,同时还包括该基因的蛋白结构域、相关疾病以及证据等相关信息。
[0059] 变异:分为母变异和子变异两大类。
[0060] 母变异:将一些通用的变异相关信息整合归纳,并对其进行变异等级分级,并将该类型的子变异关联到该母变异,同时进行归纳总结该母变异的变异描述内容,根据该类型母变异的相关疾病整理疾病对应的变异总结信息,根据靶向用药、治疗、预后、诊断、风险、临床特征、人群分布、药物代谢多种类型将相关证据整理证据汇总信息。
[0061] 子变异:种类主要有:SNP/InDel(单碱基变异,以及小片段的插入缺失),Fusion(融合基因,两个基因拼接在一起),CNV(拷贝数变异,大片段的重复,SV(其他结构性变异)。
[0062] 每一个子变异的详情中主要包含该变异相关基础信息以及变异描述信息和分级信息,并关联相关的母变异信息,同时根据该子变异相关的疾病整理变异总结信息,根据靶向用药、治疗、预后、诊断、风险、临床特征、人群分布、药物代谢多种类型将相关证据整理证据汇总信息。
[0063] 证据:包含批准用药、指南、临床试验以及文献等类型证据,通过对不同类型文献的解读,总结出文献针对的基因、变异、疾病,以及证据类型、证据关系和证据定级相关信息。
[0064] 疾病:收录临床血液相关疾病,并按照疾病进行分级处理。
[0065] 匹配知识库并解读的具体步骤如图3‑4所示,首先导入患者vcf文件,通过检测项目相关过滤导入系统中并进行格式化处理。接着对每一个位点信息进行是否移码热点变异判断,若为移码热点变异,则通过transvar进行校正。接着进行位点知识库匹配,通过基因、转录本、p点进行匹配,若匹配到了多条知识库变异位点,则优先取c点为空的那一个变异,如果没有匹配到变异位点,则通过基因、转录本、c点进行匹配,若匹配到变异位点信息,则返回变异位点解读信息。
[0066] 由于血液病相关的变异位点异质性很强,知识库即便很完善,也不可避免出现知识库匹配不到情况,为此设计了自动发现变异位点流程。当未匹配到的变异为移码或热点变异类型时,则通过该变异位点匹配母变异,若匹配到相应母变异位点信息为有临床意义,那表明这个未记录到知识库的位点为有临床意义的变异位点,将自动根据相关信息,对位点做分级和初步解读,同时记录到知识库标记起来,等待专家做更深入解读。
[0067] 若未匹配到变异位点信息,则根据情况选择进入人工解读阶段,最后通过报告解读人员确认报告位点并生成报告。
[0068] 解读:一、根据变异位点分级,找出有临床意义和潜在临床意义变异。二、根据患者临床诊断疾病在疾病树的层级关系,对同一变异下靶向用药、治疗、预后、诊断、风险、临床特征、人群分布、药物代谢等多条不同维度的证据做权重打分,找出最佳解读数据。
[0069] 证据权重打分:变异的所有证据包含批准用药、指南、临床试验以及文献等类型,和治疗、预后、诊断、风险、临床特征、人群分布等标签,同时还关联标准疾病。在解读时根据样本信息和报告用途对这三个维度做打分,分值低者为最佳解读证据。
[0070] (1)证据类型:判断条件报告用途,如报告用途为治疗,那么批准用药和临床试验的证据分值为0.5,其他分值为默认值1。
[0071] (2)证据标签:同类型打分类似,如报告用途为诊断,那预后、诊断、风险等与诊断相关的标签的证据为0.5‑1分之间,其它为1。
[0072] (3)相关疾病:根据与样本信息中患者诊断疾病在疾病数中层级关系判断分值。规则如下本节点和子级节点优先级一样打1分,本节点兄弟节点及其下子节点打分1.5分,父节点分数为2分,父节兄弟节点及其下子节点打分2.5分,以此逻辑逐级评分,所有证据。
[0073] 如图5所示,本实施例中,当患者诊断疾病为成熟B细胞淋巴癌时,打分情况如下表1:
[0074] 表1
[0075]
[0076] 最后得到三个维度评分,可根据需要将三个评分相乘获取最匹配证据,或将三个维度分组排序等多个规则,选择最佳解读数据生成报告,以方便临床医生快速了解患者患病详情。
[0077] 最后说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本技术方案的宗旨和范围,其均应涵盖在本发明的权利要求范围当中。