首页 / 一种基于深度学习的PD-L1表达的联合阳性分数获取方法及系统

一种基于深度学习的PD-L1表达的联合阳性分数获取方法及系统有效专利 发明

技术领域

[0001] 本发明涉及医疗图像处理识别技术领域,尤其是涉及一种基于深度学习的PD‑L1表达的联合阳性分数获取方法及系统。

相关背景技术

[0002] 研究表明,肿瘤组织中PD‑L1的表达水平与HNSCC的ICI治疗疗效密切相关,是目前最实用有效的预测标志物。通过计数PD‑L1表达的联合阳性分数(Combined Positive Score,CPS)是筛选晚期HNSCC患者ICI免疫治疗指征的关键指标,并已纳入NCCN指南推荐的临床病理常规检测项目。
[0003] PD‑L1的标准化检测已在国内外许多病理科室中逐渐开展,染色结果通过病理医师半定量判读方式对联合阳性分数CPS进行评估,以指导HNSCC患者免疫治疗获益人群筛选。由于PD‑L1可在肿瘤细胞及多种免疫细胞中表达,阳性表达模式复杂,因此对PD‑L1染色结果的判读具有很大的挑战性。多个实践研究表明,临床病理医师对PD‑L1判读的一致性及可重复性均不足,且判读耗时费力。目前各个公司ICI药物采用的PD‑L1抗体并不一致且不同克隆号的PD‑L1染色模式也略有差异,导致彼此PD‑L1检测方式及判读标准也存在差别。
[0004] 现有技术中存在采用深度学习模型的方案识别阳性肿瘤细胞以及阳性免疫细胞进而计算联合阳性分数的方案,然而,现有技术在识别相关细胞时,将数字切片图像输入至一个模型中,模型首先获取细胞形态然后对细胞进行分类从而输出肿瘤细胞和免疫细胞的数量;其主要是通过形态以及颜色识别膜染色阳性肿瘤细胞核阳性肿瘤相关免疫细胞,两者在识别时存在辨识度相对不高的情况,且,在训练过程中,由于需要兼顾不同细胞的分类识别,因此,对每一种细胞的识别准确度也会受到影响。

具体实施方式

[0017] 为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0018] 随着数字病理(Digital Pathology,DP)在临床病理诊断中的应用,数字切片(Digital slides)及计算机辅助分析工具正在纳入病理学科的范畴。组织病理切片的数字化不但使病理图像的获取使用变得方便,更重要的是提供了一种高分辨率的图像,其内包含大量的像素级数字信息,为定量分析肿瘤组织的形态特征提供了计算基础。数字化技术正推动病理图像的数据收集和观察模式发生变化,促使传统组织病理学向定量分析的计算病理学转变。
[0019] 机器学习(Machine Learning,ML)作为一门交叉学科,主要使用计算机工具及数学模型解决各类学习任务,在近几年得到快速发展,并逐渐应用于医疗大数据及医学图像分析领域。深度学习(Deep Learning,DL)是机器学习的一个重要的分支,相比其他机器学习算法,深度学习对大数据样本的特征提取能力更强。深度学习的概念源于人工神经网络的研究,通过组合低层特征形成更加抽象的高层表示属性类别或特征。在计算机视觉领域,以卷积神经网络(Convolutional Neural Networks,CNN)为基础的架构是当前深度学习图像识别中最常用的网络结构之一。卷积神经网络包含卷积计算且具有深度结构的前馈神经网络,主要结构有:卷积层、池化层和全连接层,通过堆叠这些层结构形成一个深度卷积神经网络(DCNN),具有很强的表征学习能力。针对目标检测、图像分类及图像语义分割等深度学习算法,在各类医学图像识别任务中被广泛应用。
[0020] 基于卷积运算的深度学习算法非常适合数字病理切片的特征提取及分析,并能将数字病理图像与计算机技术进行有机整合。目前,深度学习在病理分类诊断、肿瘤细胞检测、肿瘤突变及预后预测等方面取得了良好的应用,极大地协助病理医生的诊疗和科研工作。深度学习在病理学中的应用性研究促进了计算机工具和数字病理学的结合,并为传统组织病理学的发展带来新的契机。
[0021] 人工智能(Artificial Intelligence,AI)在病理图像分析中发挥越来越重要的作用。在AI的辅助下,可以通过“人机结合”的诊断模式显著提高病理诊断的准确性。AI能够从组织学图像数据中获得精确的向量参数,并能提供比目前在临床病理实践中应用的半定量评分更多的生物学相关信息。在病理切片数字化背景下,AI技术推动病理诊断逐渐从定性分析向定量分析转变,这一转变将使病理分析更加准确客观。
[0022] 肿瘤免疫治疗的进展推动肿瘤诊断预测性检测的需求增加,用以筛选患者并指导治疗决策。标准化生物标志物评估方案对加快肿瘤免疫治疗的临床发展至关重要。与临床免疫治疗并行开发专门的计算机分析模型可能有助于协调解决免疫治疗伴随诊断的判读标准差异的问题。基于AI的图像分析工具可以进行复杂和定量的病理标记物分析,具有高度的可重复性。因此,AI图像分析结果在不同诊断实验室更容易共享和标准化,进而协助病理医师在病理指标检测和判读方面进行标准化的制定。
[0023] 同时,组织病理层面的研究对生物标志物的发现和临床治疗分层日益重要。越来越多的分子指标通过判读免疫组化染色结果以指导临床治疗方案决策。精准医疗背景下,病理工作者正面临着诊断工作量和复杂性的大幅增加,而诊断方案也须同样注重效率和精确性。人工智能的发展可促进组织病理中这类定量判读工作的自动化实现,这既是当前病理研究的挑战更是机遇,可以显著提高效率和节约成本,改善国内病理医生匮乏的现状。
[0024] 组织病理图像具有高度整合性。肿瘤组织免疫微环境的全景特征可由计算机成像技术捕获,基于数字图像参数的具体数据,计算机能够定性及定量地计算肿瘤免疫治疗标记物的表达数值及组织免疫微环境的主要特征。机器学习的方法能够将组织病理图像数据进行整合分析并用于模型的构建。通过基于机器学习的计算机技术,将免疫治疗疗效和预后的预测指标的数字病理信息进行精确的智能化分析,是形成肿瘤“癌症免疫图谱”的一种强有力的方法。
[0025] 基于卷积运算的深度学习算法非常适合数字病理切片的特征提取及分析,并能将数字病理图像与计算机技术进行有机整合,附图1示出了组织病理切片的数字化与深度学习的结合的示意图。目前,深度学习在病理分类诊断、肿瘤细胞检测、肿瘤突变及预后预测等方面取得了良好的应用,极大地协助病理医生的诊疗和科研工作。深度学习在病理学中的应用性研究促进了计算机工具和数字病理学的结合,并为传统组织病理学的发展带来新的契机。
[0026] 实施例一,如附图2所示,一种基于深度学习的PD‑L1表达的联合阳性分数获取方法,包括以下步骤:S1:获取用于联合阳性分数计算的数字化切片图像;
具体地,对样本使用数字切片扫描设备(型号:3DHISTECH Pannoramic 250)进行全切片扫描,从而得到数字化切片图像;
S2:对所述数字化切片图像进行第一图像预处理操作,得到数字化切片图像小图;
其中,所述第一图像预处理操作具体为:对所述数字化切片图像进行固定步长图像分割操作,将所述数字化切片图像分割成若干个256×256×3像素的数字化切片图像小图;
在本实施例中,由于对数字化切片图像中联合阳性分数计算时需要对图像中的膜染色阳性肿瘤细胞核阳性肿瘤相关免疫细胞以及肿瘤细胞总数进行计数然后计算PD‑L1联合阳性分数,一张数字化切片RGB图像的大小约为20000×20000×3像素,如此多像素包含的信息较多,模型识别起来准确度不高,因此,将数字化切片图像分割成固定像素大小的小图,然后分别将小图输入至模型中,相较于直接将数字化切片图像输入至模型中,可显著提高细胞识别的准确度。
[0027] S3:对所述数字化切片图像小图进行第二图像预处理操作;其中,在该步骤中,经过该步骤的图像预处理,会进入肿瘤细胞识别步骤,而肿瘤细胞受图像噪音影响较大,为提高肿瘤细胞识别准确度,所述第二图像预处理操作为:对所述数字化切片图像小图进行滤波操作;
S4:分别将经过所述S3预处理的数字化切片图像小图输入至肿瘤细胞识别模型,得到所述数字化切片图像中PD‑L1膜染色阳性肿瘤细胞数量(TTC+)以及肿瘤细胞总数量(TTC);
其中,所述肿瘤细胞识别模型为卷积神经网络模型;
将一张完整数字化切片图像分成的小图分别输入至肿瘤细胞识别模型,然后对模型的识别结果进行统计,得到PD‑L1膜染色阳性肿瘤细胞数量(TTC+)以及肿瘤细胞总数量(TTC);
值得注意地是,在本实施例中,关注的重点在于对所述肿瘤细胞识别模型进行训练,进而提高相关细胞识别的准确度;
具体地,如图3所示,所述S4具体为:
S4.1:获取用于肿瘤细胞识别模型构建的图像集;
其中,收集项目依托单位天津医科大学肿瘤医院近5年的HNSCC的手术组织样本和档案PD‑L1染色切片,预计收集至500例HNSCC病例作为首批用于肿瘤细胞识别模型构建的图像;然后对所述样本集进行分割操作,每张PD‑L1染色数字病理RGB图像大小约20000×
20000×3像素,能够分割成约6000张256×256×3像素的训练输入图像,因此500例PD‑L1数字切片图像能够分割成约300万张图像数据集,用于模型构建;
最后,对所述图像数据集进行人工标注,通过图像标注软件对PD‑L1标准抗体22c3
2
染色的数字切片图像进行人工标注,每张数字图像选取不少于10个1×1mm代表性区域进行专业病理医生的人工标注,标注前进行人员培训及训练样本标注一致性分析,在标注完成后,由HNSCC病理专家进行校验,将标注后的各组织切片图像作为用于肿瘤细胞识别模型构建的图像集。
[0028] 值得强调地,在本步骤中,所述人工标注具体为:标注出所述数字切片图像中的PD‑L1膜染色阳性肿瘤细胞以及PD‑L1膜染色阴性肿瘤细胞;其中,所述图像集包括PD‑L1膜染色阳性肿瘤细胞图像集以及PD‑L1膜染色阴性肿瘤细胞图像集;
S4.2:采用所述图像集训练卷积神经网络模型,从而得到肿瘤细胞识别模型,所述肿瘤细胞识别模型包括阳性肿瘤细胞识别模型和阴性肿瘤细胞识别模型;
在所述S4.2中,采用所述PD‑L1膜染色阳性肿瘤细胞图像集训练所述阳性肿瘤细胞识别模型,采用所述PD‑L1膜染色阴性肿瘤细胞图像集训练所述阴性肿瘤细胞识别模型;
具体地,通过准确率、敏感性、特异性、F1分数和IoU判断所述肿瘤细胞识别模型是否训练完成。
[0029] S4.3:分别将经过所述S3预处理的数字化切片图像小图输入至所述S4.2得到的阳性肿瘤细胞识别模型和阴性肿瘤细胞识别模型,标识出PD‑L1膜染色阳性肿瘤细胞以及PD‑L1膜染色阴性肿瘤细胞;其中,PD‑L1膜染色阳性肿瘤细胞以及PD‑L1膜染色阴性肿瘤细胞采用不同颜色进行标识;
在本实施例中,在识别阳性肿瘤细胞和阴性肿瘤细胞时,将同一张数字化切片小图输入至阳性肿瘤细胞识别模型和阴性肿瘤细胞识别模型中,肿瘤细胞识别模型在对图像识别时,仅识别一类肿瘤细胞,也就是说,阳性肿瘤细胞识别模型识别阳性肿瘤细胞,然后标识阳性肿瘤细胞;然后再输入同一张数字化切片小图至阴性肿瘤细胞识别模型,标识出阴性肿瘤细胞,通过这种方式,可有效提高识别的准确度。
[0030] S4.4:对所述PD‑L1膜染色阳性肿瘤细胞以及PD‑L1膜染色阴性肿瘤细胞进行计数,得到所述数字化切片图像中PD‑L1膜染色阳性肿瘤细胞数量(TTC+)以及肿瘤细胞总数量(TTC);其中,所述肿瘤细胞总数量(TTC)为PD‑L1膜染色阳性肿瘤细胞数量(TTC+)与PD‑L1膜染色阴性肿瘤细胞数量(TTC)‑ 之和;
实际上,现有技术中存在采用深度学习模型的方案识别阳性肿瘤细胞以及阳性免疫细胞进而计算联合阳性分数的方案,然而,现有技术在识别相关细胞时,将数字切片图像输入至一个模型中,模型首先获取细胞形态然后对细胞进行分类从而输出肿瘤细胞和免疫细胞的数量;其主要是通过形态以及颜色识别膜染色阳性肿瘤细胞和阳性肿瘤相关免疫细胞,两者在识别时存在辨识度相对不高的情况,且,在训练过程中,由于需要兼顾不同细胞的分类识别,因此,对每一种细胞的识别精度也会受到影响。
[0031] 因此本实施例采用肿瘤细胞识别模型识别出阳性和阴性肿瘤细胞,然后该模型输出肿瘤细胞数量和PD‑L1膜染色阳性肿瘤细胞;提高了肿瘤细胞识别的准确度。
[0032] S5:对所述数字化切片图像小图进行第三图像预处理操作;其中,所述第三图像预处理操作的目的在于通过图像预处理操作,用于提高数字化切片图像中免疫细胞的识别准确度,而数字化切片图像中免疫细胞的识别主要通过染色切片着色判断,因此,所述第三图像预处理操作具体为:对所述数字化切片图像小图进行图像对比度增强操作;
具体地,采用伽马变换法进行图像对比度增强操作;
其中,所述伽马变换的公式为:
[0033] 其中,S为伽马变换后的像素值,c为常数,r为伽马变换前的像素值, 为伽马值,用于调整变换后的图像的对比度;发明人在研究中发现,而对于数字化切片图像来说,对比度越高,数字化切片图像在采用人工智能模型识别细胞时的准确度并不是越高,通过分析发现,可能是和数字化切片的厚度以及各种类型细胞的数量有关;
而且,发明人通过研究发现,PD‑L1阳性免疫细胞与PD‑L1膜染色阳性肿瘤细胞在数量趋势上具有相关性,对于较多的PD‑L1阳性免疫细胞可以适当的设置较高的对比度,对于较少的PD‑L1阳性免疫细胞可以适当的设置较低的对比度,以提高识别的准确度;因此,本步骤根据S获得的PD‑L1膜染色阳性肿瘤细胞动态的确定伽马变换中伽马值的大小,进而提高模型对不同的数字化切片图像识别的准确度。
[0034] 具体地,所述S5具体为:根据所述S4获得的所述PD‑L1膜染色阳性肿瘤细胞的数量调整伽马变换中伽马值的大小;其中,当所述PD‑L1膜染色阳性肿瘤细胞的数量大于预设阈值时,伽马值为0.7,当所述PD‑L1膜染色阳性肿瘤细胞的数量小于等于预设阈值时,伽马值为0.5;通过本步骤,可对不同的数字切片图像采用不同的图像对比度操作,为后续的人工智能模型的识别奠定了良好的数据基础。
[0035] S6:分别将经过所述S5预处理的数字化切片图像小图输入至免疫细胞识别模型,得到所述数字化切片图像中PD‑L1阳性免疫细胞数量;其中,所述免疫细胞识别模型同样为卷积神经网络模型;
具体地,如图4所示,所述S6具体为:
S6.1:获取用于免疫细胞识别模型构建的图像集;
该步骤中,免疫细胞识别模型构建的图像集的搜集过程同肿瘤细胞识别模型构建的图像集相同,不同的地方在于对图像集的人工标注上;
值得强调地,在本步骤中,所述人工标注具体为:标注出所述数字切片图像中的PD‑L1阳性免疫细胞;
S6.2:采用所述图像集训练卷积神经网络模型,从而得到免疫细胞识别模型;
同样地,通过准确率、敏感性、特异性、F1分数和IoU判断所述肿瘤细胞识别模型是否训练完成。
[0036] S6.3:将经过所述S5预处理的数字化切片图像小图输入至所述S6.2得到的免疫细胞识别模型,标识出PD‑L1阳性免疫细胞;S6.4:对所述PD‑L1阳性免疫细胞进行计数,得到所述数字化切片图像中PD‑L1阳性免疫细胞数量(TIC+);
S7:获取所述数字化切片图像的联合阳性分数;
其中,所述数字化切片图像的联合阳性分数(CPS)的计算过程为:

实施例二,本实施例包括一种基于深度学习的PD‑L1表达的联合阳性分数获取系统,所述系统采用实施例一的基于深度学习的PD‑L1表达的联合阳性分数获取方法,所述系统包括:
数字化切片图像获取模块,用于获取用于联合阳性分数计算的数字化切片图像;
分割模块,用于对所述数字化切片图像进行第一图像预处理操作,得到数字化切片图像小图;
第二图像预处理模块,用于对所述数字化切片图像小图进行第二图像预处理操作;
肿瘤细胞识别模型,用于分别将经过第二图像预处理的数字化切片图像小图输入至肿瘤细胞识别模型,得到所述数字化切片图像中PD‑L1膜染色阳性肿瘤细胞数量TTC+以及肿瘤细胞总数量TTC;
第三图像预处理模块,用于对所述数字化切片图像小图进行第三图像预处理操作;
免疫细胞识别模型,用于分别将经过第三图像预处理的数字化切片图像小图输入至免疫细胞识别模型,得到所述数字化切片图像中PD‑L1阳性免疫细胞数量;
联合阳性分数计算模块,用于计算获取所述数字化切片图像的联合阳性分数。
[0037] 实施例三,本实施例包括一种计算机可读存储介质,计算机可读存储介质上存储有数据处理程序,数据处理程序被处理器执行实施例一的基于深度学习的PD‑L1表达的联合阳性分数获取方法。
[0038] 本领域技术人员应明白,本文的实施例可提供为方法、装置(设备)、或计算机程序产品。因此,本文可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD‑ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质等。此外,本领域普通技术人员公知的是,通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据,并且可包括任何信息递送介质。
[0039] 本文是参照根据本文实施例的方法、装置(设备)和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
[0040] 这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
[0041] 以上所述的实施例及/或实施方式,仅是用以说明实现本发明技术的较佳实施例及/或实施方式,并非对本发明技术的实施方式作任何形式上的限制,任何本领域技术人员,在不脱离本发明内容所公开的技术手段的范围,当可作些许的更动或修改为其它等效的实施例,但仍应视为与本发明实质相同的技术或实施例。注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。

当前第1页 第1页 第2页 第3页