技术领域
本发明涉及数据挖掘,更具体而言,涉及用于从病人医疗记录挖 掘高质量结构化的临床信息。
背景技术
卫生保健提供者累积了大量的临床信息的存储。然而,挖掘临床 信息的努力已经证明并不成功。一般而言,数据挖掘是一个确定在数 据信息中心库里存储的数据中的有用模式或关系的过程。通常,数据 挖掘涉及分析非常大量的信息来发现隐藏在数据中的趋势。
由卫生保健组织维护的临床信息通常是非结构化的。因此,难以 用常规方法进行挖掘。此外,因为临床信息被收集是用来治疗病人的, 而不是(例如)用于临床试验的,它可能包含遗漏的、错误的和不一 致的数据。通常关键结果和变量都完全没有记录下来。
尽管很多卫生保健提供者以相对结构化的格式维护计帐信息,这 种信息受限于保险公司的需求。也就是说,计帐信息通常只捕获需要 用来处理医疗索赔的信息,并且更重要地反映病人的“记帐视图”, 即对最大偿还的帐单编码。结果是,从临床角度来看计帐信息通常包 含不准确的和遗漏的数据。此外,研究表明记帐代码在比例惊人(通 常为10%到20%)的病人中是不正确的。
假定挖掘临床信息能够导致很难甚至不可能达到的境界,就希望 提供用于挖掘高质量结构化的临床信息的技术,并且提供这样的技术 将是非常有利的。
发明内容
本发明提供了一种数据挖掘框架,用于挖掘高质量结构化的临床 信息。
在本发明的各个实施例中,提供了一种系统和方法,用于从病人 记录挖掘信息。多个数据源被访问。至少一些数据源可能是非结构化 的。系统包括一个领域知识库,该领域知识库包含用于挖掘数据源的 领域专用标准。一个数据挖掘器被配置为使用领域专用标准来挖掘数 据源,以创建结构化的临床信息。
优选地,该数据挖掘器包括提取部件,用于从数据源提供信息以 创建一组概率断言;组合部件,用于组合所述组概率断言以创建一个 或多个统一标准的概率断言;以及推理部件,用于从一个或多个统一 标准的概率断言推理病人状态。
该提取部件可以使用领域专用标准来从数据源提取信息。同样, 该组合部件可以使用领域专用标准来组合概率断言,该推理部件可以 使用领域专用标准来推理病人状态。病人状态仅仅是人们可能关心 的、与病人有关的变量的集合,例如,病情和诊断。
该提取部件可以被配置为从自由文本治疗记录中提取关键短语。 其它自然语言处理/自然语言理解方法也可以用来代替短语提取或与 其一起使用,以便从自由文本中提取信息。
数据源可以包括医疗信息、财务信息和人口统计信息中的一个或 多个。医疗信息可以包括自由文本信息、医疗图像信息、实验室信息、 处方药信息和波形信息中的一个或多个。
概率值可以被指派给概率断言。结构化的临床信息可能包括涉及 所存储的信息的概率信息。结构化的临床信息可以存储在数据仓库 中。结构化的临床信息可能包括纠正过的信息,包括纠正过的ICD-9 诊断代码。(国际疾病分类法,第9次修订,临床修订(ICD-9-CM) 是基于世界卫生组织的第9次修订,国际疾病分类法(ICD-9)。 ICD-9-CM是向与美国的医院医疗服务相关的诊断和手续指派代码的官 方系统。最近已经发布了第10次修订(ICD-10),它与第9次修订 (ICD-9)有所不同;希望能够很快实施)
该系统可以按任意间隔、周期间隔或在线模式下来运行。在按间 隔运行时,当系统被运行时,数据源被挖掘。在在线模式下,数据源 可以被连续不断地被挖掘。
用于挖掘数据源的领域专用标准可以包括机构专用领域知识。例 如,这可能包括与在特定医院可以得到的数据、医院的文档结构、医 院的政策、医院的方针以及医院的任意变化有关的信息。
领域专用标准还可以包括疾病专用的领域知识。例如,疾病专用 的领域知识可以包括影响疾病危险的各种因素、疾病进展信息、并发 症信息、与疾病有关的结果和变量、与疾病有关的措施以及由医疗实 体建立的方针和政策。
此外,信息中心库接口可以用来访问数据挖掘器所用的数据源中 包含的信息的至少一些。这个信息中心库接口可以是一个可配置的数 据接口。该可配置的数据接口可以根据正在研究哪家医院而变化。
数据源可以包括结构化的和非结构化的信息。结构化的信息可以 在适当的地方被转换成标准化的单元。非结构化的信息可以包括ASCII 文本串、DICOM(医学数字成像和通信)格式的图像信息、以及基于领 域知识而划分的文本文档。
在本发明的多种实施例中,可以使用因特网来运行数据挖掘器。 所创建的结构化临床信息也可以用因特网访问。
在本发明的多种实施例中,可以把数据挖掘器作为一个服务而运 行。例如,几家医院可以参与这个服务以挖掘它们的病人信息,并且 这个信息可以存储在由服务提供商维护的数据仓库中。该服务也可以 由第三方服务提供商(即,与医院无关的实体)来执行。
本发明的这些和其它方面、特征和优势从下面结合附图对优选实 施例的详细描述中可以清楚地看到。
附图说明
图1是一个计算机处理系统的框图,根据本发明的一种实施例可 以将本发明应用于它。
图2展示了示例性的计算机化的病人记录(CPR);并且
图3展示了用于挖掘高质量结构化的临床信息的示例性数据挖掘 框架。
具体实施方式
为了辅助对本发明的清晰理解,这里提供了一些说明性实例,它 们描述了本发明的确定方面。但是,应该理解这些说明并不是为了限 制本发明的范围,而是为了描述与本发明相关的确定概念。
还应该理解本发明可以用多种形式的硬件、软件、固件、专用处 理器或它们的组合来实现。优选地,本发明在软件中被实现为确实包 括在程序存储设备上的程序。程序可被上载到包含任意合适的体系结 构的机器上并由其执行。
优选地,该机器被实现在拥有下列硬件的计算机平台上:例如一 个或多个中央处理单元(CPU)、一个随机访问存储器(RAM)和输入/ 输出(I/O)接口。该计算机平台还包括操作系统和微指令代码。这里所 描述的多个进程和函数可以是通过操作系统执行的微指令代码的一部 分或者程序的一部分(或者是它们的组合)。另外,多种其它外围设 备可以被连接到该计算机平台,诸如附加数据存储设备和打印设备。
应该理解,因为附图中所描绘的组成系统部件或和方法步骤中的 一些优选地以软件实现,系统部件(或过程步骤)之间的实际连接随 着本发明的规划方式会有所不同。
图1是计算机处理系统100的框图,依照本发明的一种实施例可 以将本发明应用于它。系统100包括至少一个处理器(下文称处理器) 102,它通过系统总线104和其它部件可操作地相耦合。只读存储器 (ROM)106,随机访问存储器(RAM)108、I/O接口110、网络接口 112和外部存储器114都与系统总线104可操作地相耦合。各种外围 设备,例如显示设备、盘式存储设备(例如,磁盘或光盘存储设备)、 键盘和鼠标,可以通过I/O接口110或网络接口112与系统总线104 可操作地相耦合。
计算机系统100可以是独立系统或通过网络接口112与网络相 连。网络接口112可以是硬布线接口。然而,在多种示例性实施例中, 网络接口112可以包括适于向另一设备传送信息或从另一设备传出信 息的任意设备,诸如通用异步收发器(UART)、并行数字接口、软件 接口或已知或后来开发的软件和硬件的任意组合。网络接口可以连接 到不同类型的网络,包括局域网(LAN)、广域网(WAN)、内联网、 虚拟专用网(VPN)和因特网。
外部存储器114可以用由处理器102所管理的数据库管理系统 (DBMS)来实现,并驻留在像硬盘这样的存储器上。但是,应该意识 到外部存储器114可以实现在一个或多个附加计算机系统上。例如, 外部存储器114可以包括驻留在一个单独的计算机系统上的数据仓库 系统。
本领域的技术人员将会理解在不偏离本发明的精神和范围的前提 下也可以使用其它替代的计算环境。
卫生保健提供者越来越多地使用自动化的技术来存储和检索信 息。使用计算机化的病人记录(CPR)来维护病人信息就是一个这样的 例子。如图2所示,示例性CPR(200)包括在病人治疗期间收集到的 信息。这一信息可以包括,例如,计算机X线断层造影(CT)图像、 X-光图像、实验室测试结果、医生进展记录、与医疗过程有关的细节、 处方药信息、放疗报告、其它专家报告、人口统计学信息和计帐(财 务)信息。
一个CPR通常包括多个数据源,每个数据源通常反映病人关心的 不同方面。结构化的数据源,例如财务、实验室和药房数据库,通常 用数据库表维护病人信息。信息也可存储在非结构化的数据源种,例 如自由文本、图像和波形。通常,关键的临床发现都只存储在医师报 告中。
图3说明了用于挖掘高质量结构化的临床信息的示例性数据挖掘 系统。该数据挖掘系统包括数据挖掘器(350),它使用知识库(330) 中包含的领域专用的知识从CPR(310)挖掘信息。数据挖掘器(350) 包括从CPR提取信息的部件(352)、随时间用有原则的方式组合所有 可用证据的部件(354)以及从这个组合过程做出推理的部件(356)。 挖掘出的信息可以被存储在结构化的CPR(380)中。
提取部件(352)负责从与病人有关的每个数据源收集小块信息, 这些信息被表示为与病人有关的、在特定时间的概率断言。这些概率 断言被称为元素。组合部件(354)组合在相同时间周期中引用相同变 量的所有元素以形成一个与该变量有关的统一标准的概率断言。这些 统一标准的概率断言被称为仿真陈述(factoid)。推理部件(356) 在相同和/或不同的时间点上处理对这些仿真陈述的组合,以产生病人 状态随时间进展的连贯且简洁的图片。病人状态的这种进展被称为状 态序列。
本发明能够建立病人状态的个人模式。病人状态仅仅是人们能够 关心的、与病人有关的变量的集合。所感兴趣的信息可能包括一个状 态序列,即病人治疗期间在不同时间点上的病人状态的值。
有利的是,图3中所描述的体系结构支持插件模块,其中,能够 很容易地为新数据源、疾病和医院扩展系统。可以使用新的元素提取 算法、元素组合算法和推理算法来扩充或替换已有的算法。
上述组件中的每一个都使用与感兴趣的领域(诸如,例如,感兴 趣的疾病)有关的详细知识。这个领域知识库(330)可以有两种形式。 它可被编码为系统的输入,或者编码为产生能够被系统所理解的信息 的程序。领域知识库(330)中被输入系统的当前形式的那部分也可从 数据获取。
用于挖掘数据源的领域专用的知识可以包括机构专用领域知识。 例如,这可以包括与在特定医院可用的数据、医院的文档结构、医院 的政策、医院的方针以及医院的任何变化有关的信息。
领域专用的知识还可以包括疾病专用的领域知识。例如,疾病专 用的领域知识可以包括影响疾病危险的各种因素、疾病进展信息、并 发症信息、与疾病有关的结果和变量、与疾病有关的措施、以及由医 疗实体建立的方针和政策。
如上所述,提取部件(352)从CPR(310)获取信息以产生与病 人有关的概率断言(元素),这些断言是瞬时的或与时段有关。这个 过程在领域知识库(330)中所包含的领域知识的引导下实施。提取所 需的领域知识对每个数据源来说通常是具体的。
从文本源进行的提取可以通过短语识别来实施,这要求一个规则 列表,用于规定感兴趣的短语以及从中可以做出的推理。例如,如果 医生记录中的某个句子带有单词″There is evidence of metastatic cancer in the liver″,那么为了从这个句子推理中病人患了癌症, 就需要一个规则引导系统以查找短语″metastatic cancer″,并且如 果找到了″metastatic cancer″,就以高可信度断言病人患了癌症(在 本实施例中转换成产生一个名为″癌症(Cancer)″的元素,值为″真 (True)″,可信度为0.9)。
数据源包括结构化的和非结构化的信息。结构化的信息可在适当 的地方被转换成标准化的单元。非结构化的信息可以包括ASCII文本 串、DICOM(医学数字成像和通信)格式的图像信息、以及基于领域知 识而划分的文本文档。可以注意可能不正确或遗漏的信息,以便采取 动作。例如,挖掘出的信息可能包括修正后的信息,包括修正的ICD- 9诊断代码。
从数据库源进行的提取可以通过查询源中的表来完成,这种情况 下,领域知识需要对什么信息位于数据库的哪些字段中进行编码。另 一方面,提取过程可能涉及计算数据库中所包含的信息的复杂函数, 这种情况下,可以用执行这一计算的程序的形式提供领域知识,这一 计算的输出可以被提供给系统的其它部分。
从图像、波形等进行的提取可以由提供给系统的图像处理或特征 提取程序来完成。
组合包括在给定时间点上从相同/不同来源的可能冲突的断言中 产生每个变量的统一视图的过程。在本发明的多种实施例中,这是用 与由元素(即先验概率)表示的变量的统计有关的领域知识完成的。
推理是用与病人有关的所有可用的仿真陈述并通过疾病状态、治 疗协议、实验室化验等产生病人进展的复合视图的过程。基本上,病 人的当前状态可能受到先前的状态和任意新的组合观察的影响。
这个过程所需的领域知识可以是一个统计模型,它描述跨越所有 病人的感兴趣的疾病的进展的一般模式以及病人的疾病和可以观察到 的变量(实验室化验结果、医生记录等)之间的关系。可以产生病人 的总结,相信它与仿真陈述所包含的信息和领域知识是最一致的。
例如,如果观察结果似乎说明癌症患者在他或她没有肿瘤生长的 同时正在接受化疗,而领域知识说明只有在病人患了癌症时才能进行 化疗,那么系统会判定:(1)病人没有患上癌症,也没有接受化疗(也 就是说,观察结果可能不正确),或(2)病人患了癌症且正在接受化 疗(初始推理—病人没有患上癌症—是不正确的);取决于这些命题 中的哪一个更有可能给出所有其它信息。实际上,(1)和(2)的结 论都可被得出,但有不同的概率。
看另一个例子,考虑在医生记录中找到了像″The patient has metastatic cancer″这样的句子的情况,从这个句子可以得出结论< 癌症=真(概率=0.9)>。(注意这等价于断言<癌症=真(概率=0.9),癌 症=未知(概率=0.1)>)。
现在,进一步假定有一个癌症的基本概率,<癌症=真(概率= 0.35),癌症=假(概率=0.65)>(例如,35%的病人患有癌症)。 那么,我们可以把这个断言和癌症的基本概率组合在一起获得,例如, 断言<癌症=真(概率=0.93),癌症=假(概率=0.07)>。
同样,假定冲突的证据指示下列断言:
1.<癌症=真(概率=0.9),癌症=假(概率=0.1)>
2.<癌症=假(概率=0.7),癌症=真(概率=0.3)>
3.<癌症=真(概率=0.1),癌症=未知(概率=0.9)>
4.<癌症=真(概率=0.4),癌症=未知(癌症=0.6)>
在这种情况下,我们可以把这些元素和癌症的基本概率<癌症=真 (概率=0.35),癌症=假(概率=0.65)>组合在一起得出<癌症=真(概 率=0.67),癌症=假(概率=0.33)>.
应该理解本发明通常必须访问大量的数据源并处理遗漏的、不正 确的、和/或不一致的信息。例如,在确定病人是否患有糖尿病当中, 下列信息可能必须被提取:
(a)与糖尿病相关联的二次诊断的ICD-9计帐代码;
(b)给予病人与糖尿病治疗有关的药物(胰岛素);
(c)病人的实验值是糖尿病的症候(例如,两个连续的血糖读数 超过250mg/d);
(d)医生提及病人在H&P(历史&实际)或出院记录(自由文本) 上是糖尿病;以及
(e)相关的病人过程(例如,脚的检查)是糖尿病。
可以看出,有多个独立的信息来源,从中的观察结果可以支持(用 不同的可信度)病人是糖尿病患者(或者一般地说有一些疾病/状况)。 它们并不是全部都存在,事实上在某些情况下它们还相互矛盾。可以 导出概率观察结果,具有可变的可信度。从概率上可以把这些观察结 果(例如,有关计帐代码、药物、实验室测试等等)组合在一起以提 出最终的糖尿病概率。注意病人记录中可能有与糖尿病矛盾的信息。 例如,病人具有某种有压力的事件发生(例如,一次操作)并且血糖 上不去。
应该理解提出上面的例子仅仅是为了说明目的,并不是为了限制 本发明。组合元素的实际方式取决于正在考虑的特定领域以及系统使 用者的需求。此外,应该理解,尽管上述讨论指的是以病人为中心的 方法,但是实际的实现可以被扩展到同时处理多个病人。另外,应该 理解,在不偏离本发明的精神和范围的前提下,可以为这些阶段中的 任意或全部(例如,提取、组合、推理)在领域知识库(330)中引入 学习过程。
该系统可以按任意间隔、周期间隔或在在线模式下运行。当以间 隔运行时,在系统运行时挖掘数据源。在在线模式下,可以连续不断 地挖掘数据源。
可以用因特网运行数据挖掘器。所创建的结构化的临床信息也可 以用因特网来访问。
另外,可以把数据挖掘器作为一种服务来运行。例如,几个医院 参与该服务以使它们的病人信息被挖掘,并且这个信息可以存储在由 服务提供商所拥有的数据仓库中。该服务可以由第三方服务提供商 (即,与医院无关的实体)执行。
一旦结构化的CPR(380)被用病人信息填充,它就处于这样一种 形式中,采用该种形式有益于回答与个别病人有关的几个问题,以及 与不同的有代表性的病人有关的几个问题。
下面描述REMIND(从非结构化数据的可靠提取与合理推理),由 西门子公司研究院(SCR,西门子公司的子公司)开发的一种创新型数 据挖掘系统。REMIND基于本发明的实施例。
首先,提供一种模拟来描述REMIND执行推理的精神。
一名有一些癌症相关知识的法国医科学生被提供癌症病人的 CPR。CPR包括转录的英文口述和药剂数据。该学生的任务是分类出哪 些病人已经出现了复发,并且如果有的话,确定何时发生。不幸的是 他的英语很差,尽管他知道一些关键的医学词汇和少数药名。然而, 他不能完全依赖于口述中出现的一些关键词,例如转移 (metastases),因为他知道专家们通常进行相反的陈述(″Patient is free of evidence of metastases″)。这名学生怎样才能最好地 完成他的任务?
该学生可以从CPR中收集所有相关的证据一而不相信任何单个的 证据—并组合它以调整任何不一致。他可以使用他的与癌症治疗有关 的知识——例如,注意到病人做过肝脏切除术,该学生可以得出如下 结论:病人以前(可能)曾经复发过。
问题定义
假设S是采取表示系统状态的∑中的值的连续时间随机过程。假 设T=(t1,t2,...,tn},其中ti<ti+1,是当S必须被推理时的n 个″感兴趣的时间″。假设Si指的是在时间ti∈T时S的样本。假设V 是依赖于S的变量的集合。假设O是对所有变量v∈V的所有(概率) 观察的集合。似设Oi是″指派″给ti∈T的所有观察的集合;即,与和 这个时间步长ti相关的变量v∈V有关的所有观察。同样,
假设Oj i(v)是分配给ti的变量v的第j个观察。假设seq=