首页 / Web信息抽取方法

Web信息抽取方法失效专利 发明

技术领域

[0001] 本发明借助Web信息抽取技术,以煤矿安全事件为主题,运用研究和改进的Web信息抽取相关技术,实现一个煤矿安全事件Web信息抽取系统,给人们获取煤矿安全事件信息带来便利,很好的适应了社会发展的需要。

相关背景技术

[0002] 随着网络通信技术和个人计算机技术的迅猛发展,Internet已是名副其实的一个世界级的、庞大的、跨平台的、分布式、动态和交互信息分享平台。于此同时,互联网上的信息和资源增长速度也超乎想象,并出现了一些“混乱”的迹象,使用者为了搜索一些有用的资源,也许要浪费非常多的精力去查找web页面,导致web资源的利用率严重的降低。要避免这种情况,急需出现某种智能的软件工具来协助用户快速地在大量的web资源库中定位到对自己有用的信息,在这用环境下,人们就开始探索如何抽取web信息的方式和方法。
[0003] 信息抽取(Information Extraction:IE)就是将文本里面所蕴涵的信息,用结构化的方式进行加工,将其转化成和表格类似的形式。研究人员对IE的探索已历经了十多年,它最初的目的是将指定的文本信息从自然语言所描述的文档中抽取出来,它隶属于自然语言处理领域。各个领域的研究者也试探着把IE技术与本领域相结合并加以利用,但是在煤矿安全领域里,运用IE技术获取煤矿安全信息的研究尚不够充分。
[0004] 中国是全球一个主要的煤炭生产大国,煤矿灾难的发生率和百万吨死亡率也比其他国家高很多。中国煤矿最多的五类灾难性事故包括:瓦斯、顶板、水灾、火灾、运输,每当这些灾难性事故出现后,就会出现许多的与之相关联的报告,怎样从这些嘈杂的报告中检索到用户需要的准确的信息,其精度和难度都非常大。假如能挖掘出这些事故信息之间的关联,并对这些事故信息进行整合、抽取,最终展现给用户最有含金量的信息,这是一件非常有价 值的工作。
[0005] 煤矿安全网站逐步发展,并且从内容和质量来看也越来越成熟,怎样从巨大的煤矿安全事件信息资源库中检索到用户需要的信息,就成了目前煤矿安全领域一个急需解决的问题。

具体实施方式

[0060] 本发明包括如下步骤:
[0061] (1)本文通过对Web页面清洗相关技术的研究,通过三个步骤来完成页面的清洗工作:第一步规范化HTML标签。第二步精简XHTML标签。第三步构造HTML结构树。通过以上三步可以有效地清洗掉页面中的噪声信息,为下面的主题提取工作做准备。
[0062] (2)对页面主题信息进行提取。为了进一步去掉页面中和主题无关的内容,提高下一步信息抽取的效率,本文在页面清洗的基础上,进一步对页面的主题内容进行抽取。在页面主题提取之前,首先研究了页面主题的特征,并给出了结构树的相关特性定义:子树数、分支数、平均分支数、字符数、分布,并在此基础上结合中介真值程度度量理论,提取出页面的主题内容。
[0063] (3)提出了基于特征比较法建立抽取规则的方法。该方法关键是要建一个特征类Characteristic,通过选择数据项特征、构建数据项特性、并计算特征类中所有特征项相似度。该方法增加了路径以外的其他特征,作为结点的特征,从而提高了抽取的准确率。
[0064] (4)本文信息抽取包含两部分,一部分是对同一个页面上的多条煤 矿安全事件记录进行抽取,另一部分是对上面抽取到的每条记录对于的正文信息进行抽取。针对记录进行抽取的方法是在以上抽取规则建立的基础上,本文给出了基于DOM的页面信息抽取算法。针对记录正文进行抽取,本文提出了基于模板和归纳统计的煤矿安全事件正文信息抽取方法。
[0065] (5)通过上面对页面清洗、信息抽取相关技术的研究,最后设计和实现了面向煤矿安全事件的Web信息抽取系统。还设计相关实验,对系统的抽取性能进行了测试,并对实验结果进行客观分析,验证面向煤矿安全事件的Web信息抽取系统的正确及可行性。
[0066] 主要包含三个部分的内容:(1)基于JTidy和HTMLParser的页面清洗技术。(2)基于中介真值程度度量的页面主题提取技术。(3)基于页面主题和DOM的Web信息抽取技术。通过对以上技术的研究与应用,使系统具有较高的信息抽取效率、页面抽取速度快,拥有良好的抽准率和抽取率,主题提取的准确度也较高,具有良好的稳定性。同时系统功能完整易用,可以在实际应用过程中得到推广。
[0067] (1)基于JTidy和HTMLParser的页面清洗技术
[0068] 依据对Web页面清洗相关技术的研究,采用三个步骤完成页面的清洗工作。
[0069] 1)规范化HTML标签
[0070] 页面清洗与后边的信息抽取工作紧密相连,所以页面清洗的第一步就是对HTML标签进行规范化处理。由于Web页面的结构是由HTML标签决定,这些标签中穿插着文字、图片等数据。规范化处理的内容包括非法标记、不规范的标记、使用错误的标记等,处理的过程就是将这些标记去除或者修改为正确的格式。处理的结果要保证所有标签的首尾标记要成对出现,且标签的嵌入方式要符合标准规范,如果是单标记的标签要以“/>”结尾。本系统采用W3C组织推荐的HTMLTidy工具来处理那些格式不符合标准的HTML代码,最终得到书写规范、格式良好的XHTML文档。
[0071] 2)精简XHTML标签
[0072] 因为HTML标签有各种各样的类型,且每个标签又包含了多种属性,这些属性可以为页面添加各式各样的效果。例如“input”标签的字体的大小、颜色等等属性;“table”标签的宽、高、边框等属性。这些属性大部分和需要抽取的主题内容没有关系。为了使得XHTML页面简洁,需要把HTML标签进一步优化处理,本文的做法是将所有标签的属性全部去掉,例如简化成
,简化成等。
[0074] 得到精简后的XHTML标签后,对这些标签进行分类,只保留那些规划网页结构的标签,将描述内容特征的标签加以过滤。保留的标签包括:
、等,过滤掉的标签包括: