技术领域
[0001] 本发明涉及云端字库技术领域,尤其涉及一种云端字库的汉字图形网络构建方法。
相关背景技术
[0002] 在自然语言处理研究过程中,基于规则的方法通常采用对语言现象的综合和认识,总结规律,得到语法、语义等规则,然后生成语义目标;而基于语料库的方法则需要在在大规模语料库的支持下实现语义的输出。不论是哪种语言,这两种方法都要涉及对字(或单词)的认知分析。即先将文档拆分为句子,由句子拆分为词,由词再分解为字(或单词),最后分析单词的基本属性。
[0003] 单一模态下自然语言处理不利于汉语的深度计算,而多模态的自然语言处理又难于控制和实现,如何建立自然语言认知的多模态机制,让多模态下的各个输入能根据认知的需求实现平滑的输出,这是长期以来在自然语言研究中的一个焦点问题。
具体实施方式
[0035] 下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
[0036] 在本发明的描述中,需要理解的是,术语“长度”、“宽度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,在本发明的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
[0037] 请参阅图1和图2,本发明提供一种云端字库的汉字图形网络构建方法,包括以下步骤:
[0038] S101、获取云端字库中对应的汉字原始信息,并所述汉字原始信息进行编码转换和临时存储。
[0039] 具体的,基于云端字库中存储的数据,获取对应的汉字原始信息,根据输入的信息格式不同,分为结构化数据输入和非结构化数据输入,结构化数据以文本为主,非结构化输入以图形为主。
[0040] 编码转换。即对输入信息进行语义信息编码,使用基本模态信息的认知描述算法将文本数据用基本模态信息表示,使用扩展模态信息的认知描述算法将图形信息以扩展模态信息表示。
[0041] 其中,本申请将汉字信息的表示分为结构表示、风格表示和语义表示三个层次,每一种表示视为一种模态,因此是多模态。其中结构和风格是表示汉字的基本信息,和这些内容相关的信息称为基本模态信息,而汉字的语义信息不仅和汉字的结构有关,而且和组成汉字的部首和部件有的表示内容和语义有关,因此,将和语义信息表示相关的模态称为扩展模态。
[0042] 临时存储。上述转换后的信息以语义描述方式分别暂存为特征描述的语义描述文档,基本模态语义信息描述文档和扩展模态语义信息描述文档。
[0043] 使用字形采集算法将编码文字进行特征化处理。所谓字形采集是指根据已有的字形生成所需字形的骨架,然后通过采集特征点和设计字形描述算法,自动实现字形的描述过程。文字骨架上特征点是建立字形描述库的基础,也是将来建立汉字图形网络和研究汉字认知网络的基础,如图8所示。
[0044] S102、基于汉字认知描述库对临时存储的基本语义信息文档进行对比分析,得到多层基本语义联结关系图和对应的基本语义分析结果。
[0045] 具体的,基于认知的汉字字形描述库(也就是汉字认知描述库)的设计和现有技术中的方法类似,但数据的采集方法有所区别,本申请将根据组成汉字的不同结构进行分类,采取人机交互的方法设计该描述库,使得该描述库具有以下检索功能:部件检索、笔画检索、偏旁和部首分类检索、词组检索功能。
[0046] 字符是信息表示的基本元素,汉字是一种比较特殊的字符,一般是由基本笔画按照一定的空间关系和构字规范构成偏旁部首,再进一步由偏旁部首根据一定的间架结构布局构成汉字字符,因此,汉字是一种具有层次结构的字符,层结构是汉字的一个基本特征。
[0047] 具体来讲,每一个字符,被表示成为树状结构,也就是构建的多层基本语义联结关系图。叶节点表示构成字符的每一个笔画;叶节点的上一层非叶结点表示构成该字符的偏旁部首,也就是笔画与笔画之间的空间关系;
[0048] 如图3所示的汉字层次表示图中,中心线表示部分;
[0049] 再往上层的非叶结点表示的是字符部件之间的间架结构关系,这部分可能有多个层次来表示部件之间的嵌套关系,而根节点所表示的结构就可以代表这个字符本身。
[0050] 汉字风格的表示与汉字的笔画形状属性有关,也就是和汉字笔画的生成有关,本申请提出了”特征点加权”的汉字笔画生成方案。
[0051] “特征点加权”就是将汉字字形中每一笔画的关键点定义为特征点,将这一特征点的时间、空间和状态属性为权值进行量化计算,得到对应的基本扩展语义分析结果,从而更加准确和真实地反应字形的风格特征。
[0052] S103、基于汉字认知描述库对临时存储的扩展语义信息文档进行对比分析,得到多层扩展语义联结关系图和对应的扩展语义分析结果。
[0053] 具体的,用汉语表征的信息的基本组成部分除了有文本还有字母、数字和图画、图表、图像等多种媒体信息,目前的自然语言处理的研究内容仅仅是在语言层进行计算,对文字之外的其它信息的处理如文档识别、图表识别等内容大都归到模式识别领域。其实,对语言的认知如果能将这些非文本的信息的认知结合起来,一定会促进机器对语言的理解。本申请将这些非文本的模态信息定义为扩展模态,拟将以基本模态为基础,设计针对词组、图形或图表这些扩展模态的的描述算法。
[0054] 扩展模态数据认知描述算法将在基本模态信息表示的基础上增加联结和关系属性,按照图3所示的“汉字图形语义网络层次图”的层次结构进行设计。为了准确描述某一词语的语义,本申请首先找到词语所在的第五层的语义关系集,然后通过在它的上一层(第四层)定义连结集或上二层(第三层)语义定义集中增加扩展语义的描述来得到精确语义理解的目的,和图4对“安全”一词进行语义扩展描述一样,对其它字或词的描述可以使用多级或多层描述机制来实现,例如,对“狗”的语义理解,如果基本模态的描述不能满足认知的需求,则需在扩展模态的各个层中进行认知,只到认知结果满足需求为止。如6所示。
[0055] 其中,汉字认知网络是一个多层次的动态网络,认知网络的每一层都有具体的语义描述。
[0056] 结点关系集:汉字认知网络的最底层——点层,是一个由二元组(V,E)组成的图,其中集合V称为结点集,集合E是V×V的一个子集,成为结点关系集,V={v1,v2,v3,v4,v5,......},E={(v1,v2),(v2,v3),(v3,v4),(v3,v5),(v1,v5),......}。
[0057] 笔画关系集:汉字认知网络的第二层笔画层,它是集合E×E的一个子集。称为笔画关系集。
[0058] 语义定义集:汉字认知网络的第三层是部件层,它是第二层的一个子集,称为语义定义集,这一层是我们研究单字语义的基础。
[0059] 语义连结集:汉字认知网络的第四层是文字层,它是第三层的一个子集,称为语义连结集,这一层是我们研究词语义的基础。
[0060] 语义关系集:汉字认知网络的第五层是词层,它是第四层的一个子集,称为语义关系集,这是我们研究句语义的基础。
[0061] 实体语义集:汉字认知网络的第六层是句子层,它是第五层的一个子集,称为实体语义集,这是我们研究汉字认知网络的基础。
[0062] 基于构建的汉字字形描述库对汉字字符的语义进行编码,其中,本申请将对汉字笔画和部件进行图形分解,并根据部件的语义设计部件和笔画的描述方案,建立基于汉语认知的汉字字形描述库,并在此基础上根据汉字的结构特性设计汉字的语义编码。
[0063] 在扩展模态的认知过程中,需要将汉字抽象为图,要解决两个最基本的问题,一是笔画相连和相交的问题。即什么情况下可以视为笔画相联或相交,什么情况下可以视为笔画不相连不相交。二是部件的分类问题,即哪些可以抽象为图,哪些不能抽象为图。
[0064] 例如,汉字中的“安”字,不论是什么字体,在定义规则之内,都可以抽象成如图5中的图,这里的“图”包括整字图和部件图,如果不考虑汉字书写的规则和顺序,可以将其全部或部分定义为无向图,当然,如果考虑书写顺序和方向,在一定的规则下,也可以抽象为有向图来计算。
[0065] 设有向图G=,V={v1,v2,...,vn},则n阶方阵A=(aij)称为G的邻接矩阵,其中,aij为vi邻接vj的边数。在不考虑结点编序的情形下,图的邻接矩阵是唯一的;一个邻接矩阵可以完全确定一个有向图。
[0066] 因此,可以将汉字以特征点为结点,以特征点之间的连线‑笔元为边,建立汉字图形的邻接矩阵。
[0067] 以无向图为例,在图5中,若视“安”字对应的宝盖头可以由两个无向图D={V1,V2}和B={V3,V4,V5,V6}组成(即两部分相联不相交):对应的邻接矩阵如图3‑7所示。若视完整的宝盖头为一个图(即两部分相联但不相交),则其对应的邻接矩阵A={V1,V2,V3,V4,V5,V6},如图6所示是“安”字宝盖头笔画的邻接矩阵。经过分析这个邻接矩阵与图7的邻接矩阵的区别,本申请发现这个区别是完全可以用数学表达式计算出来的,即相连和相交的关系是可以相互转换的。
[0068] S104、对所述基本语义分析结果和所述扩展语义分析结果进行交差语义分析,得到多层交叉语义联结关系图。
[0069] 具体的,交叉语义分析是将步骤的基本模态的语义分析结果和扩展模型态的语义分析结果进行融合分析。交叉语义分析将产生多层交叉语义联结关系图。
[0070] S105、基于所述多层交叉语义联结关系图对所述多层基本语义联结关系图和所述多层扩展语义联结关系图进行循环语义提取和存储,完成汉字图形网络模型的构建。
[0071] 具体的,循环语义提取。循环语义提取是对交叉语义联结关系图的分析结果再次与所述多层基本语义联结关系图和所述多层扩展语义联结关系图的不同层次进行多级融合,进而提取准确的语义过程。每循环一次产生一级语义,循环多次将产生多级语义。
[0072] 循环语义存储,循环语义存储是将循环语义提取得到的多级语义进行按级存储。这里,就完成了基本的汉字图形网络模型的构建。
[0073] 所述方法还包括:
[0074] 语义甄选。结过多级循环之后的语义信息是在当前的知识库中的语义表达,为了让机器有不断的学习机会,不断的更新学习资源,最后的语义甄选是必要的,在这一过程中,要将得到的多级语义进行转换并与汉字认知描述库之外的其它资源如语料库、知识库或互联网等进行比较。最后生成准确的语义表达。
[0075] 语义输出。语义输出可以是基本的语义文本、也可以是扩展的语义图形,还可以语义描述。语义文本和语义图形的输出算法是一致的,对机器来讲,基于描述库,画出一个汉字和画一副图是一样的道理,而对于语义描述的输出将以语义信息编码的形式存储在语义描述库中,成为永久的知识。
[0076] 本申请中从图形理论出发,首先对汉字字形进行抽象,然后定义特征点集和特征点之间的关系集,进而研究基于特征点与和字、词和句的语义关系,建立多层次的汉字语义网络,并基于这一网络研究汉字字形结构与非结构化数据的语义关系,研究在多模态下的汉语认知、学习和判断的机器机制,解决汉语认知计算中多模态的合成问题,能让多模态下的各个输入能根据认知的需求实现平滑的输出。
[0077] 本发明的一种云端字库的汉字图形网络构建方法,获取云端字库中对应的汉字原始信息,并所述汉字原始信息进行编码转换和临时存储;基于汉字认知描述库对临时存储的基本语义信息文档进行对比分析,得到多层基本语义联结关系图和对应的基本语义分析结果;基于汉字认知描述库对临时存储的扩展语义信息文档进行对比分析,得到多层扩展语义联结关系图和对应的扩展语义分析结果;对所述基本语义分析结果和所述扩展语义分析结果进行交差语义分析,得到多层交叉语义联结关系图;基于所述多层交叉语义联结关系图对所述多层基本语义联结关系图和所述多层扩展语义联结关系图进行循环语义提取和存储,完成汉字图形网络模型的构建,能让多模态下的各个输入能根据认知的需求实现平滑的输出。
[0078] 以上所揭露的仅为本发明一种较佳实施例而已,当然不能以此来限定本发明之权利范围,本领域普通技术人员可以理解实现上述实施例的全部或部分流程,并依本发明权利要求所作的等同变化,仍属于发明所涵盖的范围。