首页 / 一种基于哈希的多标签空间数据集相似性度量方法

一种基于哈希的多标签空间数据集相似性度量方法实质审查 发明

技术领域

[0001] 本申请属于多标签空间数据集样例搜索领域,具体的说是涉及一种基于哈希的多标签空间数据集相似性度量方法。

相关背景技术

[0002] 管理和搜索带有空间属性的数据集是数据集查询这一新兴研究领域中的重要步骤之一。在当今建立智慧城市和智能交通的大环境下,拥有空间信息的数据集,特别是城市公共数据平台中含有的大量带有地理标记的城市设施数据集,提供网页交互式查询服务是非常必要的。目前已有多项针对特定项目的空间数据的搜索系统被开发。对于多标签空间数据集的样例搜索,采用客观的、易于使用数值表示的相似性度量方法以衡量不同的多标签空间数据集之间的相似程度具有极大的重要性。
[0003] 目前已经有多种时空数据集相似度匹配模型被提出,如基于最大外接矩形重叠面积的模型、基于点集的豪斯多夫距离的模型、基于点集生成直方图的推土机距离的模型等。然而,这些方法均存在一些不足之处。例如,最大外接矩形重叠面积模型难以考虑点集在外接数据框内部的分布情况,比较粗粒化;点集的豪斯多夫距离主要考虑边缘端,易受离群点的影响而使结果不精确;生成直方图推土机距离模型的计算具有立方的时间复杂性,计算代价较大、耗时较长。在多标签空间数据集样例搜索的实际应用中,需要相似性度量方法兼顾准确性和快速性,同时考虑数据点集具有的多标签属性。

具体实施方式

[0035] 为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
[0036] 如图1所示,本发明是一种基于哈希的多标签空间数据集相似性度量方法,其特征在于:所述基于哈希的多标签空间数据集相似性度量方法如下步骤:
[0037] 步骤1、数据预处理:给定一个空间数据仓库D={D1,D2,…,Dn},Di∈D为一个带有t个标签的多标签空间数据集Di,找到多标签空间数据Di的位置点的最小外接正方形,根据划θ θ分参数θ,分别将各自的正方形区域划分为2×2 个大小相等的网格,计算网格内的密度分布信息,包括:
[0038] 步骤1.1、根据多标签空间数据集所处地区的地理特征,选择适当的地图投影方法将经纬度坐标转换到平面坐标系中,转换后的坐标将用于后续计算。
[0039] 步骤1.2、参照图2,对于每个多标签空间数据集,确定其地理范围,并计算最小外接矩形,然后,将矩形的宽向两端等距离延长,使之与矩形的长相等,从而得到一个正方形外边框,此正方形应能完全覆盖数据集的未旋转完整轮廓,且不存在更小面积的正方形满足此条件,以外边框的一顶点为坐标原点,建立平面直角坐标系,将所有多标签空间数据集缩放到具有相同的外边框面积,以便于后续操作中的比较,缩放过程保持数据集内各点的相对位置不变,仅调整整体尺寸,将该外边框称为此多标签空间数据集的最小外接正方形。
[0040] 步骤1.3、根据所需的搜索精确程度,使用适当尺寸的网格划分外边框内的区域,划分所得的每个网格均为面积相同的正方形,记录其行列编号,编号自第0行第0列开始。
[0041] 步骤1.4、对于 统计最小外接正方形区域内,多标签空间数据集Di中带有相同标签l且落入第j行第k列网格gi,j,k中的位置点数量 与多标签空间数据集内θ θ
带有标签l的位置点总数量Nil,其中0≤j≤2‑1,0≤k≤2‑1。
[0042] 步骤1.5、参照图3,计算l标签中网格gi,j,k的位置点密度值 计算公式为得到多标签空间数据集Di的标签l在网格中的密度矩阵Ail,遍历全部t个标签从而生成多标签空间数据集Di全部标签中的密度矩阵集合Ai={Ai1,Ai2,…,Ait}。
[0043] 步骤2、类多通道图像生成:每个多标签空间数据集Di的标签对应于一个图像通道,根据计算出的每个标签中网格的密度分布信息,生成对应通道的全部颜色通道值,依据给定标签的权重得到复合通道值,并由此生成类多通道图像Ii;
[0044] 将多标签空间数据集的密度分布信息映射为类多通道图像,具体包括如下步骤:
[0045] 步骤2.1、对于 将l标签中网格gi,j,k的位置点密度值 一一映射为对应通道下的数值 得到该通道的数值矩阵Vil,遍历
生成全部通道的数值矩阵集合Vi={Vi1,Vi2,…,Vit},其中,t为标签总类
数, Ai表示密度矩阵集合。
[0046] 步骤2 .2、得到类多通道图像Ii的第j行第k列网格内的复合通道值其中, 为多标签空间数据集Di的第j行第k列网格的标签l对
应通道的“颜色通道值”,wil为标签l的权重系数;
[0047] 步骤2.3、多标签空间数据集Di中每个网格gi,j,k对应一个类多通道图像Ii的复合θ θ通道值vi,j,k,遍历全部网格,得到类多通道矩阵Mi={vi,j,k|0≤j≤2‑1,0≤k≤2‑1},从而得到类多通道图像Ii,其中,θ表示划分参数。
[0048] 步骤3、哈希字符串生成:将多标签空间数据集Di对应的类多通道图像Ii转换成灰度图像GIi,分别采用均值哈希、差值哈希和感知哈希方法生成多标签空间数据集哈希字符串元组hi,空间数据仓库中的多标签空间数据组成哈希字符串元组集合H。具体包括如下步骤:
[0049] 步骤3.1、将多标签空间数据集Di生成的类多通道图像Ii转换成灰度图像GIi,计算灰度图像GIi的灰度均值μ1,遍历灰度图像GIi的每个像素的灰度值,比较每个像素的灰度值与灰度均值μ1大小关系,若每个像素的灰度值大于等于灰度均值μ1则将其表示为1,若每个像素的灰度值小于灰度均值μ1则将其表示为0,从而采用均值哈希处理的方法得到均值哈希字符串
[0050]
[0051] 如图4所示,在此步骤中,使用均值哈希方法生成多标签空间数据集的均值哈希字符串,具体包括以下步骤:
[0052] 步骤3.1.1、使用公式 对每个网格的复合通道值进行标准二值化;其中,Bij为第i行第j列网格的标准二值化结果,Vij为第i行第j列网格的复合通道值,为所有复合通道值的平均值。
[0053] 步骤3.1.2、将各网格的标准二值化结果按从左往右、从上到下的顺序排列,获得一个仅有字符0和1构成的字符串,即为该数据集对应的均值哈希字符串,公式如下ai×L+j=Bij,其中,L为该多标签空间数据集每一行或每一列的网格数,ai×L+j为均值哈希字符串的第(i×L+j)位,长度为L×L的01字符串 为该数据集对应的均值哈希字符串。
[0054] 该过程可使用公式表示如下:
[0055] ai×L+j=Bij
[0056] 其中,L为该多标签空间数据集每一行或每一列的网格数。
[0057] 步骤3.2、对灰度图像GIi进行离散余弦变换得到离散余弦变换图像,遍历离散余弦变换的每个像素,将每个像素的离散余弦变换系数与离散余弦变换系数平均值μ2进行比较,如果每个像素的离散余弦变换系数大于等于离散余弦变换系数平均值μ2则将其记为1,如果每个像素的离散余弦变换系数小于离散余弦变换系数平均值μ2则将其记为0,从而采用感知哈希处理的方法得到感知哈希字符串
[0058] 如图4所示,在此步骤中,使用感知哈希方法生成多标签空间数据集的感知哈希字符串,具体包括以下步骤:
[0059] 步骤3.2.1、对该多标签空间数据集生成的类多通道图像进行离散余弦变换(DCT),使用二维离散余弦变换公式其中,正交归一化系数
f(i,j)=Vij,F(u,v)为进行离散余弦变换后第u行第v列网格的DCT值,
L为该多标签空间数据集每一行或每一列的网格数;
[0060] 步骤3.2.2、使用公式 对每个网格的复合通道值进行二值化,其中 为DCT系数的平均值。
[0061] 步骤3.2.3、将各网格的二值化结果按从左往右、从上到下的顺序排列,获得一个仅有字符0和1构成的字符串,即为该数据集对应的感知哈希字符串,公式如下pi×L+j=Bij,pi×L+j为感知哈希字符串的第(i×L+j)位,长度为L×L的01字符串 为该数据集对应的感知哈希字符串。
[0062] 该过程可使用公式表示如下:
[0063] pi×L+j=Bij
[0064] 步骤3.3、对类多通道图像Ii逐像素比对相邻像素的像素值差异从而生成哈希值,若当前像素灰度值大于右侧像素灰度值,则记为1,否则为0,由于是两两比较,转换后的矩θ θ阵列数变为2‑1,而行数仍为2,从而采用差值哈希处理的方法得到差值哈希字符串[0065] 如图4所示,在此步骤中个,使用差值哈希方法生成多标签空间数据集的差值哈希字符串,具体包括以下步骤:
[0066] 步骤3.3.1、使用公式 0≤i,jL)对每个网格的复合通道值进行差值二值化,与右侧相邻网格比较,最右侧一列除外;
[0067] 步骤3.3.2、将除了最右侧一列以外的各网格的二值化结果按从左往右、从上到下的顺序排列,获得一个仅有字符0和1构成的字符串,即为该数据集对应的均值哈希字符串,公式如下di×(L‑1)+j=Bij,di×(L‑1)+j为差值哈希字符串的第(i×(L‑1)+j)位,长度为L×(L‑1)的01字符串 为该数据集对应的差值哈希字符串。
[0068] 该过程的公式表示如下:
[0069] di×(L‑1)+j=Bij
[0070] 步骤3.4、生成多标签空间数据集Di哈希字符串元组hi={hi1,hi2,hi3},遍历空间数据仓库中的全部多标签空间数据集,得到哈希字符串元组集合H={h1,h2,…,hn}。
[0071] 步骤4、相似度计算:将用于查询的样例多标签空间数据集De生成样例数据集哈希字符串元组he,对于hi∈H,则两个原始的多标签空间数据集De与Di之间的相似度表示为:
[0072]
[0073] 其中,d1(e,i)为he1与hi1的汉明距离,d2(e,i)为he2与hi2的汉明距离,d3(e,i)为he3与hi3汉明距离,相似度越大则两者之间的相似程度越高,反之则两者相似程度越低。
[0074] 图2中展示了一个多标签空间数据集的外边框,外边框由该多标签空间数据集描述区域外轮廓的最小外接矩形沿宽扩展得到,意味着该数据集内所有空间点均落在外边框内,因此可以通过重合不同多标签空间数据集的外边框来比较其空间点的分布情况。
[0075] 图3中展示了一个三标签空间数据集映射为三通道图像的过程,计算带有各标签的空间点密度值,需要占用较大的存储空间,因此通过计算复合通道值将各密度值按照标签权重高低合并为一个值,节约了较大的存储空间,降低了搜索过程的时间复杂度。
[0076] 图4中展示了一个使用哈希算法生成哈希字符串的过程,均值哈希方法、差值哈希方法、感知哈希方法各自具有不同的优点,不同的多标签空间数据集具有的空间点密度分布特征不同,对于不同的密度分布特征,三种哈希方法生成的哈希字符串的准确性不同,因此通过同时生成三个哈希字符串并对汉明距离取平均值可以减少误差,提高相似度计算的准确度。
[0077] 由此,本发明中,引入二维存储结构来建立密度表示,生成类多通道图像,这一创新方法有效地将空间坐标点集的分布特征进行可视化,使得数据之间的复杂关系更加直观易懂。通过计算汉明距离并求平均值来确定多标签空间数据集之间的相似度,这种方法融合了三种哈希方法的优点,有效减少了单一哈希方法可能带来的偏差,使得相似度计算更加准确可靠。通过本发明,在多标签空间数据集搜索的场景下,本发明提出的算法在维持较低时间复杂度的前提下,显著提高了算法的准确性,这得益于其创新的数据表示方法、高效的哈希策略融合以及精细的加权求和计算。
[0078] 以上所述仅为本发明的实施方式而已,并不用于限制本发明。对于本领域技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原理的内所作的任何修改、等同替换、改进等,均应包括在本发明的权利要求范围之内。

当前第1页 第1页 第2页 第3页
相关技术
度量方法相关技术
数据相似性相关技术
王翌阳发明人的其他相关专利技术