技术领域
[0001] 本申请涉及数据融合领域,尤其涉及一种数据融合的方法以及数据融合设备。
相关背景技术
[0002] 随着移动通信的发展,智能移动终端以及定位服务越来越普及,定位服务对于人、事物、事件均可通过相应的定位系统、传感网、互联网、通信网等泛在网络被赋予准确的时间和空间戳印,在实时动态获取位置坐标、位置属性、位置关系、位置时间特征等多源异构信息的基础上,通过信息融合等处理,建立语义关系一致、统一时空地理关联的位置服务地图,将在公众位置服务、政府部门决策、舆情态势感知、人群行为特性分析、流行病预测等方面发挥至关重要的作用。
[0003] 在定位服务中,兴趣点(Point Of Interest,POI)在地图中表达地理实体及其位置信息(位置坐标、位置属性、位置关系、位置时间特征)。当前,已经存在一套用于POI融合的数据融合系统,该系统的核心技术方案是使用地图分层技术约束计算所涉及POI的候选区域,在选定的候选区域内计算候选者与基础POI的相似度,通过判断相似度评分与预设阈值的关系决定是否进行候选POI的属性融合。
[0004] 但是在使用该套数据融合系统时,在设置数据分层层级和候选半径时,是依据经验设定为固定的层级和半径的,而且是根据人工经验预设的属性相似度权重,当数据源发生改变时,需要人工介绍重新设定权重,无法复用之前的设定。
具体实施方式
[0080] 本申请实施例提供了一种数据融合的方法以及数据融合设备,用于通过对数据进行机器学习确定数据融合所需要的属性权重,并使用该属性权重对POI进行数据融合。
[0081] 为了使本技术领域的人员更好地理解本申请实施例方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。
[0082] 本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
[0083] 在本申请实施例中的方法应用在在一台或多台数据融合设备中,该数据融合设备可以为终端或服务器,通过软件和/或硬件实现获取数据、数据训练和数据融合判断的过程。以服务器为例,请参考图1,是本申请实施例提供的一种服务器结构示意图,本申请实施例中由服务器所执行的步骤可以基于该图1所示的服务器结构。
[0084] 该服务器100可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上中央处理器(central processing units,CPU)122(例如,一个或一个以上处理器)和存储器132,一个或一个以上存储应用程序142或数据144的存储介质130(例如一个或一个以上海量存储设备)。其中,存储器132和存储介质130可以是短暂存储或持久存储。存储在存储介质130的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对服务器中的一系列指令操作。更进一步地,中央处理器122可以设置为与存储介质130通信,在服务器100上执行存储介质130中的一系列指令操作。
[0085] 服务器100还可以包括一个或一个以上电源126,一个或一个以上有线或无线网络接口150,一个或一个以上输入输出接口158,和/或,一个或一个以上操作系统141,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM等等。
[0086] 随着移动通信的发展,智能移动终端以及定位服务越来越普及,定位服务对于人、事物、事件均可通过相应的定位系统、传感网、互联网、通信网等泛在网络被赋予准确的时间和空间戳印。在定位服务中,兴趣点(Point Of Interest,POI)在地图中表达地理实体及其位置信息(位置坐标、位置属性、位置关系、位置时间特征)。
[0087] 当前,已经存在一套用于POI融合的数据融合系统,该系统的核心技术方案是使用地图分层技术约束计算所涉及POI的候选区域,在选定的候选区域内计算候选者与基础POI的相似度,通过判断相似度评分与预设阈值的关系决定是否进行候选POI的属性融合。
[0088] 但是在使用该套数据融合系统时,在设置数据分层层级和候选半径时,是依据经验设定为固定的层级和半径的,而且是根据人工经验预设的属性相似度权重和相似度评分阈值的,当数据源发生改变时,需要人工介绍重新设定权重和阈值,无法复用之前的设定。
[0089] 在本申请实施例中,由于n个属性权重是通过获取POI数据库,并用于进行第一数据训练得到的,该n个属性权重可以用于判断是否对两个POI进行数据融合,因此当数据增多或者有所改变时,可以自动调节n个属性权重,不需要通过人工进行设定,减轻了人力的工作量。
[0090] 为便于理解,下面对本申请实施例中的具体流程进行描述,请参阅图2,本申请实施例提供的一种数据融合的方法,其特征在于,包括:
[0091] 201、获取POI数据库,该POI数据库包括POI集合中各个POI的n个属性数据,该n为正整数。
[0092] 在本申请实施例中,兴趣点(Point Of Interest,POI)指的是电子地图上的某个地标、景点,用以标示出该地所代表的政府部门、各行各业之商业机构(如加油站、百货公司、超市、餐厅、酒店、便利商店、医院等)、旅游景点(如公园、公共厕所等)、古迹名胜、交通设施(如各式车站、停车场、超速照相机、速限标示)等处所。在本申请实施例中,POI数据是基于位置服务的最核心数据,在电子地图上运用场景广泛,可用于如导航前选择的目的地、查看周边的餐馆等。
[0093] 需要说明的是,POI数据将人、事物、事件通过相应的定位系统、传感网、互联网、通信网等泛在网络被赋予准确的时间和空间戳印,在实时动态获取位置坐标、位置属性、位置关系、位置时间特征等多源异构信息上。
[0094] 以北京市区POI数据库为例,该北京市区POI数据库包含了北京城区中16000POI集合数据,POI名称有汉字和拼音两种版本,这些POI数据可以传输到GPS中,以使得支持POI的终端可以通过GPS查询到需要的POI以及相关的数据。
[0095] 但是由于不同来源的POI数据在数据结构上、组织形式等方面存在差异,而且各自的内容、完善程度、侧重点或覆盖范围等方面也存在较大的差异,需要通过POI之间的数据融合实现来源不同的POI信息的融合,通过歧义消除,建立语义关系一致、统一时空地理关联的位置服务地图,即POI数据融合,以获得逻辑一致的、结构相同的、内容更丰富的、覆盖范围更广的POI信息,进而实现数据复用,并使得POI技术在公众位置服务、政府部门决策、舆情态势感知、人群行为特性分析、流行病预测等方面发挥作用。
[0096] 需要说明的是,在POI数据融合的过程中,基础POI作为融合数据的基础,将外来数据融入,而待融合POI为融合数据的外来源,作为被融入的一方,当两个POI进行POI数据后,可以将这两个POI视为同一个POI。如基础POI集合包括5个基础POI,分别是P1、P2、P3、P4和P5,而待融合POI集合包括5个待融合POI,分别是P’1、P’2、P’3、P’4和P’5,若通过P1和P’1的属性数据发现P1和P’1的相似度很高,高于阈值,则可以认为P1和P’1为同一个POI,则将P’1融合进P1的属性数据中。若P2和P3分别与P’2、P’3的相似度也高于阈值,则将P’2和P’3分别融合进P2和P3的属性数据中,而P4、P5分别P’4和P’5的相似性不高于阈值,则确定P4和P’4不是同一个POI,P5和P’5也不是同一个POI,则通过POI数据融合后,新的基础POI集合有12个POI,分别是P1、P2、P3、P4、P5、P’4和P’5。
[0097] 在本申请实施例中,可以获取POI数据库,该POI数据库包括POI集合中各个POI的n个属性数据,其中,n为正整数。在本申请实施例中,属性数据可以为该POI的别名、营业时间、人均费用、电话号码、地址等信息,n个属性数据为预先设置的n个重要信息,作为判断两个POI是否为同一个POI的依据。在一些可行的实施例中,该POI数据库中的POI集合可以包括待融合POI集合和/或基础POI集合,其中,该待融合POI集合中的POI为被融合的POI,基础POI集合中的POI为融合外部数据的POI,此处不做限定。
[0098] 202、对该POI数据库进行第一数据训练,得到n个属性权重。
[0099] 在本申请实施例中,当获取到POI数据库后,可以对该POI数据库中的数据进行第一数据训练,以求得n个属性权重,n个属性可以包括空间位置、名称、地址和电话号码,该n个属性权重用于计算2个POI的相似性分数,该2个POI的相似性分数用于判断两个POI是否需要进行数据融合。
[0100] 具体的,本申请首先对该POI数据库中的POI集合的n个属性数据进行提取特征向量,如POI集合包括P1、P2、P3、P4和P5,分别获取每一个POI的n个属性数据,并提取特征向量,则得到5个特征向量,分别为P1、P2、P3、P4和P5的特征向量。当作为训练数据的特征向量制作完成之后,将全部训练向量送入预设的逻辑回归分类系统进行权重训练,完成权重训练后,得到n个属性权重,作为判别融合模型的特征因子存储,留作融合数据生产过程使用。
[0101] 例如,假设上述POI均有2个属性,分别是S1和S2,任意两个POI数据,如第一POI的数据和第二POI的数据,第一POI的数据的2个属性的值分别是a1和a2,第二POI的数据的2个属性的值分别是b1和b2,其中S1(a1,b1)为该第一POI和该第二POI的改与属性S1的相似性分数,S2(a2,b2)为该第一POI和该第二POI的改与属性S2的相似性分数。
[0102] 在本申请实施例中,对于两个POI的各个属性特征可以采用以下方法计算:
[0103] 空间位置相似度,先计算两POI之间的欧氏距离,然后将该距离与该类型POI的搜索半径的比率作为空间位置相似度。
[0104] 名称相似度,首先通过LCS算法计算两个POI的名称属性的最长公共子串,然后将该子串的长度与两POI名称中长度最短的名称长度之比率作为名称相似度。地址相似度的计算方法与名称相似度的算法类似,只是参与计算的属性是地址而不是名称。
[0105] 电话号码相似度,首先对电话号码进行分类,识别是手机号码或座机号码,若是手机号码,判断两字符串是否相同,相同则为相似度为1,否则为0;若是座机,则将电话号码拆分为区号与电话号码两段,然后分别比较两POI的电话号码属性,若相同则为相似度为1,否则为0。
[0106] 假设属性权重分别是s1和s2,则逻辑回归函数为:
[0107] 1,若s1*S1(a1,b1)+s2*S2(a2,b2)≥w;
[0108] y=
[0109] 0,若s1*S1(a1,b1)+s2*S2(a2,b2)<w。
[0110] 其中,w为预设值。
[0111] 然后,以待融合POI集合中的任意两个POI的属性数据带入该逻辑回归函数,最后得到s1和s2的值。
[0112] 以上所述,以只有2个属性为例进行说明,若以n个属性数据的情况为例,计算方式类似,为:
[0113] 1,若s1*S1(a1,b1)+s2*S2(a2,b2)+…+sn*Sn(an,bn)≥w;
[0114] y=
[0115] 0,若s1*S1(a1,b1)+s2*S2(a2,b2)+…+sn*Sn(an,bn)<w。
[0116] 其中,w为预设值,此处不做赘述。
[0117] 203、获取基础POI数据库,该基础POI数据库包括基础POI集合中各个基础POI的n个属性数据。
[0118] 在本申请实施例中,当需要进行POI数据融合时,且已经获取了POI数据库以及进行第一数据训练得到n个属性权重后,可以获取基础POI数据库,该基础POI数据库包括基础POI集合中各个基础POI的n个属性数据。在POI数据融合过程中,基础POI作为融合数据的基础,当需要融合某个基础POI,将该基础POI视为目标基础POI,确定该目标基础POI与待融合POI通过n个属性权重进行计算,判断两者是否需要进行数据融合。
[0119] 204、对该基础POI数据库进行第二数据训练,得到该基础POI集合中各个基础POI所对应的搜索半径。
[0120] 在本申请实施例中,对于目标基础POI,若对待融合POI集合中的所有POI都进行相似性分数的计算,则会有巨大的计算量,因此,本申请实施例可以通过确定搜索半径,在通过该搜索半径确定与该目标基础POI进行POI数据融合的待融合POI。
[0121] 在本申请实施例中,可以基于基础POI数据中不同类型POI的空间分布特性,使用空间聚类算法学习数据的空间聚集性,再通过搜索半径生成算法将与POI类型相关的空间分布特性反映到用于数据过滤的搜索半径数值中。(空间聚集性是指POI数据在空间位置分布上的特性,POI之间相互靠近分布,或者相互发散型分布)
[0122] 具体的,在本申请实施例中,可以通过以下步骤进行处理,得到每个基础POI所对应的搜索半径:
[0123] 1、根据该基础POI集合中各个基础POI的POI类型为该基础POI集合进行分组,得到m组基础POI。
[0124] 在一些可行的实施例中,不同类型的POI在数据分布上存在明显的区别,例如餐饮类POI通常分布较为聚集,两POI之间的距离较小,在选择候选POI时,可以从较小的数据区块中选取,同时数据选择半径可以使用较小的半径进行数据过滤。因此,在本申请实施例中,首先将基础POI集合中的POI按照类别分为若干组,得到m组基础POI,其中,在同一组的基础POI的类型相同,该m为正整数。
[0125] 2、对于该m组基础POI中的任意一组基础POI-A组,对该A组进行空间聚类分析,得到p个分布簇,该p为正整数,其中每一分布簇包括至少两个POI。
[0126] 在一些可行的实施例中,同类的POI可能会分别聚集在多个小区域,则可以通过使用空间聚类分析,将数据划分为p个分布簇,其中每一分布簇包括至少两个POI,并以该p个分布簇为依据,确定各个POI的搜索半径。需要说明的是,在空间密度聚类算法中,聚类算法(Density-Based Spatial Clustering of Applications with Noise,DBSCAN)是代表且性能效果最优的算法。
[0127] 3、对于该p个分布簇中的任意一个分布簇p1,计算该分布簇p1中的任意2个POI之间的距离作为跨度,得到该分布簇p1的跨度集合,以该跨度集合中最大数值作为该分布簇p1的簇内跨度。
[0128] 然后在每一个簇内部计算每一个POI的最小跨度,最小跨度是通过计算基础POI与簇内其它任意一个POI的距离,并取其最小值得到的。如,如该簇p1有基础POI,分别是P1、P2、P3、P4和P5,对于P1,分别计算P1和P2,P1和P3,P1和P4,P1和P5的距离,并取得最小值,如最小值是P1和P2的距离,那么P1和P2的距离为P1的最小跨度。同样的方法分别计算P2、P3、P4和P5的最小跨度,得到该分布簇p1的跨度集合,在本申请实施例中,可以将该跨度集合中的最大数值作为该分布簇p1的簇内跨度。
[0129] 4、以该A组中各个分布簇的簇内跨度作为簇内跨度集合,根据该簇内跨度集合确定该m1组中的各个基础POI所对应的该搜索半径。
[0130] 当确定了A组中各个分布簇的簇内跨度集合后,可以根据该簇内跨度集合确定该A组中的各个基础POI所对应的该搜索半径。具体的,可以以较为集中的簇内跨度的数值作为该搜索半径,也可以以该簇内跨度集合中所有簇内跨度的平均数或中位数作为搜索半径,在一些可行的实施例中,也可以将该簇内跨度集合中的素有簇内跨度除以10后取整,再乘以10,取其中的众数作为搜索半径,此处不做限定。
[0131] 在此,则确定了一类(一组)POI都有一种搜索半径,在一些可行的实施例中,也可以确定每一个POI都有一个独特的搜索半径,如一个POI与簇内的其他POI的距离的平均值/中位数,此处不做限定。然后通过搜索半径生成算法在聚集簇内部及各们聚集簇之间寻找适合该类型POI的搜索半径,并将POI类型及相应的搜索半径匹配进行存储,供后续步骤使用。
[0132] 需要说明的是,步骤201中的POI数据库和步骤203中的基础数据库可以是不同的POI数据库,上面实施例只是给出了两个POI数据库是相同数据的一个示例,具体步骤执行步骤可参见上面实施例,此处不再赘述;上面实施例中的基础POI数据库和该待融合POI数据库可以来自相同的POI数据库,也可以来自不同的POI数据库,如第一厂商生产的第一POI数据库包括基础POI数据库,第二厂商生产的第二POI数据库包括待融合POI数据库,此处不做限定。
[0133] 205、确定基础POI集合中的目标基础POI,获取待融合POI数据,该待融合POI数据包括该待融合POI集合中各个待融合POI的n个属性数据,根据该目标基础POI的搜索半径和该待融合POI数据从该待融合POI集合中选取该第一待融合POI。
[0134] 在本申请实施例中,当确定了各个基础POI的对应的搜索半径后,可以根据该搜索半径确定待融合POI,如目标基础POI,根据对应的搜索半径确定第一待融合POI。
[0135] 具体的,首先可以根据该目标基础POI的搜索半径确定目标尺寸的地理散列geohash索引,然后根据该目标基础POI的位置和该目标尺寸的geohash索引确定该目标基础POI所在的网格和周边网格。
[0136] 需要说明的是,GeoHash就是一种将经纬度转换成字符串的方法,并且使得在大部分情况下,字符串前缀匹配越多的距离越近,如根据所在位置查询来查询附近餐馆时,只需要将所在位置经纬度转换成GeoHash字符串,并与各个餐馆的GeoHash字符串进行前缀匹配,匹配越多的距离越近。
[0137] 例如,比如北京9个区域的GeoHash字符串,分别是WX4ER,WX4G2、WX4G3等等,每一个字符串代表了某一矩形区域,即一个矩形区域内所有的点(经纬度坐标)都共享相同的GeoHash字符串,由于这些用户的GeoHash字符串都是WX4ER,所以可以把WX4ER当作key,把该区域的餐馆信息当作value来进行缓存。需要说明的是,字符串越长,表示的范围越精确,如5位的编码能表示10平方千米范围的矩形区域,而6位编码能表示更精细的区域(约0.34平方千米)。另外,字符串相似的表示距离相近,这样可以利用字符串的前缀匹配来查询附近的POI信息。如不同的位置分布在城区和郊区,其中,城区的GeoHash字符串之间比较相似,郊区的字符串之间也比较相似,而城区和郊区的GeoHash字符串相似程度要低些。
[0138] 在本申请实施例中,对于目标基础POI,可以根据该目标基础POI的搜索半径与预设的分层判别阈值做对比,该分层判别阈值可以为几个预设的值,分别对应不同的编码,如7位编码,8位编码或9位编码。如搜索半径为0-19米,则使用9位编码,如搜索半径为19-60米的距离,则使用8位编码,此处不做限定。获取Geohash周边数据的方法为:通过基础POI的经纬度坐标计算相应的Geohash编码,然后通过Geohash编码相邻算法获取该编码周边相邻的
8个区域的编码,以这9个编码为索引在索引表中搜索相应区域中的POI作为该目标基础POI所在的网格和周边网格中的该待融合POI集合中的POI,得到候选POI集合,则可以选择该候选POI集合中与该目标基础POI的相似性分数最高的POI作为该第一待融合POI,可以选择全都均为该第一待融合POI,此处不做限定。
[0139] 206、根据该n个属性权重、该目标基础POI的n个属性数据和该第一待融合POI的n个属性数据计算目标基础POI和第一待融合POI的相似性分数,该第一待融合POI为该待融合POI集合中的一个。
[0140] 在本申请实施例中,当确定了目标基础POI和第一待融合POI后,可以分别提取该目标基础POI的n个属性数据和该第一待融合POI的n个属性数据的特征向量,得到该目标基础POI的特征向量和该第一待融合POI的特征向量,使用该n个属性权重对该目标基础POI的特征向量和该第一待融合POI的特征向量进行加权,得到该目标基础POI的特征向量和该第一待融合POI的相似性分数。
[0141] 本申请实施例通过使用基于空间聚类和二元分类技术形成一种参数自动学习的方法,得到各个基础POI所对应的搜索半径和n个属性权重,从而提升数据融合处理的速度和准确度,增强数据融合方法对多种数据源的适应能力。
[0142] 207、若该目标基础POI的特征向量和该第一待融合POI的相似性分数在该预设范围内,则将该目标基础POI和该第一待融合POI进行数据融合。
[0143] 208、若该目标基础POI的特征向量和该第一待融合POI的相似性分数不在该预设范围内,则确定该目标基础POI和该第一待融合POI不进行数据融合。
[0144] 在本申请实施例中,当计算了目标基础POI和该第一待融合POI的相似性分数后,根据预设范围确定该目标基础POI和该第一待融合POI是否进行数据融合,若该目标基础POI的特征向量和该第一待融合POI的相似性分数在预设范围内,则进行数据融合,否则,不进行数据融合,且标记该目标基础POI和该第一待融合POI进行为不融合。如相似性分数在0-100分之间,那么可以设置预设范围为80-100分,若相似性分数在80-100分之间,则确定为该目标基础POI的特征向量和该第一待融合POI的相似性分数在该预设范围之内,则可以将该目标基础POI和该第一待融合POI进行数据融合,即该目标基础POI和该第一待融合POI视为同一个POI,则可以从POI配对中选取优质属性作为属性融合后的属性值保留;否者确定该目标基础POI的特征向量和该第一待融合POI的相似性分数不在该预设范围内,即该目标基础POI和该第一待融合POI视为两个不同的POI。在一些可行的实施例中,还可以将相似性分数设置为0-100%,预设范围为80%-100%或70%-100%,此处不做限定。
[0145] 在一些可行的实施例中,还可以通过计算多个待融合POI与该目标基础POI的相似性分数,取其中相似性分数在于预设范围中的POI作为第一待融合POI。若其相似性分数在于预设范围中的POI数量较多,则可以取最高值的一个或若干个或一定比例的(如20%)待融合POI与该目标基础POI进行数据融合,此处不做限定。
[0146] 在本申请实施例中,由于n个属性权重是通过获取POI数据库,并用于进行第一数据训练得到的,该n个属性权重可以用于判断是否对两个POI进行数据融合,因此当数据增多或者有所改变时,可以自动调节n个属性权重,不需要通过人工进行设定,减轻了人力的工作量。
[0147] 请参考图13,本申请实施例还提供了一种数据融合的方法,包括:
[0148] 1301、获取POI数据库,该POI数据库包括POI集合中各个POI的n个属性数据,该n为正整数。
[0149] 本步骤与上述步骤201相同,此处不再赘述。
[0150] 1302、对该POI数据库进行第一数据训练,得到n个属性权重,该n个属性权重用于计算2个POI的相似性分数,该2个POI的相似性分数用于确定是否将该2个POI进行数据融合,该n个属性权重与POI的n个属性数据一一对应。
[0151] 在本申请实施例中,当获取到POI数据库后,可以对该POI数据库中的数据进行第一数据训练,以求得n个属性权重,n个属性可以包括空间位置、名称、地址和电话号码,该n个属性权重用于计算2个POI的相似性分数,该2个POI的相似性分数用于判断两个POI是否需要进行数据融合。
[0152] 1、提取该POI数据库中POI集合中各个POI的特征向量,得到特征向量集合。
[0153] 具体的,本申请首先对该POI数据库中的POI集合的n个属性数据进行提取特征向量,如POI集合包括P1、P2、P3、P4和P5,分别获取每一个POI的n个属性数据,并提取特征向量,则得到5个特征向量,分别为P1、P2、P3、P4和P5的特征向量。当作为训练数据的特征向量制作完成之后,将全部训练向量送入预设的逻辑回归分类系统进行权重训练,完成权重训练后,得到n个属性权重,作为判别融合模型的特征因子存储,留作融合数据生产过程使用。
[0154] 例如,假设上述POI均有2个属性,分别是S1和S2,任意两个POI数据,如第一POI的数据和第二POI的数据,第一POI的数据的2个属性的值分别是a1和a2,第二POI的数据的2个属性的值分别是b1和b2,其中S1(a1,b1)为该第一POI和该第二POI的改与属性S1的相似性分数,S2(a2,b2)为该第一POI和该第二POI的改与属性S2的相似性分数。
[0155] 在本申请实施例中,对于两个POI的各个属性特征可以采用以下方法计算:
[0156] 空间位置相似度,先计算两POI之间的欧氏距离,然后将该距离与该类型POI的搜索半径的比率作为空间位置相似度。
[0157] 名称相似度,首先通过LCS算法计算两个POI的名称属性的最长公共子串,然后将该子串的长度与两POI名称中长度最短的名称长度之比率作为名称相似度。地址相似度的计算方法与名称相似度的算法类似,只是参与计算的属性是地址而不是名称。
[0158] 电话号码相似度,首先对电话号码进行分类,识别是手机号码或座机号码,若是手机号码,判断两字符串是否相同,相同则为相似度为1,否则为0;若是座机,则将电话号码拆分为区号与电话号码两段,然后分别比较两POI的电话号码属性,若相同则为相似度为1,否则为0。
[0159] 2、将该特征向量集合代入预先构建的逻辑回归分类模型,得到该n个属性权重。
[0160] 假设属性权重分别是s1和s2,则逻辑回归函数为:
[0161] 1,若s1*S1(a1,b1)+s2*S2(a2,b2)≥w;
[0162] y=
[0163] 0,若s1*S1(a1,b1)+s2*S2(a2,b2)<w。
[0164] 其中,w为预设值。
[0165] 然后,以待融合POI集合中的任意两个POI的属性数据带入该逻辑回归函数,最后得到s1和s2的值。
[0166] 以上所述,以只有2个属性为例进行说明,若以n个属性数据的情况为例,计算方式类似,为:
[0167] 1,若s1*S1(a1,b1)+s2*S2(a2,b2)+…+sn*Sn(an,bn)≥w;
[0168] y=
[0169] 0,若s1*S1(a1,b1)+s2*S2(a2,b2)+…+sn*Sn(an,bn)<w。
[0170] 其中,w为预设值,此处不做赘述。
[0171] 需要说明的是,对步骤201-201或步骤201-202、205-208中的具体执行方法,以及步骤204-204或步骤204-208中对各个基础POI的搜索半径的计算方法,可以作为单独实施例进行保护,具体方法步骤可以参见图2对应实施例的描述,此处不在赘述。
[0172] 以上对一种下行信号发送的方法进行了描述,以下对相关的基站进行描述,请参考图3,为一种数据融合设备300,包括:
[0173] 获取模块301,用于获取n个属性权重、目标基础POI的n个属性数据和第一待融合POI的n个属性数据,该n个属性权重为通过对POI数据库进行第一数据训练得到的,该POI数据库包括POI集合中各个POI的n个属性数据,该n为正整数。
[0174] 计算模块302,用于根据该n个属性权重、该目标基础POI的n个属性数据和该第一待融合POI的n个属性数据,计算该目标基础POI和该第一待融合POI的相似性分数。
[0175] 数据融合模块303,用于若该目标基础POI的特征向量和该第一待融合POI的相似性分数在预设范围内,则将该目标基础POI和该第一待融合POI进行数据融合。
[0176] 请参考图4,在一些可行的实施例中,该获取模块301包括:
[0177] POI数据库获取子模块3011,用于获取该POI数据库。
[0178] 第一数据训练子模块3012,用于对该POI数据库进行该第一数据训练,得到该n个属性权重。
[0179] 在一些可行的实施例中,该第一数据训练子模块3012具体用于,提取该POI数据库中POI集合中各个POI的特征向量,得到特征向量集合,将该特征向量集合代入预先构建的逻辑回归分类模型,得到该n个属性权重。
[0180] 在一些可行的实施例中,该POI数据库包括基础POI数据库和待融合POI数据库,该POI集合包括基础POI集合和待融合POI集合,该基础POI数据库包括该基础POI集合中各个POI的n个属性数据,该待融合POI数据库包括待该融合POI集合中各个POI的n个属性数据。
[0181] 请参考图5,在一些可行的实施例中,该基础POI集合包括该目标基础POI,该获取模块301,还用于获取该基础POI数据库,该基础POI数据库包括该基础POI集合中各个基础POI的n个属性数据,该数据融合设备300还包括第二数据训练模块304,用于对该基础POI数据库进行第二数据训练,得到该基础POI集合中各个基础POI所对应的搜索半径。
[0182] 请参考图6,在一些可行的实施例中,该第二数据训练模块304包括:
[0183] 分组子模块3041,用于根据该基础POI集合中各个基础POI的类型为该基础POI集合进行分组,得到m组基础POI,其中,在同一组的基础POI的类型相同,该m为正整数。
[0184] 确定子模块3042,用于对于该m组基础POI中的任意一组A组,根据该A组中POI的密集程度确定该A组中各个POI所对应的搜索半径。
[0185] 在一些可行的实施例中,该确定子模块3042,具体用于对该A组进行空间聚类分析,得到p个分布簇,该p为正整数,其中每一分布簇包括至少两个POI,对于该p个分布簇中的任意一个分布簇p1,计算该分布簇p1中的任意2个POI之间的距离作为跨度,得到该分布簇p1的跨度集合,以该跨度集合中最大数值作为该分布簇p1的簇内跨度,以该A组中各个分布簇的簇内跨度作为簇内跨度集合,根据该簇内跨度集合确定该A组中的各个基础POI所对应的搜索半径。
[0186] 请参考图7,在一些可行的实施例中,该待融合POI集合包括该第一待融合POI,该获取模块,还用于获取该待融合POI数据库,该待融合POI数据库包括该待融合POI集合中各个待融合POI的n个属性数据,该数据融合设备300还包括选取模块305,用于根据该目标基础POI库的搜索半径和该待融合POI数据从该待融合POI集合中选取POI作为该第一待融合POI。
[0187] 在一些可行的实施例中,该选取模块305,具体用于根据该目标基础POI的搜索半径确定目标尺寸的地理散列geohash索引,根据该目标基础POI的位置和该目标尺寸的geohash索引确定该目标基础POI所在的网格和周边网格,确定该目标基础POI所在的网格和周边网格中的该待融合POI集合中的POI,得到候选POI集合,以该候选POI集合中与该目标基础POI的相似性分数在预设范围内POI作为该第一待融合POI。
[0188] 请参考图8,在一些可行的实施例中,该计算模块302包括:
[0189] 特征向量子模块3021,用于分别提取该目标基础POI的n个属性数据和该第一待融合POI的n个属性数据的特征向量,得到该目标基础POI的特征向量和该第一待融合POI的特征向量。加权子模块3022,用于使用该n个属性权重对该目标基础POI的特征向量和该第一待融合POI的特征向量进行加权,得到该目标基础POI的特征向量和该第一待融合POI的相似性分数。
[0190] 在一些可行的实施例中,该数据融合模块303,还用于若该目标基础POI的特征向量和该第一待融合POI的相似性分数不在该预设范围内,则确定该目标基础POI和该第一待融合POI不进行数据融合。
[0191] 请参考图9,本申请实施例还提供了一种数据融合设备400,包括:
[0192] 获取模块401,用于获取POI数据库,该POI数据库包括POI集合中各个POI的n个属性数据,该n为正整数。
[0193] 第一数据训练模块402,用于对该POI数据库进行第一数据训练,得到n个属性权重,该n个属性权重用于计算2个POI的相似性分数,该2个POI的相似性分数用于确定是否将该2个POI进行数据融合。
[0194] 请参考图10,在一些可行的实施例中,该第一数据训练模块402包括:
[0195] 特征向量提取子模块4021,用于提取该POI数据库中POI集合中各个POI的特征向量,得到特征向量集合。
[0196] 逻辑回归模块子模块4022,用于将该特征向量集合代入预先构建的逻辑回归分类模型,得到该n个属性权重。
[0197] 请参考图11,本申请实施例还提供了一种数据融合设备500,包括:
[0198] 处理器501和存储器502。
[0199] 该存储器502,用于存储程序,该处理器501调用该存储器存储的程序,用于执行:
[0200] 获取POI数据库,该POI数据库包括POI集合中各个POI的n个属性数据,该n为正整数。对该POI数据库进行第一数据训练,得到n个属性权重,该n个属性权重用于计算2个POI的相似性分数,该2个POI的相似性分数用于确定是否将该2个POI进行数据融合。
[0201] 请参考图12,本申请实施例还提供了一种数据融合设备600,包括:
[0202] 处理器601和存储器602。
[0203] 该存储器602,用于存储程序,该处理器601调用该存储器存储的程序,用于执行:
[0204] 获取POI数据库,该POI数据库包括POI集合中各个POI的n个属性数据,该n为正整数。对该POI数据库进行第一数据训练,得到n个属性权重,该n个属性权重用于计算2个POI的相似性分数,该2个POI的相似性分数用于确定是否将该2个POI进行数据融合。
[0205] 在一些可行的实施例中,该处理器调用该存储器存储的程序,具体用于执行:
[0206] 提取该POI数据库中POI集合中各个POI的特征向量,得到特征向量集合。
[0207] 将该特征向量集合代入预先构建的逻辑回归分类模型,得到该n个属性权重。
[0208] 在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。
[0209] 所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
[0210] 在本申请所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
[0211] 所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
[0212] 另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
[0213] 所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
[0214] 以上所述,以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。