技术领域
[0001] 本申请属于互联网技术领域,尤其涉及一种区域划分方法和服务器。
相关背景技术
[0002] 在对某一区域(例如一个城市)的商户进行数据分析或者业务推广时,常常需要先根据该区域中商户的基本信息,将该区域中的商户划分成多个不同的类型区域(例如XX商业区或者YY商业圈),进而以类型区域作为分析处理的单位,分别对不同类型区域中的商户进行相应的数据分析,或者选取某一个或多个类型区域的商户进行集中的、有针对性的业务推广。例如,可以根据商户所处的位置信息,将A市中的所有的商户划分别分进多个商业区域,进而可以根据需要,提取某几个感兴趣的商业区域(例如位置在一环以内的商业区,或者商业化程度较高的中心商业圈)中的商户信息,并对所提取的商业区域中的商户的销售、运营情况进行具体分析,以便对上述商业区域中的商户集中开展有针对性的业务拓展。
[0003] 目前,为了将某一区域中的商户划分成多个不同的类型区域,通常需要依靠技术人员基于自身对该区域的认识,通过人工标记围栏的方式来划定出不同的类型区域。具体的,现有方法在实施时,技术人员会根据自身对该区域地理、环境的知识储备,在地图上划分出多个不同区域,再根据所划分区域中的地标或街道,人为地对所划分的区域进行命名或标识。因此,现有方法具体实施时,工作量相对较大,且需要占用大量的人力成本,处理效率相对较低、实施成本较高。此外,现有方法在实施过程中受技术人员自身的认知和主观想法的影响相对较大,导致不同的技术人员基于不同的认知想法在划定区域时势必会出现差异。
[0004] 针对上述问题,目前尚未提出有效的解决方案。
具体实施方式
[0020] 为了使本技术领域的人员更好地理解本申请中的技术方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
[0021] 考虑到目前为了对目标区域中的目标对象(例如一个城市中的餐厅、服装店、KTV等)进行区域划分,大多是采取以下方式进行区域划分:技术人员基于自身对目标区域地理、环境的认识,在地图上划分出不同的区域,再根据所划分的区域中的地标或街道,人为地确定各个区域的具体区域特征,进而进行相应命名。分析上述方法在实现过程中需要大量地依靠技术人员自身的知识和经验,因此对划分区域的技术人员的素质要求相对较高,即要求进行区域划分的技术人员需要对待划分的目标区域的地理、环境等特征非常熟悉。此外,现有方法在实现过程中需要通过技术人员人工标记围栏来划分区域,导致工作量相对较大,且会占用大量的人力和时间,进而会出现处理效率较低、实施成本较高技术问题。
[0022] 针对现有方法产生上述问题的根本原因,本申请考虑可以设计一种通过机器而不是依赖人,自动对待划分的目标区域中的目标对象的地址文本信息进行分析,并从目标对象的地址文本信息中提取出能够有效指示目标对象所在的子区域的区域特征的特征字符串对该子区域进行标识,以区分其他的子区域,从而完成对目标区域中多区域的精细划分,解决了现有方法由于需要依赖人工标记导致的处理效率低、实施成本高的技术问题。
[0023] 基于上述考虑,本申请实施例提供了一种区域划分方法,可以使得机器(例如计算机等)先将目标区域划分为多个子区域;再分别确定当多个子区域中的各个子区域所包含的目标对象;获取各个子区域中的各个目标对象的地址文本信息;再从当各个子区域中的各个目标对象的地址文本信息中提取特征字符串,并将特征字符串确定为对应子区域的区域标识,从而完成对目标区域的区域划分。
[0024] 在一个具体的场景示例中,参阅图1所示。A公司在对B市进行业务拓展时,想要先确定出B市中规模较大的几个商业圈,再对上述商业圈中的商户进行具体的商户进行针对性的业务拓展。例如,仅选择提取上述商业圈中的商户的信息数据进行集中性的数据分析,继而根据数据分析结果,有针对性性地拜访上述商业圈中的商户,以开展进一步的业务工作。
[0025] 目前,A公司负责区域划分的技术人员是刚来到B市的,对B市的地理、环境、商业等状况都不是十分熟悉。这时如果要求该技术人员采用现有的区域划分方法进行区域划分显然是不现实的,势必会造成大量的时间和人力资源的浪费,并且由于该技术人员本身对B市不熟悉,在划分区域以及区域标识的过程也极容易产生偏差。在上述情况下,对于A公司而言亟需一种能够不依赖技术人员的自身的认知,不需要通过人工标记围栏来划分,而是能够直接利用已知的数据,通过机器自动地根据B市中的商户的信息数据,高效、精细地进行区域划分的方法。
[0026] 具体实施时,A公司可以先对B市(即目标区域)进行子区域划分,将目标区域划分为多个子区域,以便后续处理时,可以以单个子区域作为具体的处理单元,进而分别对各个子区域中的商户(即目标对象)的信息数据进行统计分析,完成对目标区域的划分,以及商圈的划定。
[0027] 具体的,可以对目标区域进行网格划分,以得到多个网格区域,并将每一个网格区域确定为一个子区域。例如,可以采用GEOHash算法,以500*500作为区域半径,将B市分割成大量的矩形网格,将每一个矩形网格(即对应一个网格区域)作为一个子区域。其中,每一个子区域暂时用Hash Code进行标记区分。当然,需要说明的是,上述所列举的子区域划分方法只是一种示意性说明。具体实施时,也可以根据具体的应用场景,选择其他合适的方式将目标区域划分为多个子区域。对此,本申请不作限定。
[0028] 在将目标区域划分成了多个子区域后,可以以单个的子区域作为具体的分析单元,通过分析单个子区域内的商户的地址文本信息,以及与其他子区域的相互关系,对各个子区域的区域特征进行确定,进而进行相应的区域标识。下面以对多个子区域中的当前子区域的分析处理为例,说明如何通过分析单个子区域内的商户的地址文本信息,以及与其他子区域的相互关系,对各个子区域的区域特征进行确定,进而进行相应的区域标识。对于其他子区域的分析处理可以参考以下实施方式。对此,本申请不作赘述。具体的,如图2所示,确定表征当前子区域的区域特征的特征字符串,可以包括如下内容:
[0029] S21:确定当前子区域所包含的商户;
[0030] S22:获取所述当前子区域中的各个商户的地址文本信息;
[0031] S23:从所述当前子区域中的各个商户的地址文本信息中提取出特征字符串,并将所述特征字符串确定为所述当前子区域的区域标识,其中,所述特征字符串用于指示所述当前子区域的区域特征。
[0032] 在本实施方式中,上述确定当前子区域所包含的商户具体实施时,可以包括以下内容:
[0033] S1:获取目标区域中商户的经度参数和纬度参数;
[0034] S2:根据所述商户的经度参数和纬度参数、所述当前子区域的边界,确定所述当前子区域所包含的商户。
[0035] 在本实施方式中,所划分出的各个子区域都具有相应的区域边界。以子区域为矩形网格区域为例,可以通过确定矩形的四个端点的经度参数和纬度参数确定出该子区域的边界;进而可以根据目标区域中商户的经度参数和纬度参数与边界的关系确定出当前子区域中所包含的商户。例如甲商户的经度参数和纬度参数位于1号子区域的边界范围内,可以确定甲商户为1号子区域内的商户。而乙商户的经度参数和纬度参数位于1号子区域的边界范围外,进而可以确定乙商户不是1号子区域内的商户。当然,需要说明的是,上述所列举的获取目标区域中商户的经度参数和纬度参数,并根据商户的经度参数和纬度参数,确定出当前子区域的中所包含的商户只是一种示意性说明。具体实施时,也可以根据具体情况获取商户的其他类型的位置参数,相应的可以根据商户的其他类型的位置参数确定出当前子区域所包含的商户。
[0036] 在本实施方式中,上述商户的地址文本信息具体可以理解为用于表征商户的位置信息的字符串(例如某奶茶店的地址文本信息可以为“B市高新区科技城景峰路生态园101号”),且上述商户的地址文本信息是与该商户一一对应的,不同商户的地址文本信息往往是不一样的。需要说明的是,在本实施方式中,仅以获取并利用商户的地址文本信息作为商户的信息数据为例,对目标区域中的商户进行相应的区域划分。具体实施时,也可以根据具体的应用场景获取商户的其他信息数据,例如商户的店名、商户的经营类型、商户的经营产品、商户的日均人流量数据等等,对目标区域中的商户进行其他类型的划分。对此,本申请不作限定。
[0037] 其中,上述商户的地址文本信息具体可以是通过网络或者数据查询等方式直接获取的。例如,可以通过网络直接下载得到子区域中的各个商户所登记的地址信息。当然需要说明的是,上述获取商户的地质文本信息的方式只是一种示意性说明。具体实施时,也可以根据具体情况选择其他合适的方式获取子区域中的商户的地址文本信息。对此,本申请不作限定。
[0038] 在本实施方式中,通过从所述当前子区域中的各个商户的地址文本信息中提取出能够表征当前子区域的区域特征的特征字符串,并将所述特征字符串确定为所述当前子区域的区域标识(例如利用该特征字符串命名该子区域),这样在区域达到区分不同类型子区域的同时,也能有效地反映出各个子区域之间的特征联系,以便后续可以根据子区域的特征联系对存在关联的子区域进行合并,以圈定出规模较大的商业圈。
[0039] 在本实施方式中,在当前子区域中包含有多个商户时,可以分别对多个商户中的各个商户的地址文本信息进行分析处理,根据对各个商户的地址文本信息的分析处理结果提取得到特征字符串。具体的,可以对当前子区域中的多个商户中的各个商户的地址文本信息进行分解处理,得到多个文本单元;分别确定各个文本单元在当前子区域中的出现频率,和包含有各个文本单元的子区域分别在所述目标区域中的比例(即包含有同一个文本单元的子区域的个数与目标区域中子区域的总个数的比值);根据各个文本单元在当前子区域中的出现频率,和包含有各个文本单元的子区域在所述目标区域中的比例,从当前子区域中的多个文本单元中确定出特征文本单元;并根据所述特征文本单元确定出能够指示当前子区域的区域特征的特征字符串。
[0040] 在本实施方式中,上述文本单元具体可以理解为是将商户的地址文本信息进行分词处理后得到的能够表征一定含义的字符结构单元。例如,参阅图3所示,某奶茶店的地址文本信息为“B市高新区科技城景峰路生态园101号”,通过对上述地址文本信息进行分词处理,可以得到以下所示的多个文本单元,即:“B市”、“高新区”、“科技城”、“景峰路”、“生态园”、“101号”。
[0041] 进一步的,为了减少无效文本单元的干扰,减少服务器的处理负担,提高处理效率,可以先对分解得到的多个文本单元进行筛选,以剔除无效的文本单元。
[0042] 例如,参阅图3,考虑到待分析的商户都是B市的商户,因此在该场景示例中,文本单元“B市”实际上没有什么有效的表征价值,可以被认为是一种无效的文本单元。进而可以将“B市”作为无效文本单元剔除,不再对该文本单元进行后续的分析处理。即删除无效的文本单元后,对应于某奶茶店的地址文本信息得到的文本单元包括以下几个文本单元,即:“高新区”、“科技城”、“景峰路”、“生态园”、“101号”。
[0043] 按照上述方式分别对各个子区域中的各个商户的地址文本信息进行分解处理,这样可以将每一个子区域中的商户的地址文本信息分别分解成对应的多个文本单元。
[0044] 在完成对当前子区域中各个商户的地址文本信息的分解后,统计各个文本单元在当前子区域中的出现频率,具体实施时,可以包括以下内容:计算在当前子区域中当前文本单元的总个数与当前子区域中所有文本单元的总个数的比值,并将该比值作为当前文本单元在当前子区域中的出现频率,具体可以记为tf。其中,上述当前文本单元在当前子区域中的出现频率可以用于表征该文本单元对当前子区域的标识程度。通常某个文本单元的tf值越大,则该文本单元对当前子区域的标识程度越高。
[0045] 在一个实施方式中,可以按照以下方式计算某个文本单元在当前子区域中的出现频率:
[0046]
[0047] 其中,tfi,j具体可以表示为编号为i的文本单元在编号为j的子区域中的出现频率,i具体可以表示为某个文本单元的编号,j具体可以表示为当前子区域的编号,ni,j具体可以表示为编号为j的子区域中的编号为i的文本单元的总个数, 具体可以表示为编号为j的子区域中文本单元的总个数,nk,j具体可以表示为编号为j的子区域中的编号为k的文本单元的总个数。
[0048] 统计包含有各个文本单元的子区域在所述目标区域中的比例,可以以统计包含有当前文本单元的子区域在所述目标区域中的比例为例:先统计包含有当前文本单元的子区域的个数;再将包含有当前文本单元的子区域的个数与目标区域中子区域个数的比值作为包含有当前文本单元的子区域在目标区域中的比例。其中,上述包含有当前文本单元的子区域在所述目标区域中的比例可以用于表征利用当前文本单元区域其他子区域的区分能力的大小。通常包含有当前文本单元的子区域在所述目标区域中的比例的数值越大,表征该文本单元描述当前子区域的能力越小,即该文本单元将当前子区域与其他子区域的区分开的能力越小。
[0049] 例如,对于当前个子区域而言,文本单元“高新区”是在当前子区域中的出现频率最高的文本单元,即“高新区”对当前子区域的标识程度相对较高。但该文本单元在许多其他子区域中也有出现,即包含有该文本单元的子区域在所述目标区域中的比例的数值相对较大。因此,可以判断“高新区”这个文本单元虽然能在一定程度上概括当前子区域中商户的特征信息,但利用该文本单元描述该子区域的能力却相对较弱,即如果使用“高新区”无法与其他包含有“高新区”的子区域较好地区分开来。因此,仅基于“高新区”所确定的特征字符是无法细致、准确地表征出当前子区域的区域特征的,还需要联合考虑包含有各个文本单元的子区域在所述目标区域中的比例这一参数。
[0050] 在一个实施方式中,为了便于后续的计算处理,可以进一步地根据包含有当前文本单元的子区域在所述目标区域中的比例确定当前文本单元在目标区域中的区分指示参数,可以记为idf。具体的,可以按照以下方式计算当前文本单元在目标中的区分指示参数:
[0051]
[0052] 其中,idfi具体可以表示为编号为i的文本单元在目标区域中的区分指示参数,i具体可以表示为当前文本单元的编号,G具体可以表示为目标区域中子区域的总个数,|j:ti∈dj|具体可以表示为包含有编号为i的文本单元的子区域的总个数。
[0053] 然而,值得注意的是,上述所给出的用于计算区分指示参数的公式仅是一种示例性描述,在实际实现的时候,还可以采用其它的计算区分指示参数的公式。对此,本申请对此不作限定。
[0054] 在一个实施方式中,为了使得所确定的当前子区域的特征字符串对当前子区域具有较高的标识程度,同时在标识当前子区域时与目标区域中的其他子区域具有较好的区分性,具体实施时,可以综合各个文本单元在当前子区域中的出现频率,和包含有各个文本单元的子区域在所述目标区域中的比例(或者是各个文本单元在目标区域中的区分指示参数)这两种参数各自的优点,确定出当前文本单元在当前子区域中的区域特征指示参数。其中,该当前文本单元在当前子区域中的区域特征指示参数既能表征出基于当前文本单元标识当前子区域的标识能力,又能表征出基于当前文本单元在标识当前子区域与其他子区域差异性的能力,从而能够更加精细、准确地将当前子区域与其他子区域区分开来。
[0055] 在一个实施方式中,具体实施时,可以按照以下方式计算当前文本单元在当前子区域中的区域特征指示参数:
[0056] tfidfi,j=tfi,j*idfj
[0057] 其中,tfidfi,j具体可以表示为编号为i的文本单元在编号为j的子区域中的区域特征指示参数,idfi具体可以表示为编号为i的文本单元在目标区域中的区分指示参数,tfi,j具体可以表示为编号为i的文本单元在编号为j的子区域中的出现频率。
[0058] 在根据各个文本单元在当前子区域的出现频率,和包含有各个文本单元的子区域在所述目标区域中的比例确定出当前文本单元在当前子区域中的区域特征指示参数后,可以根据当前文本单元在当前子区域中的区域特征指示参数,从当前子区域中的多个文本单元中确定出特征文本单元。其中,上述特征文本单元可以理解为是子区域中地址文本信息的核心词。
[0059] 具体实施时,可以分别计算当前子区域中各个商户的地址文本信息所分解的各个文本单元在当前子区域中的区域特征指示参数,并将在当前子区域中的区域特征指示参数的数值最大的文本单元确定为上述特征文本单元。例如,计算当前子区域中各个文本单元在当前子区域中的区域特征参数后,发现文本单元“生态园”的特征参数数值最高,因此可以认为“生态园”是最能表征当前子区域的区域特征的核心词,进而可以将“生态园”确定为当前子区域的特征文本单元。
[0060] 在确定出特征文本单元后,可以直接将特征文本单元作为当前子区域的特征字符串,以标识当前子区域。例如,可以直接将当前子区域命名为“生态园”。
[0061] 当然也可以利用特征文本单元,对当前子区域中包含有特征文本单元的商户的地址文本信息进行进一步分析,以提取更加精细的特征字符串。
[0062] 具体的,可以对当前子区域中包含有的所述特征文本单元的商户的地址文本信息的区域特征指示参数值分别进行检测,以筛选出包含有的所述特征文本单元的商户的地址文本信息中区域特征指示参数大于预设阈值的文本单元,以组成多个待定字符串;进而后续可以从多个待定字符串中筛选出特征字符串来标识当前子区域。
[0063] 例如,对于当前子区域,区域特征指示参数最高的文本单元(即特征文本单元)为“生态园”,可以检索出当前子区域中包含有“生态园”的多个商户的地址文本信息包括:“高新区生态园102号”、“高新区景峰路生态园101号”、“科技城景峰路生态园5栋104号”三条地址文本信息,再对上述三条地址文本信息中的文本单元的区域特征指示参数分别进行检测,找出除“生态园”以外的区域特征指示参数大于预设阈值的文本单元,进而得到对应的三个待定字符串。例如,检测地址文本信息“高新区生态园102号”中各个文本单元的区域特征指示参数,发现除“生态园”外没有其他大于预设阈值的文本单元,因此基于该地址文本信息的待定字符串可以表示为“生态园”。检测地址文本信息“高新区景峰路生态园101号”中各个文本单元的区域特征指示参数,发现文本单元“景峰路”的区域特征指示参数数值大于预设阈值,进而可以生成对应的待定字符串为“景峰路生态园”。检测地址文本信息“科技城景峰路生态园5栋104号”中各个文本单元的区域特征指示参数,发现文本单元“科技城”、“景峰路”的区域特征指示参数数值大于预设阈值,进而可以生成对应的待定字符串为“科技城景峰路生态园”。
[0064] 在确定出多个待定字符串后可以按照预设规则对多个待定字符串的标识效果进行评分,得到各个待定字符串的特征分数;根据评分结果从多个待定字符串中选出特征分数最高的待定字符串,并将评分最高的待定字符串中在当前子区域中的出现频率最高的文本单元确定为所述特征字符串,用以标识当前子区域。
[0065] 在一个实施方式中,上述预设规则可以包括以下内容:根据待定字符串中文本单元所表征范围的大小设置针对待定字符串中各个文本单元的分数;分别统计各个待定字符串中文本单元的分数和作为该待定字符串的分数;筛选分数最大的待定字符串作为上述评分最高的待定字符串。
[0066] 具体的,可以将表征范围最大的文本单元的分数设置为最低分数,例如1分;将表征范围相对较小一级的文本单元的分数设置为比最低分数稍大一点的分数,例如2分;以此类推,将表征范围最小的文本单元设置为最高分数。例如,可以将“科技城”的分数设置为1分,将“景峰路”的分数设置为2分,将“生态园”的分数设置为3分。进而可以分别统计“生态园”、“景峰路生态园”、“科技城景峰路生态园”的分数为:3分、5分、6分。因此,可以确定待定字符串“科技城景峰路生态园”为评分最高的字符串,并对该字符串中的各个文本单元在当前子区域内的出现频率进行比较,发现出现频率最高的文本单元为“景峰路”,这时可以将“景峰路”确定为当前子区域的特征字符串,将当前子区域命名为“景峰路”。
[0067] 在将所述特征字符串确定为所述目标对象所在子区域的区域标识后,进一步的,还可以根据区域标识,将区域标识的差异程度小于阈值程度的子区域进行合并,以得到多个类型区域。其中,每一个类型区域中的各个子区域相互之间具有较强的关联性。进而可以从合并后的子区域中确定出感兴趣的类型区域。具体的,在确定所述多个子区域中各个子区域的区域标识后,所述方法还可以包括:计算所述多个子区域中各个子区域之间的区域标识的差异程度;合并区域标识的差异程度小于阈值程度的子区域;从合并后的子区域中确定出商业圈。
[0068] 在本实施方式中,可以根据不同子区域的区域标识所指示的位置之间的距离确定对应的区域标识的差异程度。例如,两个子区域的区域标识所指示的位置之间的距离较近(例如小于1千米),则可以认为这两个子区域的区域标识的差异程度小于阈值程度,进而可以将这两个子区域合并。其中,上述阈值程度可以根据具体的应用场景和精度要求确定。需要说明的是,上述确定子区域之间的区域标识的差异程度的方式只是一种示意性说明,具体实施时,可以选择其他合适的方式确定不同子区域之间的区域标识的差异程度。对此,本申请不作限定。
[0069] 还例如,可以根据合并后的区域中的商户数量,从合并后的子区域中筛选出商户数量较多的类型区域作为商业圈。例如,编号为1的子区域的区域标识为“景峰路”,编号为2的子区域的区域标识为“景峰路生态园”,编号为5的子区域的区域标识也为“景峰路”,可知上述三个区域相互之间存在较强的关联性,即都位于景峰路上,因此可以将上述三个子区域进行合并,得到一个更大的类型区域,例如“景峰路商业圈”,以便后续在进行数据分析、业务拓展时,可以以景峰路商业圈为实施单位,同时对上述三个子区域进行集中的数据分析和业务拓展。当然,需要说明的是,具体实施时,也可以根据具体情况,不进行子区域的合并,而分别对各个子区域进行相应的数据分析、业务拓展。对此,本申请不作限定。
[0070] 在一个场景示例中,考虑到划分目标区域的目的是确定出B市的商业圈,为了进一步提高处理效率,避免后续对无效子区域(例如不含有商户的森林区域、公园区域等)进行分析,减少对资源的占用,可以先对所划分的子区域进行筛选,以筛选掉不符合要求的无效子区域。具体在确定出当前子区域所包含的商户后,可以统计当前子区域的上述数量,并根据当前子区域的商户数量设置对应的商业度标识。并在各个子区域中标注出商业度标识,以便后续可以根据商业度标识对子区域进行相应的筛选。
[0071] 具体的,某一个子区域中商户数量较多(例如大于100家)可以认为该子区域的商业化程度较高(例如商业街、购物中心等),将该子区域的商业度标识设置为2。另一个子区域中商户的数量较少(例如只有2家)甚至没有,可以认为该子区域的商业化程度较低(例如公园、森林等),将该子区域的商业度标识设置为0。商户数量在上述两种情况之间(例如大于等于20家小于等100家)的,可以认为该子区域的商业化程度一般(例如居民区、办公区等),将该子区域的商业度标识设置为1。后续可以基于具体的实施要求,利用上述商业度标识确定出目标区域中的无效子区域。例如,参阅图4,在本例中要划分选取的是B市中的商业圈,因此仅需对商户数量较多的子区域,即商业化程度较高的子区域进行后续分析划分即可。基于上述考虑,可以将商业度标识小于2的子区域划分为无效子区域(例如可以只将商业度标识为1的子区域标记为“X”),以便后续处理时不再对无效子区域中的商户的信息数据不作统计分析。从而可以有效地减轻服务器的负担,减少对计算资源的占用,有助于提高处理效率。此外,还可以参阅图4所示,将商业度标识为2即商业化程度较高的子区域的颜色标注为深灰色,便于后续可以更加清楚地对商户较多、商业化程度较高的区域进行集中的分析研究。
[0072] 由上可见,通过先将目标区域划分为多个子区域,再对多个子区域中的各个子区域内的商户的地址文本信息进行分析,提取能够有效指示商户所在的子区域的区域特征的特征字符串来标识子区域,以区分其他的子区域,完成了对目标区域中多区域的精细划分,从而解决了现有方法由于需要依赖人工标记边界导致的处理效率低、实施成本高的技术问题,达到高效地根据地址文本信息确定目标区域中各个区域的区域特征并自动标识,进而完成精细的区域划分的技术效果;还通过分别统计各个子区域中的商户数量,并根据商户数量生成商业度标识以标识各个子区域的商业化程度,再根据商业度标识先删除掉无效子区域,从而减少了服务器的工作量,进一步提高了处理效率。
[0073] 参阅图5所示,本申请实施例还提供了一种区域划分方法,具体实施时,该方法可以包括以下内容:
[0074] S51:将目标区域划分为多个子区域;
[0075] S52:按照以下方式确定所述多个子区域中各个子区域的区域标识:
[0076] S52-1:确定当前子区域所包含的目标对象;
[0077] S52-2:获取所述当前子区域中的各个目标对象的地址文本信息;
[0078] S52-3:从所述当前子区域中的各个目标对象的地址文本信息中提取特征字符串,并将所述特征字符串确定为所述当前子区域的区域标识,其中,所述特征字符串用于指示所述当前子区域的区域特征。
[0079] 在本实施方式中,上述目标区域具体可以理解为待划分的地理区域,例如,某一城市,或者某一个国家等。当然也可以理解为待划分的虚拟区域,例如,所建立的虚拟模型等。对于上述目标区域的具体形式,本申请不作限定。
[0080] 在一个实施方式中,上述将目标区域划分为多个子区域具体实施时,可以包括以下内容:对目标区域进行网格划分,得到多个网格区域,其中,每一个网格区域对应一个子区域。例如,可以采用GEOHash算法,以500*500作为区域半径,将目标区域分割成大量的矩形网格,将每一个矩形网格(即对应一个网格区域)作为一个子区域。其中,每一个子区域暂时可以用Hash Code进行标记区分。当然,需要说明的是,上述所列举的子区域划分方法只是一种示意性说明。具体实施时,也可以根据具体的应用场景,选择其他合适的方式将目标区域划分为多个子区域。对此,本申请不作限定。
[0081] 在将目标区域划分为多个子区域后,可以以一个子区域作为基本的分析处理单元,进而对单个子区域内的目标对象的信息数据进行分析,从而确定出子区域的区域特征,对子区域进行标识。
[0082] 在一个实施方式中,以对多个子区域中的当前子区域的分析处理为例,说明如何通过分析单个子区域内的目标对象的地址文本信息,以及与其他子区域的相互关系,对各个子区域的区域特征进行确定,进而进行相应的区域标识。对于其他子区域的分析处理可以参考以下实施方式。对此,本申请不作赘述。
[0083] 对于任意一个当前子区域,具体实施时,可以按照以下方式处理:确定当前子区域所包含的目标对象;获取所述当前子区域中的各个目标对象的地址文本信息;从所述当前子区域中的各个目标对象的地址文本信息中提取特征字符串,并将所述特征字符串确定为所述当前子区域的区域标识,其中,所述特征字符串用于指示所述当前子区域的区域特征。
[0084] 在本实施方式中,上述目标对象具体可以是待划分区域中的商户,也可以是待划分区域中的学校,还可以是待划分区域中的酒店等等。当然,上述所列举的目标对象只是为了更好地说明本申请实施方式。具体实施时,也可以根据具体的场景选择合适的对象作为上述目标对象。对此,本申请不作限定。
[0085] 在一个实施方式中,上述确定当前子区域所包含的目标对象,具体实施时,可以包括以下内容:
[0086] S1:获取目标区域中各个目标对象的位置参数;
[0087] S2:根据所述各个目标对象的位置参数和所述当前子区域的边界,确定所述当前子区域所包含的目标对象。
[0088] 在本实施方式中,上述目标对象的位置参数具体可以是目标对象的经度参数和纬度参数。当然,上述所列举的目标对象的经度参数和纬度参数只是一种示意性说明。具体实施时,也可以获取能够表征目标对象在目标区域中位置的其他参数作为上述目标对象的位置参数。对此,本申请不作限定。
[0089] 在本实施方式中,需要说明的是,在将目标区域划分为多个子区域后,每个子区域都存在唯一的边界,进而可以通过比较目标对象的位置参数和子区域的边界,确定出各个子区域中所包含的目标对象。
[0090] 在一个实施方式中,参阅图6所示,上述从所述当前子区域中的各个目标对象的地址文本信息中提取特征字符串,具体实施时,可以包括以下内容:
[0091] S1:分解所述当前子区域中的各个目标对象的地址文本信息,得到多个文本单元;
[0092] S2:分别确定所述文本单元在所述当前子区域中的出现频率,以及包含有所述文本单元的子区域在所述目标区域中的比例;
[0093] S3:根据所述文本单元在所述当前子区域中的出现频率,以及包含有所述文本单元的子区域在所述目标区域中的比例,从所述多个文本单元中确定出特征文本单元;
[0094] S4:根据所述特征文本单元确定所述特征字符串。
[0095] 在本实施方式中,上述目标对象的地址文本信息具体可以理解为用于表征目标对象的位置信息的字符串(例如某奶茶店的地址文本信息可以为“B市高新区科技城景峰路生态园101号”),且上述目标对象的地址文本信息是与该目标对象一一对应的,即不同目标对象的地址文本信息往往是不一样的。
[0096] 在本实施方式中,上述文本单元具体可以理解为是将目标对象的地址文本信息进行分词处理后得到的能够表征一定含义的字符结构单元。
[0097] 在完成对当前子区域中各个目标对象的地址文本信息的分解后,统计各个文本单元在当前子区域中的出现频率,具体实施时,可以包括以下内容:计算在当前子区域中当前文本单元的总个数与当前子区域中所有文本单元的总个数的比值,并将该比值作为当前文本单元在当前子区域中的出现频率,具体可以记为tf。其中,上述当前文本单元在当前子区域中的出现频率可以用于表征该文本单元对当前子区域的标识程度。通常某个文本单元的tf值越大,则该文本单元对当前子区域的标识程度越高。
[0098] 在一个实施方式中,根据所述文本单元在所述当前子区域中的出现频率,以及包含有所述文本单元的子区域在所述目标区域中的比例,从所述多个文本单元中确定出特征文本单元,具体实施时,可以包括以下内容:根据所述文本单元在所述当前子区域中的出现频率,以及包含有所述文本单元的子区域在所述目标区域中的比例,确定所述当前子区域中各个文本单元的区域特征指示参数;选择所述当前子区域中区域特征指示参数最大的文本单元作为所述特征文本单元。
[0099] 在一个实施方式中,根据所述特征文本单元确定所述特征字符串,具体实施时,可以包括以下内容:对所述当前子区域中包含有的所述特征文本单元的目标对象的地址文本信息分别进行检测,以筛选出所述当前子区域中包含有的所述特征文本单元的目标对象的地址文本信息中区域特征指示参数大于预设阈值的文本单元,以组成待定字符串;从所述待定字符串中筛选出所述特征字符串。
[0100] 在一个实施方式中,从所述待定字符串中筛选出所述特征字符串,具体实施时,可以包括以下内容:确定待定字符串的特征分数;从特征分数最高的待定字符串中筛选出在所述当前子区域中的出现频率最高的文本单元作为所述特征字符串。
[0101] 统计包含有各个文本单元的子区域在所述目标区域中的比例,可以以统计包含有当前文本单元的子区域在所述目标区域中的比例为例:先统计包含有当前文本单元的子区域的个数;再将包含有当前文本单元的子区域的个数与目标区域中子区域个数的比值作为包含有当前文本单元的子区域在目标区域中的比例。其中,上述包含有当前文本单元的子区域在所述目标区域中的比例可以用于表征利用当前文本单元区域其他子区域的区分能力的大小。通常包含有当前文本单元的子区域在所述目标区域中的比例的数值越大,表征该文本单元描述当前子区域的能力越小,即该文本单元将当前子区域与其他子区域的区分开的能力越小。
[0102] 在一个实施方式中,为了便于后续的计算处理,可以进一步地根据包含有当前文本单元的子区域在所述目标区域中的比例确定当前文本单元在目标区域中的区分指示参数,可以记为idf。
[0103] 在一个实施方式中,为了使得所确定的当前子区域的特征字符串对当前子区域具有较高的标识程度,同时在标识当前子区域时与目标区域中的其他子区域具有较好的区分性,具体实施时,可以综合各个文本单元在当前子区域中的出现频率,和包含有各个文本单元的子区域在所述目标区域中的比例(或者是各个文本单元在目标区域中的区分指示参数)这两种参数各自的优点,确定出当前文本单元在当前子区域中的区域特征指示参数。其中,该当前文本单元在当前子区域中的区域特征指示参数既能表征出基于当前文本单元标识当前子区域的标识能力,又能表征出基于当前文本单元在标识当前子区域与其他子区域差异性的能力,从而能够更加精细、准确地将当前子区域与其他子区域区分开来。
[0104] 在根据各个文本单元在当前子区域的出现频率,和包含有各个文本单元的子区域在所述目标区域中的比例确定出当前文本单元在当前子区域中的区域特征指示参数后,可以根据当前文本单元在当前子区域中的区域特征指示参数,从当前子区域中的多个文本单元中确定出特征文本单元。其中,上述特征文本单元可以理解为是子区域中地址文本信息的核心词。
[0105] 具体实施时,可以分别计算当前子区域中各个目标对象的地址文本信息所分解的各个文本单元在当前子区域中的区域特征指示参数,并将在当前子区域中的区域特征指示参数的数值最大的文本单元确定为上述特征文本单元。例如,计算当前子区域中各个文本单元在当前子区域中的区域特征参数后,发现文本单元“生态园”的特征参数数值最高,因此可以认为“生态园”是最能表征当前子区域的区域特征的核心词,进而可以将“生态园”确定为当前子区域的特征文本单元。
[0106] 在确定出特征文本单元后,可以直接将特征文本单元作为当前子区域的特征字符串,以标识当前子区域。例如,可以直接将当前子区域命名为“生态园”。
[0107] 当然也可以利用特征文本单元,对当前子区域中包含有特征文本单元的目标对象的地址文本信息进行进一步分析,以提取更加精细的特征字符串。
[0108] 具体的,可以对当前子区域中包含有的所述特征文本单元的目标对象的地址文本信息的区域特征指示参数值分别进行检测,以筛选出包含有的所述特征文本单元的目标对象的地址文本信息中区域特征指示参数大于预设阈值的文本单元,以组成多个待定字符串;进而后续可以从多个待定字符串中筛选出特征字符串来标识当前子区域。
[0109] 在一个实施方式中,将所述特征字符串确定为所述当前子区域的区域标识后,所述方法具体还可以包括:
[0110] S53:合并区域标识的差异程度小于阈值程度的子区域。
[0111] 其中,上述合并区域标识的差异程度小于阈值程度的子区域具体实施时,可以包括:确定所述多个子区域中各个子区域之间的区域标识的差异程度;合并区域标识的差异程度小于阈值程度的子区域。
[0112] 在本实施方式中,可以根据各个子区域的区域表示,将多个具有关联性的,即子区域的区域标识的差异程度小于阈值程度的子区域进行合并,得到多个类型区域。其中,每一个类型区域中的各个子区域相互之间具有较强的关联性。进而可以根据需要,从合并后的子区域(即类型区域)中确定出感兴趣的类型区域。例如,可以根据合并后的区域中的商户数量,从合并后的子区域中筛选出商户数量较多的类型区域作为商业圈。
[0113] 还通过根据子区域的区域标识,合并区域标识的差异程度小于阈值程度的子区域得到多个类型区域,达到能够根据具体需要和目的,有针对性地圈出感兴趣的类型区域(或者子区域)进行进一步分析研究的技术效果。
[0114] 本申请实施例还提供一种划分服务器,包括处理器以及用于存储处理器可执行指令的存储器,所述处理器具体实施时可以根据指令执行以下步骤:将目标区域划分为多个子区域;按照以下方式确定所述多个子区域中各个子区域的区域标识:确定当前子区域所包含的商户;获取所述当前子区域中的各个商户的地址文本信息;从所述当前子区域中的各个商户的地址文本信息中提取特征字符串,并将所述特征字符串确定为所述当前子区域的区域标识,其中,所述特征字符串用于指示所述当前子区域的区域特征。
[0115] 为了能够更加准确地完成上述指令,参阅图7,本申请还提供了另一种具体的划分服务器,其中,所述服务器包括网络通信端口701、处理器702以及存储器703,上述结构通过内部线缆相连,以便进行具体的数据交互。
[0116] 其中,所述网络通信端口701,用于接收目标区域的数据(例如目标区域的地图)以及目标区域中目标对象的信息数据(例如目标对象的地址文本信息)。
[0117] 所述处理器702,用于将目标区域划分为多个子区域;按照以下方式确定所述多个子区域中各个子区域的区域标识:确定当前子区域所包含的商户;获取所述当前子区域中的各个商户的地址文本信息;从所述当前子区域中的各个商户的地址文本信息中提取特征字符串,并将所述特征字符串确定为所述当前子区域的区域标识,其中,所述特征字符串用于指示所述当前子区域的区域特征。
[0118] 所述存储器703,用于存储所接收的目标区域的数据以及目标区域中目标对象的信息数据,以及相应的指令程序。
[0119] 在本实施方式中,所述网络通信端口701可以是与不同的通信协议进行绑定,从而可以发送或接收不同数据的虚拟端口。例如,所述网络通信端口可以是负责进行web数据通信的80号端口,也可以是负责进行FTP数据通信的21号端口,还可以是负责进行邮件数据通信的25号端口。此外,所述网络通信端口还可以是实体的通信接口或者通信芯片。例如,其可以为无线移动网络通信芯片,如GSM、CDMA等;其还可以为Wifi芯片;其还可以为蓝牙芯片。
[0120] 在本实施方式中,所述处理器702可以按任何适当的方式实现。例如,处理器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(Application Specific Integrated Circuit,ASIC)、可编程逻辑控制器和嵌入微控制器的形式等等。本申请并不作限定。
[0121] 在本实施方式中,所述存储器703可以包括多个层次,在数字系统中,只要能保存二进制数据的都可以是存储器;在集成电路中,一个没有实物形式的具有存储功能的电路也叫存储器,如RAM、FIFO等;在系统中,具有实物形式的存储设备也叫存储器,如内存条、TF卡等。
[0122] 本申请还提供一种划分服务器,包括处理器以及用于存储处理器可执行指令的存储器,所述处理器具体实施时可以根据指令执行以下步骤:将目标区域划分为多个子区域;按照以下方式确定所述多个子区域中各个子区域的区域标识:确定当前子区域所包含的目标对象;获取所述当前子区域中的各个目标对象的地址文本信息;从所述当前子区域中的各个目标对象的地址文本信息中提取特征字符串,并将所述特征字符串确定为所述当前子区域的区域标识,其中,所述特征字符串用于指示所述当前子区域的区域特征。
[0123] 本申请实施例还提供了一种基于上述区域划分方法的计算机存储介质,所述计算机存储介质存储有计算机程序指令,在所述计算机程序指令被执行时实现:将目标区域划分为多个子区域;按照以下方式确定所述多个子区域中各个子区域的区域标识:确定当前子区域所包含的目标对象;获取所述当前子区域中的各个目标对象的地址文本信息;从所述当前子区域中的各个目标对象的地址文本信息中提取特征字符串,并将所述特征字符串确定为所述当前子区域的区域标识,其中,所述特征字符串用于指示所述当前子区域的区域特征。
[0124] 在本实施方式中,上述存储介质包括但不限于随机存取存储器(Random Access Memory,RAM)、只读存储器(Read-Only Memory,ROM)、缓存(Cache)、硬盘(Hard Disk Drive,HDD)或者存储卡(Memory Card)。所述存储器可以用于存储计算机程序指令。网络通信单元可以是依照通信协议规定的标准设置的,用于进行网络连接通信的接口。
[0125] 在本实施方式中,该计算机存储介质存储的程序指令具体实现的功能和效果,可以与其它实施方式对照解释,在此不再赘述。
[0126] 在软件层面上,本申请实施例还提供了一种区域划分装置,该装置具体可以包括以下结构模块:划分模块,具体可以用于将目标区域划分为多个子区域;区域标识确定模块,具体可以用于确定所述多个子区域中各个子区域的区域标识。
[0127] 在一个实施方式中,上述区域标识确定模块具体实施时,可以按照以下方式确定所述多个子区域中各个子区域的区域标识:确定当前子区域所包含的目标对象;获取所述当前子区域中的各个目标对象的地址文本信息;从所述当前子区域中的各个目标对象的地址文本信息中提取特征字符串,并将所述特征字符串确定为所述当前子区域的区域标识,其中,所述特征字符串用于指示所述当前子区域的区域特征。
[0128] 需要说明的是,上述实施例阐明的装置或模块,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。为了描述的方便,描述以上装置时以功能分为各种模块分别描述。在实施本申请时可以把各模块的功能在同一个或多个软件和/或硬件中实现。当然,也可以将实现某功能的模块由多个子模块或子单元组合实现。
[0129] 虽然本申请提供了如实施例或流程图所述的方法操作步骤,但基于常规或者无创造性的劳动可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式,不代表唯一的执行顺序。在实际中的装置或客户端产品执行时,可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境)。
[0130] 本申请中所述的方法、装置或模块可以以计算机可读程序代码方式实现控制器按任何适当的方式实现,例如,控制器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(Application Specific Integrated Circuit,ASIC)、可编程逻辑控制器和嵌入微控制器的形式,控制器的例子包括但不限于以下微控制器:ARC 625D、Atmel AT91SAM、Microchip PIC18F26K20以及Silicone Labs C8051F320,存储器控制器还可以被实现为存储器的控制逻辑的一部分。本领域技术人员也知道,除了以纯计算机可读程序代码方式实现控制器以外,完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件,而对其内部包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至,可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。
[0131] 本申请所述装置中的部分模块可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构、类等等。也可以在分布式计算环境中实践本申请,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
[0132] 通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本申请可借助软件加必需的硬件的方式来实现。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,也可以通过数据迁移的实施过程中体现出来。该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,移动终端,服务器,或者网络设备等)执行本申请各个实施例或者实施例的某些部分所述的方法。
[0133] 本说明书中的各个实施例采用递进的方式描述,各个实施例之间相同或相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。本申请的全部或者部分可用于众多通用或专用的计算机系统环境或配置中。例如:个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、移动通信终端、多处理器系统、基于微处理器的系统、可编程的电子设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。
[0134] 虽然通过实施例描绘了本申请,本领域普通技术人员知道,本申请有许多变形和变化而不脱离本申请的精神,希望所附的权利要求包括这些变形和变化而不脱离本申请的精神。