技术领域
[0001] 本发明涉及数据处理技术领域,尤其是一种土地利用效率判断方法和系统。
相关背景技术
[0002] 土地作为一种稀缺且不可再生的基本资源,一直是城市规划保护和控制的主要目标,但由于旧的土地利用和规划管理体制本身的缺陷,长期以来规划者在对土地利用的控制中主要关注于城市土地的功能划分和容量指标,而对于建立在这种功能分区和容量控制基础上的土地利用的综合效果缺乏理性的评估。
[0003] 随着移动互联网、大数据等技术的发展,以及社交媒体软件的广泛应用,产生了大量诸如图片、文本等带有位置信息的时空大数据。这类数据具有覆盖范围广、免费共享、准实时等特点,并且包含与消费、购物、出行等居民行为相关的等社会经济信息。然而,地理时空大数据中的文本、图片等信息无法直接反映特定的土地利用类型,难以直接计算土地利用效率评价指标。
具体实施方式
[0019] 需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
[0020] 实施例1
[0021] 本实施例提供如图1所示的一种土地利用效率判断方法,包括:
[0022] S1、基于主题模型处理采集到的兴趣点信息和商业评论信息,得到主题统计信息;
[0023] S2、基于卷积神经网络处理采集到的街景数据,得到土地利用类型;
[0024] S3、获取指定数据以构建土地利用结构指标和土地利用边际指标;
[0025] S4、基于数据包络分析处理土地利用结构指标和土地利用边际指标,得到土地利用效率评价值。
[0026] 具体的土地利用效率判断流程包括:
[0027] 第一步,从高德地图开发者平台获取POI(兴趣点,“Point of Interest”的缩写)数据集,即兴趣点信息;从大众点评开发者平台获取商业评论数据集,即商业评论信息;从百度地图开发者平台获取街景数据集。即从数字地图供应商获取兴趣点信息和街景数据,从商业评论平台获取商业评论信息,其中,兴趣点信息包括兴趣点类型和兴趣点坐标;商业评论信息包括描述商业设施的评论文本和设施坐标;街景数据包括街景图像和图像获取坐标。
[0028] 通过本步骤,能够从现有的各种服务供应商,获得大量和准确的数据,能够显著降低数据收集的成本,提高效率。
[0029] 第二步,利用POI数据、商业评论数据中的文本信息,采用主题模型构建方法,进行主题计算;利用街景数据中的图片信息,采用深度学习方法,构建街景图片识别模型。
[0030] 主题模型(topic model)是以非监督学习的方式对文集的隐含语义结构(latent semantic structure)进行聚类(clustering)的统计模型。
[0031] 在主题模型中,主题(topic)是以文本中所有字符(即本实施例中的词语)为支撑集的概率分布,表示该字符在该主题中出现的频繁程度,即与该主题关联性高的字符有更大概率出现。在文本拥有多个主题时,每个主题的概率分布都包括所有字符,但一个字符在不同主题的概率分布中的取值是不同的。主题模型自动分析每个文档,统计文档内的词语,根据统计的信息来断定当前文档含有哪些主题,以及每个主题所占的比例各为多少。
[0032] 通过主题模型,能够从POI数据、商业评论数据发掘对应的地点的主题,即地点正在被使用的方式。例如,商店、娱乐场所、休息场所等,即土地利用类型。其目的在于根据兴趣点信息获取名义上的土地利用类型。然后根据商业评论数据判断兴趣点信息是否真实可靠,且能够深入的扩充兴趣点信息的内涵,例如,商店具体出售的包括食品、衣物和日常用品等,都是可以根据商业评论数据得到,此时,商店这一主题会通过食品、衣物和日常用品得到扩充。
[0033] 根据图片进行识别,能够对现场进行认证,进一步的提高土地的利用状态的识别正确率。
[0034] 第三步,构建城市土地利用效率评价指标,包括土地利用结构指标与土地利用边际指标。
[0035] 其中,土地利用结构指标包括:绿地覆盖率、建成区覆盖率等投入变量,人均绿地面积、人均建成区面积等产出变量。
[0036] 土地利用边际指标包括:医疗设施数量、教育机构数量、住宅区面积、商业区面积等投入变量,教育机构覆盖率、住宅用地覆盖率、商业用地覆盖率等产出变量。
[0037] 作为土地的应用可以包括很多种,在本实施例中,主要以城市中一些指标作为主要处理的目标,即土地利用结构指标与土地利用边际指标。
[0038] 具体的指标的选择,也可以根据现实的需求进行改动,例如水域覆盖率、空气污染分布率等。
[0039] 第四步,运用数据包络分析中的C2R模型,将选取的城市土地利用效率评价指标作为模型的投入与产出,实现城市土地利用效率的评价。
[0040] 数据包络分析(Data envelopment analysis,DEA)是运筹学和研究经济生产边界的一种方法。DEA是一个线性规划模型,表示为产出对投入的比率。能运用DEA来比较一组服务单位,识别相对无效率单位,衡量无效率的严重性,并通过对无效率和有效率单位的比较,发现降低无效率的方法。
[0041] C2R模型在实际的验证中,是比较合适的处理模型,因此在本实施例中采取该模型进行城市土地利用效率评价指标的处理,具体也可采取其他的模型。
[0042] 实施例2
[0043] 本实施例用于对于优选的方案进行具体的阐述。
[0044] 从数字地图供应商获取兴趣点信息和街景数据,从商业评论平台获取商业评论信息,其中,兴趣点信息包括兴趣点类型和兴趣点坐标;商业评论信息包括描述商业设施的评论文本和设施坐标;街景数据包括街景图像和图像获取坐标。
[0045] 通过数字地图供应商和商业评论平台提供的API接口,以网络爬虫的方式,获取商业评论信息、兴趣点信息和街景数据。
[0046] POI数据集(即兴趣点信息)包括描述POI类型(兴趣点类型)的文本信息与表示空间位置的坐标信息(兴趣点坐标);
[0047] 商业评论数据集包括描述商业设施的评论文本与表示商业设施位置的坐标信息(设施坐标);
[0048] 街景数据集包括反映街道情况的图片数据(街景图像)与表示街景图片获取位置的坐标信息(图像获取坐标)。
[0049] 具体的根据主题模型处理POI数据、商业评论数据的原理包括:
[0050] 评论文本中主题分布概率 主题中的词语分布概率 其中,nk为第k主题中的词语的数量,K为主题总数,ni为
第k主题中的第i个词语(词语)的数量,V为不同词语的总数(即包括V种词语,),t为序号,超参数α、β为主题模型的输入参数;根据主题分布概率和词语分布概率确定主题,匹配主题和对应的土地利用类型。
[0051] 构建文本文档,将单位面积的土地内,包含POI数据、商业评论数据的所有文本信息作为一个文本文档,以该文本文档作为主题模型的输入变量,并假定POI数据、商业评论数据是由一定分布概率下的主题与词语决定的,词语由主题构成。
[0052] Θ和φ决定了文档中主题的分布概率和主题中词语的分布概率;超参数α和β为主题模型的输入参数,影响了主题分布概率Θ和词语分布概率φ;M为文档的数量,N为每篇文档中词语的个数,K为计算输出主题的数量。
[0053] 计算文档中主题Z的分布概率Θ和每个主题中文本词语的分布概率φ,其计算公式如下: 式中,ni表示第k个主题下第i个文本词语的个数,nk表示第k个主题中文本词语的个数,V为所有文本词语的数量。
[0054] 利用POI数据集与商业评论数据集中的文本信息,构建主题模型,以主题中概率较高的词语为依据,将主题与特定的城市土地利用类型相对应,得到的部分主题与城市土地利用类型如下表所示。
[0055]
[0056] 通过该模型,能够很好的执行土地类型的区分,有利于适应数据处理的细化要求,提高评价能力。
[0057] 实施例3
[0058] 本实施例用于对于优选的方案进行具体的阐述。
[0059] 基于卷积神经网络处理采集到的街景数据,得到土地利用类型具体包括:
[0060] 采用深度学习中的卷积神经网络,运用公式 构建网络的卷积层。
[0061] 其中,卷积层的输入特征图xi为若干个重采样后的图片构成的三维数组;输出特征图yj也是个三维数组,连接输入特征图xi和输出特征图yj的权值记为wij,bj是可训练的偏置参数;其中wij的初始参数为0,并根据需要进行调整。
[0062] 通过将卷积层输出的特征yj全部连接到同一个隐含节点上,输出一个1×1×m的高维特征,连接三个全连接层,构建多层感知器,并构建分类器来输出高维特征g,分类器利用softmax回归方法,计算识别结果的概率softmax(g),并取概率最高的结果,作为图片最终的识别结果。其中,softmax回归的公式如下:
[0063] 其中,exp()为期望函数,gk为所有的高维特征,gj为j类的高维特征,在本公式中,k为全部识别结果,j为其中一种识别结果。
[0064] 具体的根据图像得到图像内各个物体的性质,并非本实施例的改进点,不进行进一步地说明,具体可以采用现有的图像识别技术。
[0065] 实施例4
[0066] 本实施例用于对于优选的方案进行具体的阐述。
[0067] 土地利用效率评价值包括:土地利用结构效率和土地利用边际效率。
[0068] 获取投入的变量(土地利用结构指标与土地利用边际指标),然后根据C2R模型产出变量(土地利用结构效率和土地利用边际效率)。
[0069] 具体的土地利用结构效率的产出过程包括:
[0070] 绿地覆盖率PGreen=ni,Green/Ni,Ni为第i张街景图像中像素的总数量,ni,Green为第i张街景图片中绿地像素的数量;
[0071] 建成区覆盖率PBuild=ni,Build/Ni,Ni为第i张街景图片中像素的总数量,ni,Build为第i张街景图片中建成区像素的数量;
[0072] 人均绿地面积 m为单位面积内街景图片的数量,P为单位面积内的居住人口数量,通过人口普查数据获得人口数据;
[0073] 人均建成区面积
[0074] 医疗设施覆盖率和教育机构覆盖率为对应兴趣点数量与区域面积的比值。
[0075] 住宅用地覆盖率和商业用地覆盖率为对应设施的面积与区域面积的比值。
[0076] 住宅用地和商业用地的划分会随着时间改变,例如,住宅区内也可能会出现小型的商业区域;同理,商业区也可能会被改造成公寓等适于居住的地区。此时,仅根据POI信息和街景图像很难确定土地利用的真相。
[0077] 因此,本实施例通过根据兴趣点信息的密度判断主题的类型,然后计算对应设施的面积。
[0078] 判断主题的类型包括:
[0079] 根据公式 判断主题的类型,本公式中,f(s)是位置s处的兴趣点信息的密度值,h是路径距离衰减阈值,该路径距离衰减阈值为兴趣点的密度值会随着路径距离增加而减小的阈值,用来确定核函数的计算范围。n是与位置s的路径距离小于或等于h的主题(包括商业和住宅)兴趣点信息的数量;k为核密度估计中的核函数;s-si为各兴趣点与核心要素si的距离,即依次将每一个兴趣点作为核心要素,各兴趣点为每个核心要素周围路径距离衰减阈值内的兴趣点,f(s)>0时,则定义位置s属于对应的主题。
[0080] 兴趣点信息的密度判断主题的类型能够准确而实时的确定土地利用类型。
[0081] 而根据各点的坐标,即能够计算对应设施的面积。
[0082] 实施例5
[0083] 运用数据包络分析中的C2R模型,将选取的城市土地用效率评价指标作为模型的投入与产出,测算城市土地利用效率的评价。
[0084] 以土地利用交通小区作为模型的决策单元DMU,且DMUj(j=1,2,3……n),每个DMU都有m项投入Xj=(x1,j,x2,j,……xm,j),s项产出Ys=(y1,j,y2,j,……ys,j),则第j0个DMU的效率评估模型为: 其中,(x0,y0)为DMUj0的投入与产出,ε为阿基密度无穷小,e为元素为1的向量。
[0085] 对效率评估模型求解对偶规划: 式中,θ为决策单元DMUj0的有效值,即土地利用效率,s+、s-为线性规划问题中的松弛变量,λj为重新构造的DMU组合中j个决策单元DMUj的组合比例。在构建的城市土地利用效率模型中,当θ=1时,表示投入与产出比达到最优,即土地利用效率最高,当θ<1时,表示投入与产出比没有达到最优,θ越接近1,土地利用效率越高。
[0086] 实施例6
[0087] 本实施例提供如图2所示的一种土地利用效率判断系统,包括:主题单元1,基于主题模型处理采集到的兴趣点信息和商业评论信息,得到主题统计信息;街景识别单元2,用于基于卷积神经网络处理采集到的街景数据,得到土地利用类型;指标单元3,用于获取指定数据以构建土地利用结构指标和土地利用边际指标;评价单元4,用于基于数据包络分析处理所述土地利用结构指标和所述土地利用边际指标,得到土地利用效率评价值。
[0088] 以上是对本发明的较佳实施进行了具体说明,但本发明创造并不限于所述实施例,熟悉本领域的技术人员在不违背本发明精神的前提下还可做出种种的等同变形或替换,这些等同的变形或替换均包含在本申请权利要求所限定的范围内。