技术领域
[0001] 本发明涉及定位技术领域,尤其涉及一种行人定位方法及装置。
相关背景技术
[0002] 超宽带(UWB)技术作为一种高精度定位技术,广泛应用于室内定位系统。UWB技术通过测量定位终端与多个信标间的时间差来确定定位,这一过程依赖于信标和终端之间的有效通信。如果事先能预测出行人的大致位置,可以提前选择最优信标进行通信,从而改善定位的准确性和响应速度。
[0003] 现有的UWB定位技术通常依赖于上一次定位的结果进行信标选择,这种方法存在局限性,特别是在行人运动频繁或者环境复杂的情况下,容易导致定位延迟或不准确。此外,虽然现有技术中已经利用实际地理信息(如楼宇布局和不可通行区域)辅助定位,但这些方法通常是静态的,缺乏对行人行为动态变化的实时响应能力。
[0004] 上述内容仅用于辅助理解本发明的技术方案,并不代表承认上述内容是现有技术。
具体实施方式
[0082] 下面将结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。下文中将参考附图并结合实施例来详细说明本发明。需要说明的是,在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。
[0083] 本发明实施例中术语“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。
[0084] 需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。
[0085] 本发明实施例中术语“多个”是指两个或两个以上,其它量词与之类似。
[0086] 在本发明中,在未作相反说明的情况下,使用的方位词如“上、下、顶、底”通常是针对附图所示的方向而言的,或者是针对部件本身在竖直、垂直或重力方向上而言的;同样地,为便于理解和描述,“内、外”是指相对于各部件本身的轮廓的内、外,但上述方位词并不用于限制本发明。
[0087] 为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合附图对本发明的各实施例进行详细的阐述。然而,本领域的普通技术人员可以理解,在本发明各实施例中,为了使读者更好地理解本发明而提出了许多技术细节。但是,即使没有这些技术细节和基于以下各实施例的种种变化和修改,也可以实现本发明所要求保护的技术方案。以下各个实施例的划分是为了描述方便,不应对本发明的具体实现方式构成任何限定,各个实施例在不矛盾的前提下可以相互结合相互引用。
[0088] 为了解决上述问题,本实施方式涉及一种行人定位方法,可以应用于计算机设备,计算机设备可以为台式机、平板电脑、笔记本等等具有数据处理能力的电子设备,在其他实施例中,也可以是其他具有数据处理能力的电子设备,在此不做具体限制。
[0089] 下面对本发明第一实施方式的行人定位方法的实现细节进行说明,以下内容仅为方便理解而提供的实现细节,并非实施本方案的必须。
[0090] 本实施方式的具体流程如图1所示,具体包括:
[0091] 步骤S100,获取行人历史轨迹数据以及环境数据;
[0092] 应该理解的是,本发明的执行主体可以但不限于为终端设备。在其他实施例中,终端还可以是包括多个分布式终端设备时,本发明的执行主体为服务器,通过所述服务器聚合多个分布式终端设备发送的强化学习模型参数。
[0093] 环境数据可以是GIS系统和传感器收集的建筑物布局、道路、通行信息等数据。
[0094] 步骤S200,根据所述行人历史轨迹数据以及环境数据,预测行人的下一位置;
[0095] 应该理解的是,步骤S200包括步骤S210、步骤S220、以及步骤S230。
[0096] 步骤S210,以环境数据中的关键点作为图中的节点,将节点之间的可通行性作为边,构建图结构,其中节点的特征包括所述节点所处位置的环境信息,边的特征包括路径的长度、通过难度;
[0097] 应该理解的是,节点可以为建筑物、行人可能经过的路段或关键地点。边可以为节点之间的可通行性,可以是基于道路宽度、距离、建筑物间的相对位置等特征定义。
[0098] 可以是通过GIS(地理信息系统)和传感器数据获取建筑物布局、道路信息,构建图结构。对于每个节点v及其相邻节点u,用边evu表示节点之间的通行关系,边的权重wvu可以根据距离、障碍物、通行时间等进行计算。
[0099] 步骤S220,通过预先构建的图卷积神经网络,对节点以及其邻居节点的信息进行聚合,得到节点的特征表示,聚合公式如下:
[0100] ;
[0101] 其中, 为节点v在第l层的特征表示;
[0102] W(l)为第l层的权重矩阵;
[0103] N(v)为节点v的邻居集合;
[0104] du和dv分别表示节点u和v的度;
[0105] σ为激活函数,通常选择非线性函数,用于引入非线性特性,增强模型的表达能力。
[0106] 应该理解的是,节点的特征包括该位置的环境信息,如人流密度、场景类型(例如商业区、住宅区)等等。边的特征包括路径的长度、通过难度等。
[0107] 步骤S230,根据历史轨迹数据以及相应的环境数据,预测行人的下一位置,预测模型如下:
[0108] ;
[0109] 其中, 为下一位置的预测值;
[0110] H()为预测模型;在本实施例中,可以但不限于为图神经网络模型。
[0111] 为历史轨迹数据对应的特征表示,即为节点v在最后一层的特征表示;
[0112] 为历史轨迹数据对应的环境数据的特征表示,即为节点v的邻居节点的特征表示;
[0113] 为与节点v连接的边的特征。
[0114] 需要说明的是,下一位置的预测可以采用图神经网络模型来进行预测。通过对建筑物布局、道路信息等进行建模,并通过图卷积神经网络捕捉行人在复杂环境中的运动模式。通过对节点和边的特征提取,GNN模型能够在当前环境下对行人未来位置进行精准预测。
[0115] 步骤S300,根据预测出的行人的下一位置,基于预先训练好的强化学习模型,选择出所述下一位置附近的信标;
[0116] 应该理解的是,步骤S300之前还包括建立强化学习模型。通过将行人位置、信标分布等作为状态,采用训练好的强化学习模型来动态选择信标,以最大化定位精度和最小化定位延迟。每一次的信标选择结果会根据定位误差和定位延迟反馈,调整后续策略。
[0117] 强化学习模型的建立方法包括:
[0118] 定义状态st、动作空间,其中状态st包括当前位置pt、周围信标的分布和信号强度Bt、以及环境动态特征Et,动作空间为A={B1,B2,……,Bn},Bi为第i个信标,动作at为系统在时刻t做出的信标选择;
[0119] 设置奖励函数,公式为:
[0120] ;其中,rt为奖励,误差表示定位结果与实际位置的偏差;延迟表示系统响应时间,α和β为调整奖励的权重;
[0121] 构建强化学习模型,通过策略 选择动作,并根据奖励更新策略,更新公式如下:
[0122] ;
[0123] η为学习率,γ为折扣因子。
[0124] 需要说明的是,在输入强化学习模型时,当前位置pt即输入预测出的下一位置。该模块使用强化学习策略优化UWB信标的选择。通过定义行人位置、信标分布等作为状态,使用强化学习算法动态选择信标,以最大化定位精度和最小化定位延迟。每一次的信标选择结果会根据定位误差和定位延迟反馈,调整后续策略。
[0125] 步骤S400,根据选择出的下一位置附近的信标,对行人进行定位。
[0126] 本发明提供的行人定位方法,通过获取行人历史轨迹数据以及环境数据;根据所述行人历史轨迹数据以及环境数据,预测行人的下一位置;根据预测出的行人的下一位置,基于预先训练好的强化学习模型,选择出所述下一位置附近的信标;根据选择出的下一位置附近的信标,对行人进行定位,如何可以提高在复杂环境和动态变化下的精度和响应速度。
[0127] 进一步地,本发明通过先预测下一位置,可以筛选出下一位置附近的信标,主动与这些信标进行通信,能够获得更优的测距,从而定位更精准;
[0128] 进一步地,假设不知道下一位置,那么只能在无线电环境中盲目的扫描,而无线电环境比较复杂,会浪费比较多的时间根据信号的强度关系来筛选信标以及对信标做测距,例如可能在无线电扫描中,可能是很远处的信标能通信上,则会花费大量时间与这个信标通信,然而这个测距是没有意义的。由于通常需要的是附近的信标的测距,如此更准确。本发明通过先预测下一位置,给出一个大概范围,那么就可以根据下一位置辅助确定主动与哪几个信标进行通信,去获取更有利于精确定位行人所在位置的测距。
[0129] 图2示意出了本发明行人定位方法的第二实施方式,基于第一实施方式,所述步骤S200之前,还包括:
[0130] 步骤S510,获取行人的步态数据、行为数据以及当前环境数据;
[0131] 应该理解的是,可以通过摄像头、传感器或其他可穿戴设备(例如运动手表)来采集行人的步态数据,其中步态数据包括行走速度、步频等。行为数据可以但不限于包括是否转向、是否停留等。当前环境数据包括所在的区域类型、交通流量等。通过步态数据、行为数据以及当前环境数据,可以来推断行人的短期行为意图。
[0132] 步骤S520,分别提取所述步态数据、行为数据、以及当前环境数据的特征;
[0133] 应该理解的是,步态数据和行为数据的特征提取可以采用识别算法提取,也可以采用手动标注的方式获取。
[0134] 具体地,使用卷积网络对所述步态数据、行为数据进行特征提取;使用全连接层对所述当前环境数据进行特征提取。
[0135] 对步态数据进行特征提取,得到步态特征。对行为数据进行特征提取,得到行为特征。对环境数据进行特征提取,得到环境特征。环境特征包括区域类型和人流密度等。
[0136] 步骤S530,将提取的所述步态数据、行为数据、以及当前环境数据的特征作为输入,输入训练好的长短期记忆网络模型,输出行人下一步的行为意图预测;
[0137] 应该理解的是,通过使用LSTM融合步态特征、行为特征、环境特征,来预测行人下一步的行为意图。
[0138] 相应地,所述步骤S200,包括:
[0139] 步骤S240,根据历史轨迹数据、相应的环境数据、以及行人下一步的行为意图预测,预测行人的下一位置。
[0140] 应该理解的是,通过结合行人下一步的行为意图预测、历史轨迹数据、以及相应的环境数据来进一步预测行人的下一位置,如此预测结果更准确。
[0141] 在其他实施例中,还可以是在根据历史轨迹数据、相应的环境数据、以及行人下一步的行为意图预测,对行人轨迹进行预测。在其他实施例中,还可以是在步骤S400之后,根据选择出的信标,结合行人下一步的行为意图预测,来进一步预测行人的轨迹。
[0142] 如图3所示,图3示意出了本发明行人定位方法的第三实施方式,基于第一实施方式,所述行人定位方法应用于服务器,所述服务器聚合多个分布式终端设备发送的强化学习模型参数,每个分布式终端设备上建立有所述强化学习模型;所述方法还包括:
[0143] 步骤S610,所述服务器聚合每个所述分布式终端设备发送的强化学习模型参数,得到整体模型,其中整体模型的参数的计算公式如下:
[0144] ;
[0145] 其中, 为整体模型的参数;
[0146] wk为第k个分布式终端设备的强化学习模型的参数;
[0147] Dk为第k个分布式终端设备的数据集。
[0148] 应该理解的是,通过这种方式服务器可以从多台分布式终端设备中集成参数,形成一个全局的预测模型,而不需要访问设备的私有数据。
[0149] 步骤S620,在完成整体模型后,将新的整体模型发送给每个所述分布式终端设备,以使所述分布式终端设备使用整体模型更新自身的强化学习模型参数;
[0150] 其中,每个所述分布式终端设备最小化其数据上的损失函数,损失函数为:
[0151] ;
[0152] 每个所述分布式终端设备上的数据集为 ,目标函数为:
[0153] ;
[0154] 为分布式终端k的损失函数;
[0155] w为共享模型的参数;
[0156] xi为输入数据;
[0157] yi为对应的目标输出;
[0158] 为预测函数。
[0159] 应该理解的是,本发明通过对多个分布式终端设备上的轨迹数据进行协同学习。每个分布式终端设备在本地收集和处理数据,再将模型参数汇总到服务器进行聚合,形成全局的轨迹预测模型。这种方法在保护数据隐私的同时提升了整体模型的泛化能力和适应性。
[0160] 为了实现上述目的,本发明还提供一种行人定位装置,如图4所示,所述行人定位装置包括获取单元710、预测单元720、选择单元730、以及定位单元740。
[0161] 获取单元710用于获取行人历史轨迹数据以及环境数据。环境数据可以是GIS系统和传感器收集的建筑物布局、道路、通行信息等数据。
[0162] 预测单元720用于根据所述行人历史轨迹数据以及环境数据,预测行人的下一位置。预测单元720还用于以环境数据中的关键点作为图中的节点,将节点之间的可通行性作为边,构建图结构,其中节点的特征包括所述节点所处位置的环境信息,边的特征包括路径的长度、通过难度;
[0163] 应该理解的是,节点可以为建筑物、行人可能经过的路段或关键地点。边可以为节点之间的可通行性,可以是基于道路宽度、距离、建筑物间的相对位置等特征定义。
[0164] 可以是通过GIS(地理信息系统)和传感器数据获取建筑物布局、道路信息,构建图结构。对于每个节点v及其相邻节点u,用边evu表示节点之间的通行关系,边的权重wvu可以根据距离、障碍物、通行时间等进行计算。
[0165] 预测单元720还用于通过预先构建的图卷积神经网络,对节点以及其邻居节点的信息进行聚合,得到节点的特征表示,聚合公式如下:
[0166] ;
[0167] 其中, 为节点v在第l层的特征表示;
[0168] W(l)为第l层的权重矩阵;
[0169] N(v)为节点v的邻居集合;
[0170] du和dv分别表示节点u和v的度;
[0171] σ为激活函数,通常选择非线性函数,用于引入非线性特性,增强模型的表达能力。
[0172] 应该理解的是,节点的特征包括该位置的环境信息,如人流密度、场景类型(例如商业区、住宅区)等等。边的特征包括路径的长度、通过难度等。
[0173] 预测单元720还用于根据历史轨迹数据以及相应的环境数据,预测行人的下一位置,预测模型如下:
[0174] ;
[0175] 其中, 为下一位置的预测值;
[0176] H()为预测模型;在本实施例中,可以但不限于为图神经网络模型。
[0177] 为历史轨迹数据对应的特征表示,即为节点v在最后一层的特征表示;
[0178] 为历史轨迹数据对应的环境数据的特征表示,即为节点v的邻居节点的特征表示;
[0179] 为与节点v连接的边的特征。
[0180] 需要说明的是,下一位置的预测可以采用图神经网络模型来进行预测。通过对建筑物布局、道路信息等进行建模,并通过图卷积神经网络捕捉行人在复杂环境中的运动模式。通过对节点和边的特征提取,GNN模型能够在当前环境下对行人未来位置进行精准预测。
[0181] 选择单元730用于根据预测出的行人的下一位置,基于预先训练好的强化学习模型,选择出所述下一位置附近的信标。强化学习模型的建立方法包括:
[0182] 定义状态st、动作空间,其中状态st包括当前位置pt、周围信标的分布和信号强度Bt、以及环境动态特征Et,动作空间为A={B1,B2,……,Bn},Bi为第i个信标,动作at为系统在时刻t做出的信标选择;
[0183] 设置奖励函数,公式为:
[0184] ;其中,rt为奖励,误差表示定位结果与实际位置的偏差;延迟表示系统响应时间,α和β为调整奖励的权重;
[0185] 构建强化学习模型,通过策略 选择动作,并根据奖励更新策略,更新公式如下:
[0186] ;
[0187] η为学习率,γ为折扣因子。
[0188] 需要说明的是,在输入强化学习模型时,当前位置pt即输入预测出的下一位置。该模块使用强化学习策略优化UWB信标的选择。通过定义行人位置、信标分布等作为状态,使用强化学习算法动态选择信标,以最大化定位精度和最小化定位延迟。每一次的信标选择结果会根据定位误差和定位延迟反馈,调整后续策略。
[0189] 定位单元740用于根据选择出的下一位置附近的信标,对行人进行定位。
[0190] 应该理解的是,通过结合行人下一步的行为意图预测、历史轨迹数据、以及相应的环境数据来进一步预测行人的下一位置,如此预测结果更准确。
[0191] 在其他实施例中,还可以是在根据历史轨迹数据、相应的环境数据、以及行人下一步的行为意图预测,对行人轨迹进行预测。
[0192] 为了实现上述目的,本发明还提供一种计算机设备,如图5所示,该清洁基站包括至少一个处理器801;以及,与所述至少一个处理器801通信连接的存储器802;其中,所述存储器802存储有可被所述至少一个处理器801执行的指令,所述指令被所述至少一个处理器801执行,以使所述至少一个处理器801能够执行上述的行人定位方法。
[0193] 其中,存储器802和处理器801采用总线方式连接,总线可以包括任意数量的互联的总线和桥,总线将一个或多个处理器801和存储器802的各种电路连接在一起。总线还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路连接在一起,这些都是本领域所公知的,因此,本文不再对其进行进一步描述。总线接口在总线和收发机之间提供接口。收发机可以是一个元件,也可以是多个元件,比如多个接收器和发送器,提供用于在传输介质上与各种其他装置通信的单元。经处理器801处理的数据通过天线在无线介质上进行传输,进一步,天线还接收数据并将数据传送给处理器801。
[0194] 处理器801负责管理总线和通常的处理,还可以提供各种功能,包括定时,外围接口,电压调节、电源管理以及其他控制功能。而存储器802可以被用于存储处理器801在执行操作时所使用的数据。
[0195] 为了实现上述目的,本发明提供一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时实现上述的行人定位方法。
[0196] 即,本领域技术人员可以理解,实现上述实施方式方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序存储在一个存储介质中,包括若干指令用以使得一个设备(可以是单片机,芯片等)或处理器(processor)执行本申请各个实施方式所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read‑Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
[0197] 显然,上述所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下,可以做出其它不同形式的变化或变动,都应当属于本发明保护的范围。