技术领域
[0001] 本发明属于无线通信、信号处理及智能感知技术领域,尤其涉及一种基于移动通信信号的手势识别方法及系统。
相关背景技术
[0002] 手势识别技术作为一种自然的人机交互方式,在智能家居、智能驾驶、娱乐游戏、医疗康复和公共安全等领域为用户带来了新的交互体验和便捷的操作方式,具有广泛的应用潜力。手势识别技术的核心原理是利用方法从传感器、摄像头或无线设备采集到的数据中提取出与手势相关的特征信息,并将其转换为计算机能够理解的指令。现有的手势识别技术主要分为基于视觉、基于传感器和基于无线信号的三种方法。基于视觉的手势识别方法通过利用摄像头捕捉手部图像或视频序列,结合图像处理和深度学习方法进行分析,识别并解释手部的形状、位置和动态变化;基于传感器的手势识别技术通过捕捉手部运动的物理信息(如加速度、角速度、方位等),将其转化为数字信号,并通过方法对这些信号进行处理和分析,从而识别出具体的手势;基于无线信号的手势识别方法是通过方法分析毫米波、WiFi等无线信号在手势动作影响下的变化,来感知和识别不同的手势。随着通信与感知一体化技术的发展,如何在实现高效通信的同时利用通信信号(如WiFi信号和移动通信信号)进行手势感知,成为未来的研究热点。其中基于WiFi的解决方案通常限于室内环境,且为了实现高采样率,需要占用通信资源,从而干扰正常的数据传输。相比之下,移动通信信号拥有更广的覆盖范围和更高的网络稳定性,适用于更多的应用场景。因此,本发明选择以移动通信信号作为手势感知的载体。然而,这也存在一些挑战,例如,手势在不同位置、方向或远距离场景中执行时,受场景的影响其原始频谱图会存在显著差异,进而影响系统的识别准确性。
[0003] 为了更清楚的阐释其中的原理,列举了三种典型情况,如图1中的(a)所示,目标一和目标二是在感知区域中的不同位置、方向执行相同手势,目标三是在感知区域边界处执行相同手势。本发明对采集到的不同载波的原始CRS(cell reference signal小区参考信号)信息进行初步去噪,不同载波中的原始CRS信息及初步去噪结果如图1中的(b)所示。对初步去噪结果进行短时傅里叶变换(STFT,Short‑Time Fourier Transform),获得的原始频谱图如图1中的(c)所示。可以发现,当目标一和目标二在不同位置、方向执行相同手势时,由于不同方向下手势产生的动态分量大小不一致,且不同的位置下信号与环境反射后的静态分量大小也不同,所以移动通信系统中的CRS信息对应的原始频谱图有很大的不同。对于目标三,由于执行相同手势的位置远离收发设备,系统并不能直接捕获由手势引起的原始CRS信息的变化,导致手势动态分量信息被噪声湮灭,所得到的原始频谱也不能够直接反映手势信息。基于上述现象,可以发现CRS信息的原始频谱图并不能代表手势感知任务的本征特征。
具体实施方式
[0042] 本发明提出了一种基于移动通信信号的信号质量增强方法和手势频谱图的构建方法,解决了基于移动通信信号的手势识别系统在手势不同位置、方向或远距离场景下原始频谱图不一致的技术难题,实现相同手势在任意位置、方向或远距离下特征的一致性,不同手势特征的差异性。本发明的核心思路是通过叠加移动通信系统中多个载波的CRS信息来增强手势动态分量的信号质量,从而增大手势感知范围以实现远距离的感知任务。然后从CRS信息中提取与手势相关的动态分量,并构建手势谱图来表示与场景无关的手势本征运动模式。
[0043] 在日常的手势识别任务中,系统的感知场景可以分为近距离和远距离两种情况。近距离场景是指目标位于系统的初始感知范围内(经过测试评估,本系统的初始感知范围覆盖面积为30平方米);远距离场景则是指目标位置超出初始感知范围(经过测试评估,经过信号质量增强后的系统感知范围覆盖面积可达到228平方米)。针对这两种不同场景,本发明提出了一种基于手势频谱图的鲁棒手势识别方法,具体如下。
[0044] 本发明的工作流程如图2所示,整体上分为信号质量增强阶段和手势频谱图构建阶段。在信号质量增强阶段,针对近距离场景中任意位置、方向的手势识别任务,本发明直接使用单载波中的CRS信息就能够完成感知任务。针对远距离场景中任意位置、方向的手势识别任务,本发明选择叠加移动通信系统中的30个不同的子载波的CRS幅度信息。根据维纳‑辛钦大数定理,基于叠加多个独立同分布样本可以显著降低噪声的分布,突出与手势相关的CRS信息。在手势谱图构建阶段,本发明基于信号质量增强阶段处理后的CRS信息,首先使用窗口长度为100的平滑滤波进一步消除噪声的干扰,其次使用窗口长度为400的长时间滑动窗口滤波器计算与环境相关的静态分量,再次从去噪数据中减去静态分量来获得手势动作的动态分量,进而得到包含与手势运动过程相关的动态分量的CRS信息,最后基于CRS的动态分量进行短时傅立叶变换,得到能够代表手势本征特征的手势频谱图,输入预先建立和训练好的卷积神经网络,得到手势类型完成手势识别任务。
[0045] 下面结合附图和实施例对本发明的技术方案进行详细的说明。
[0046] 实施例1
[0047] 实施例1:近距离场景中任意位置、方向的手势识别
[0048] 系统配置如下:
[0049] 1.系统工作在YunSDR Y750软件无线电平台;
[0050] 2.搭建的LTE系统带宽为20MHz,系统采样率为30.72MHz。只采集单载波中的CRS数据,每秒CRS信息样本点数量为2000。LTE长期演进(Long Term Evolution,)是由第三代合作伙伴计划(The 3rdGeneration Partnership Project,3GPP)组织制定的通用移动无线通信系统(UniversalMobile Telecommunications System,UMTS)技术标准的长期演进。
[0051] 3.系统采用一发一收共2个全向天线,设备初始感知能力覆盖范围为30m2。
[0052] 任务:在近距离场景中,构建与手势动作的位置、方向无关的手势频谱图。
[0053] 对于手势识别,本发明把仅由目标手势动作影响产生的动态分量作为手势谱图的本征信息。具体的,在无线通信信道中,除了LOS传播外,还存在由环境衍射、反射、折射和散射引起的多径效应。当传播环境中存在人体手势动作时,由手臂和手掌反射或散射的信号将形成动态分量,因此,在接收机处的信号可以进一步写为:
[0054] h(n)=hs(n)+hd(n)+hn(n)
[0055] 其中hs(n)表示由于环境反射的静态分量,hd(n)项表示由于人体手势动作反射的动态分量,hn(n)项表示噪声。由于同一手势在不同的位置、方向下信号环境反射路径长度不一致,与噪声和手势本身产生的动态分量叠加后CRS信息的波形和波形的原始频谱图就会不同。
[0056] 为了解决该问题,本发明采用动态分量捕捉方法来滤除噪声分量hn(n)和静态分量hs(n)的干扰,只关注手势动作产生的动态分量hd(n)。具体地,本发明首先对原始CRS数据h(n)进行平滑去噪,得到去除噪声后的信号 公式如下:
[0057]
[0058] 其中n∈[1,N]表示采样点的索引,N表示样本中的采样点数量,
[0059] 是滑动窗口的第一个点, 表示滑动窗口的最后一个点,L(n)=k2‑k1+1表示滑动窗口内的采样点数量,W是窗口长度参数,本发明将其设置为100。对图1所示的目标一和目标二采集的原始CRS信息进行初步去噪后的结果如图3(a)所示,可以看到,对于在不同位置、方向上执行的相同手势,他们的差异很大。
[0060] 对于静态分量 本发明使用滑动窗口滤波器对 进行滤波,计算公式如下:
[0061]
[0062] 其中 是长时间窗口的第一个点,表示长时间窗口的最后一点,Llong(n)=klong2‑klong1+1表示长时间窗口内的样本数,[0063] Wlong是窗口长度参数,本发明将其设置为400个采样点。本发明通过从去噪数据中减去静态分量 来获得手势动作的动态分量
[0064]
[0065] 经过动态分量捕捉方法处理后的结果如图3(b)所示,由于“推”手势动作有一个运动阶段,所以经过方法处理后CRS信息也有一个动态分量的波动阶段。因此,该方法能够有效提取手势的本征运动信息,使得相同手势在不同位置、方向下有着相似的特征规律。
[0066] 由于动态分量的幅度和趋势与人体手势的大小、位置、方向有关,同一手势在不同场景下的动态分量会有所不同,从而影响手势识别的准确性。为了解决这个问题,本发明对获得的动态分量 执行短时傅立叶变换,将时间窗长度设置为Ns=1500,得到大约1.34赫兹的频率分辨率,最终得到与手势动作相关的手势频谱图。如图4所示,上面一行图为手势的原始频谱图,下面一行图为本发明提出方法获得的手势频谱图。采用的手势识别方法是通过卷积神经网络,将得到的手势频谱图作为网络的输入。具体的,我们设计了一个基于深度学习的卷积神经网络。该网络由四层组成,每层中的卷积核的数量分别为16、32、64和256,卷积核大小为3*3,步长和填充大小为1。前三层由卷积层、批量标准化层、ReLU激活层和最大池化层构成。第四层由卷积层、批量标准化层、ReLU激活层构成。分类器由100个神经元的全连接层1、5个神经元的全连接层2和5个类标签的Softmax层构成。
[0067] 目前选择的手势类型包括但不限于以下五种:“推”的手势、“矩形”手势、“圆圈”手势、“推拉”手势和“X”型手势。
[0068] 其中,图4中的(a)和(b)分别为目标一和目标二执行“推”手势动作的原始频谱图及手势谱图,可以看出本发明的提出方法能够显著降低手势位置、方向的影响,使相同手势特征具有一致性。图4中的(c)‑(f)分别为执行绘制“矩形”、“圆圈”、“推拉”和“X”手势动作的原始频谱图及手势谱图,可以看出本发明提出方法针对不同的手势动作,其特征有着显著的差异性。
[0069] 实施例2:远距离场景中任意位置、方向的手势识别
[0070] 系统配置如下:
[0071] 1.系统工作在YunSDR Y750软件无线电平台;
[0072] 2.搭建的LTE系统带宽为20MHz,系统采样率为30.72MHz。子载波频率间隔为15kHz,共1200个子载波,采集30个载波中的CRS数据,每秒CRS信息样本点数量为2000。
[0073] 3.系统采用一发一收共2个全向天线,信号质量增强后系统的感知覆盖范围为2
228m。
[0074] 任务:在系统增强后的感知覆盖范围内,构建与手势动作的位置、方向无关的手势频谱图。
[0075] 众所周知,CRS信息的测量噪声遵循均值为零、方差为σ2(f)的加性白高斯分布。当手势动作的位置距离收发机较远时,噪声功率会大于动态功率,此时人体手势动作引起的动态分量的变化会湮没在噪声中,因此难以提取人体手势动作引起的CRS的变化。由于受噪声的影响,直接获取的CRS变化无法精确反映手势动作。
[0076] 为了解决以上问题,本发明提出了信号质量增强方法。该方法的思想是对独立同分布噪声的多次采样再进行叠加能够显著降低噪声水平。且该想法符合维纳辛钦大数定理:令Xn,n=1,2,...是独立的、同分布的随机变量,随着样本数量n的增加,所有样本的平均值将收敛到期望,表达式如下式所示:
[0077]
[0078] 由于LTE系统在频域上可以将信号划分为多个子载波,因此本发明利用多载波间信息的相关性来叠加不同载波间的CRS信息,提高数据样本数量,达到增强CRS信号质量的目的。
[0079] 具体来说,在信号质量增强阶段,本发明选择使用30个子载波。首先,在采集各载波的CRS信息。其次,对不同子载波CRS信息进行叠加,使得噪声分布更加狭窄。图5(a)展示了在对图1所示目标三远距离的情况下获取到的CRS信息处理前后噪声的统计特性,可以看出经过处理后的噪声分布更加狭窄。图5(b)展示了处理前和经过该方法处理后的CRS幅度信息,可以看出该方法可以有效地增强动态分量,能够有效获取远距离情况下的手势信息。
[0080] 在手势谱图构建阶段,首先基于信号质量增强方法获取到的CRS信息,利用动态分量提取方法提取与手势动作相关的动态分量,滤除与手势位置、方向及环境相关的静态分量。其次构建了能够代表手势本征特征的手势频谱图,如图6(b)所示。
[0081] 采用的手势识别方法是通过卷积神经网络,将得到的手势频谱图作为网络的输入,具体网络参数同实施例1。
[0082] 与目标三的原始频谱图6(a)相比,本发明的方法能够在远距离的情况下提取出代表手势动作的本质特征,并且提取到的手势谱图与图4中的(a)和(b)相比也有着相似的“推”手势特征,体现了相同手势特征的一致性。
[0083] 实施例3
[0084] 本发明的实施例3提供了一种基于移动通信信号的手势识别系统,基于实施例1和实施例2的方法实现,包括:
[0085] 近远场景判断模块,用于对待识别的手势进行场景判断,感知范围在设定阈值内的为近距离场景,否则为远距离场景;
[0086] CRS数据处理模块,用于对于近距离场景,提取移动通信信号单载波中的CRS数据,采用滑动窗口滤波器进行平滑去噪处理;用于对于远距离场景,提取并叠加移动通信信号不同载波间的CRS数据;
[0087] 静态分量计算模块,用于使用长时间窗口长时间窗口滤波器计算静态分量;
[0088] 动态分量计算模块,用于根据静态分量,计算得到动态分量;
[0089] 手势识别模块,用于对动态分量进行短时傅立叶变换,构建手势频谱图,输入训练好的卷积神经网络实现手势识别。
[0090] 最后所应说明的是,以上实施例仅用以说明本发明的技术方案而非限制。尽管参照实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,对本发明的技术方案进行修改或者等同替换,都不脱离本发明技术方案的精神和范围,其均应涵盖在本发明的权利要求范围当中。