首页 / 基于手语识别及多声源定位的听障人群辅助系统

基于手语识别及多声源定位的听障人群辅助系统实质审查 发明

技术领域

[0001] 本发明属于手语识别技术领域,具体涉及基于手语识别及多声源定位的听障人群辅助系统。

相关背景技术

[0002] 现有的软件大部分仅为手机端应用,市面上相近的APP中,“音书APP”支持语音转文字,“手语翻译官”支持手语转文字,但它们均为手机端应用,且不支持声源定位、声音分类、声音可视化等功能。“百度智能云曦灵”仅为央视提供服务,普通消费者无法使用。且不支持实时手语识别、实时多声源定位、声音分类等分析功能,仅支持语音识别,对于听障人士的生活场景中遇到的各种声音无法进一步分析并可视化出来。由此不难看出,目前市场上缺少一款听障人士的一体式辅助软件。
[0003] 现有的前沿手语识别大多基于美国手语(ASL)设计,而支持中国国家通用手语的产品几乎没有。市面上已有的手语识别服务(例如曦灵)目前从来未开放给普通消费者使用过,其他服务则价格高昂,对于普通听障人士来说负担较重。因此,目前的听力辅助设备主要落脚在生存层面,也存下以下问题;
[0004] 1)无法对国家通用生活常用手语词汇的识别,需要通过键盘等繁杂的输入方式才可与他人沟通
[0005] 2)目前听障人士辅助类产品缺少声源定位功能,但声源定位实际上是极为重要的一项功能,听障人士无法感知到声音,对于生活中的说话声、物品掉落声、甚至汽车鸣笛声等声音都无法感知到方位,极大地影响到了生活质量,也会来带来各种安全隐患。
[0006] 3)当听力障碍人群的周围出现说话时,尤其是背对听力障碍人群,听力障碍人群无法观察到,导致听力障碍人群无法进行及时的沟通,且无法直观的感受声音,感受生活的热闹,易产生隔阂。
[0007] 因此,针对上述技术问题,有必要提供基于手语识别及多声源定位的听障人群辅助系统。
[0008] 公开于该背景技术部分的信息仅仅旨在增加对本发明的总体背景的理解,而不应当被视为承认或以任何形式暗示该信息构成已为本领域一般技术人员所公知的现有技术。

具体实施方式

[0028] 为了使本技术领域的人员更好地理解本发明中的技术方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
[0029] 如图1所示,本发明一实施例中的基于手语识别及多声源定位的听障人群辅助系统包括有MR眼镜、手语捕捉系统和声源定位系统。实现基于MR技术,能够进行环境声音可视化和声源定位,将发出声音的位置和具体信息显示给听障人士,通过听障人士一端佩戴的MR设备就可以实现和普通人的无障碍交流,系统
[0030] MR眼镜用于听障人群在日常生活中或者与他人交流时,进行佩戴,实时识别手语,并且可以进行实时声源定位并可视化声音,辅助听障人士发现和感受声音,语音转文字转化满足听障人士的交流需求,支持裸手交互,不需要手拿手机就能实现交流。
[0031] 手语捕捉系统通过捕捉采集的视频流中的手部运动信息,提取出关键点的位置和运动轨迹。其中,手语捕捉系统是计算机视觉的一项子任务,核心思想是通过捕捉视频流中的手部运动信息,提取出关键点的位置和运动轨迹,从而实现对手语的识别和分析。
[0032] 进一步的,本申请使用了实时性强的手语识别算法,以及精确度高的声音识别模型,能够打破听障人士与其他人之间的交流壁垒,双方均可以使用自己习惯的方式进行对话,真正做到了无障碍沟通。
[0033] 具体的,手语捕捉系统捕捉手部运动信息包括下述步骤;
[0034] S31、预处理;采用检测算法要对输入的图像或视频进行预处理,提取出手部关节点等手部特征;
[0035] S32、寻找关键点;利用深度神经网络,在图像或视频中找到关键点的位置;
[0036] 其中,关键点为人体的各个关节。
[0037] 需要注意的是,进一步的,而为了识别手势对应的手语单词,本产品利用残差网络对关键点进行分类,与官方残联机构合作拍摄并制作了了MR眼镜视角的手语数据集,以此训练了准确率高、鲁棒性好的分类模型。识别效果如图3所示。
[0038] S33、估计手部的姿态;通过计算关键点之间的相对位置和角度,来估计手部的姿态;
[0039] 其中,手部的姿态包括人体的各个关节的弯曲程度。
[0040] S34、姿态跟踪;对连续的图像或视频帧进行姿态跟踪,从而得到手部姿态的连续变化,利用分类器对当前表示的手语单词进行预测;
[0041] S35、手语结果显示;根据提前预输入的手语数据集对当前识别的手部姿势进行识别,并将其即时转换为文字,转换的文字信息将通过MR眼镜显示。
[0042] 检测算法为基于MoveNet模型的自底向上的人体骨骼关键点检测算法。
[0043] 进一步的,检测算法包括下述步骤;
[0044] S41、关键点检测;将单帧中所有人的全部关键点进行检测识别;
[0045] S42、关键点聚类连接;将检测出的关键点进行聚类处理,将每一个人的不同关键点进行连接。
[0046] 在使用时,通过实时人体姿势关节点捕捉及关键点分类,实现了手语识别功能,可以识别国家通用生活常用手语。通过实时低延迟的手语单词识别,结合GPT大语言模型及语音合成、语音识别,实现了听障人士通过手语与其他人的无障碍沟通,产品学习使用成本也极大地降低,无需通过键盘等繁杂的输入方式即可与他人沟通。
[0047] 声源定位系统;包括有语音识别单元、麦克风阵列和多声源追踪单元。声源定位系统采用多种算法进行声源定位及多声源追踪,并行录制的声音数据训练了AclNet网络,以实现声音分类,声源定位系统连接MR眼镜,通过可视化呈现给听障人士。
[0048] 具体的,语音识别单元包括下述步骤;
[0049] S21、降噪;使用Demucs算法进行实时降噪;
[0050] S22、语音文本;并使用Fast‑Whisper快速识别得到语音文本;
[0051] S23、可视化生成;利用ChatGPT模型,结合LoRA风格化模型运用Stable Diffusion为声音生成AI图文描述,让听障人士可以更直观地感受到声音。
[0052] 在此需要说明的是,信号源的定位是传感器阵列信号处理领域重要部分,曾应用于雷达、声呐等大型通信设备中,到20世纪80年代,随着语音通信发展,基于麦克风阵列的语音信号处理也逐步受到学者们关注,在会议发言人定位、机器人听觉系统、安防等场景都得到了广泛的研究与应用。目前基于小型麦克风阵列的声源定位大多是二维层面。
[0053] 多声源追踪单元用于对声源进行定位。可将听到的声音进行分类和处理,识别出声音的种类并定位,让听障人士能够确定声源的位置。在生活中,可以定位敲门声、汽车鸣笛声、热水壶爆、电饭煲的完成音,将其通过MR眼镜显示在听障人士的眼前,便利听障人士的日常生活,增加他们生活中的“参与感”,并消除生活中潜藏的各种安全隐患。
[0054] 目前,声源定位方法一般可分为三类,一种是基于TDOA的两步算法(two‑stage algorithm),一种是基于空间谱估计,如MUSIC等,还有就是基于beamforming的方法,即SRP(steered‑response power)。但MUSIC算法已经过时,深度学习算法实时性差且对算力要求高,而本申请改进的SRP‑PHAT‑HSDA声源定位算法精确度及实时性都非常高,本申请还将其与MR眼镜结合实现可视化显示声音方位,让听障人士以较低成本的方式即可感知到生活中的各种声音。
[0055] 多声源追踪单元的声源通过SRP‑PHAT‑HSDA算法对空间不同方向的声音进行增强,得到声音信号最强的方向就被认为是声源的方向;
[0056] 进一步的。多声源追踪单元进行声源定位包括下述步骤;
[0057] S1、SRP算法;通过SRP算法,利用延时‑累加(delay‑and‑sum)的方法,寻找输出能量最大的方向;
[0058] S2、PHAT算法;通过PHAT(phase transform)变换将对幅度做归一化,只保留相位信息,使得到的峰值更明显,提高在噪声及混响环境下的性能。
[0059] S3、HSDA算法;使用分层搜索(HS)来估算声源位置。
[0060] 其中,SRP‑PHAT‑HSDA算法原理如图2所示。
[0061] 故本申请使用的算法识别延迟在毫秒级别,相对于基于深度学习的算法来说,硬件要求更低,实时性更强,鲁棒性更好。对于听障人士生活场景来说,实时性更强意味着能更好地保障其出行等场景下的安全性。
[0062] 进一步的,本申请利用深度学习分析环境内的声音并进行分类,识别为人声的同时,并识别人们说话的谈话声,将说出的话用实时转文字,以文字和混合现实面板的形式展现给听障人士,让听障人士能够直观地看到话语。
[0063] 并通过混合现实技术,将声音以可视化的形式呈现给听障人士,让听障人士直观的感受到声音,体会声音的所要传达的信息,减少他们生活中的隔阂,让他们感受到生活的“热闹”,不再仅仅是生存,而是有品质的“生活”。为他们增添迈出家门的勇气,和外界联系的果敢。
[0064] 本申请具有以下益处;
[0065] (1)实时识别生活常用手语并通过AI语音合成播报给其他人,同时支持识别他人语音转为文本显示,可以实现听障人士与其他人之间的无障碍交流。
[0066] (2)实时高效进行声源定位,识别延迟远低于市面上其他产品的算法,并且可视化呈现给用户。
[0067] (3)实现声源定位的硬件成本低,仅需一副MR眼镜以及4麦麦克风阵列,无需传统声源定位所需的价格高昂的16麦麦克风阵列。
[0068] (4)使用MR显示技术来进行声音的可视化展示,与移动端应用显示的种种不直观形成了鲜明对比。
[0069] (5)识别声音类别,并利用AIGC技术为用户提供详细描述。
[0070] 对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。
[0071] 此外,应当理解,虽然本说明书按照实施方式加以描述,但并非每个实施方式仅包含一个独立的技术方案,说明书的这种叙述方式仅仅是为清楚起见,本领域技术人员应当将说明书作为一个整体,各实施例中的技术方案也可以经适当组合,形成本领域技术人员可以理解的其他实施方式。

当前第1页 第1页 第2页 第3页
相关技术
听障相关技术
定位听相关技术
张乾仁发明人的其他相关专利技术