技术领域
[0001] 本发明涉及终端设备管理技术领域,尤其是一种基于DPI技术的终端录音状态检测方法、系统及存储介质。
相关背景技术
[0002] 随着互联网科技的高速发展,信息泄露的渠道越来越多,危害也越来越大。现有的手机、电脑、智能音箱等终端中大多均安装有自带的或第三方的录音软件,如果在用户未知的情况下采用引导方式骗取录音权限并进行录音,将会造成用户的隐私泄露,给用户带来不可估量的损失。
[0003] 现有防录音手段通常是通过安装干扰器发射超声波进行干扰以屏蔽周边录音设备,但是这种方法需要一定的设备成本,只适用于能固定安装干扰器的场景,且限制了用户与终端之间正常的语音交互,影响了用户的使用体验。
具体实施方式
[0052] 下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。对于以下实施例中的步骤编号,其仅为了便于阐述说明而设置,对步骤之间的顺序不做任何限定,实施例中的各步骤的执行顺序均可根据本领域技术人员的理解来进行适应性调整。
[0053] 在本发明的描述中,多个的含义是两个或两个以上,如果有描述到第一、第二只是用于区分技术特征为目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量或者隐含指明所指示的技术特征的先后关系。此外,除非另有定义,本文所使用的所有的技术和科学术语与本技术领域的技术人员通常理解的含义相同。
[0054] 参照图1,本发明实施例提供了一种基于DPI技术的终端录音状态检测方法,具体包括以下步骤:
[0055] S101、获取待检测终端的目标数据流,并通过DPI技术对目标数据流进行协议分析、内容重组得到第一数据内容。
[0056] 具体地,DPI(Deep Packet Inspection)是一种基于数据包的深度检测技术,针对不同的网络应用层载荷(例如HTTP、DNS等)进行深度检测,通过对报文的有效载荷检测决定其合法性。DPI(Deep Packet Inspection)设备通过对网络的关键点处的流量和报文内容进行检测分析,可以根据事先定义的策略对检测流量进行过滤控制,能完成所在链路的业务精细化识别、业务流量流向分析、业务流量占比统计、业务占比整形、以及应用层拒绝服务攻击、对病毒、木马进行过滤和滥用P2P的控制等功能。
[0057] 本发明实施例中,将待检测终端与网络侧的交互数据作为目标数据流,通过DPI对目标数据流进行协议分析、内容重组,得到目标数据流的数据内容。
[0058] 进一步作为可选的实施方式,通过DPI技术对目标数据流进行协议分析、内容重组得到第一数据内容这一步骤,其具体为:
[0059] S1011、通过DPI技术对目标数据流进行TCP/UDP层协议分析、IP层协议分析以及数据链路层协议分析,得到目标数据流的各个数据报文的报文内容;
[0060] S1012、通过DPI技术对报文内容进行内容重组,得到第一数据内容。
[0061] 具体地,普通报文检测仅分析IP包的4层以下的内容,包括源地址、目的地址、源端口、目的端口以及协议类型等,而DPI除了对前面的层次分析外,还增加了应用层分析,识别各种应用及其内容。当IP数据包、TCP或UDP数据流通过基于DPI技术的带宽管理系统时,该系统通过深入读取IP包载荷的内容来对OSI七层协议中的应用层信息进行重组,从而得到整个应用程序的内容,然后按照系统定义的管理策略对流量进行整形操作。
[0062] 本发明实施例中,利用DPI技术对目标数据流的数据报文进行协议分析得到这个报文的内容,进而对其进行重组得到第一数据内容。
[0063] S102、对第一数据内容进行语音识别,当未识别到语音信息,确定待检测终端未进行录音。
[0064] 进一步作为可选的实施方式,对第一数据内容进行语音识别这一步骤,其具体包括:
[0065] S1021、通过预设的语音识别引擎判断第一数据内容是否含有语音信号;
[0066] S1022、若不含语音信号,输出未识别到语音信息;
[0067] S1023、若含有语音信号,通过双门限法对第一数据内容进行端点检测,提取出若干个语音片段,并将语音片段输入到预设的语音识别模型,识别得到语音信息。
[0068] 具体地,本发明实施例通过语音识别引擎判断第一数据内容是否含有语音信号,当含有语音信号,通过基于双门限法的端点检测技术检测出语音片段和非语音片段,然后将语音片段输入到语音识别引擎的语音识别模型中,识别得到语音信息。
[0069] S103、当识别到语音信息,对语音信息进行敏感度分析,判断语音信息是否含有敏感信息。
[0070] 具体地,本发明实施例中,语音信息的敏感度分析用于判别该语音信息是否包含敏感信息,也即用户的隐私信息,具体可通过对语音信息内的词语与预设的敏感词数据库进行匹配得到语音信息的敏感度,从而判断其是否含有敏感信息。
[0071] 进一步作为可选的实施方式,对语音信息进行敏感度分析,判断语音信息是否含有敏感信息这一步骤,其具体包括:
[0072] S1031、对语音信息进行分词处理得到多个词语,并生成相应的词语序列;
[0073] S1032、获取预设的敏感词数据库,将词语序列与敏感词数据库进行匹配,得到语音信息的第一敏感度;
[0074] S1033、当第一敏感度大于等于预设的第一阈值,确定语音信息含有敏感信息,并确定敏感信息的内容,当第一敏感度小于第一阈值,确定语音信息不含敏感信息。
[0075] 具体地,可以采用的分词算法有多种,例如在一些实施例中,可以采用基于词典的分词算法,先把语音信息按照词典切分成多个词语,从而得到相应的词语序列;在一些实施例中,也可以采用基于字的分词算法,先把语音信息分成一个个字,再将字组合成词,从而得到相应的词语序列。
[0076] 进一步作为可选的实施方式,终端录音状态检测方法还包括预先构建敏感词数据库的步骤,其具体包括:
[0077] A1、获取多个预设的敏感词,并确定各敏感词的敏感等级标识;
[0078] A2、将各敏感词与对应的敏感等级标识建立映射关系,得到敏感词数据库。
[0079] 具体地,可预先预设多个敏感词,并确定其敏感等级标识,例如,设置敏感词“账号”,敏感等级标识为“4”,设置敏感词“密码”,敏感等级标识为“5”,设置敏感词“手机号”,敏感等级标识为“4”,设置敏感词“时间”,敏感等级标识为“2”。建立各个敏感词与对应的敏感等级标识的映射关系,即可得到敏感词数据库。
[0080] 进一步作为可选的实施方式,将词语序列与敏感词数据库进行匹配,得到语音信息的第一敏感度这一步骤,其具体包括:
[0081] S10321、遍历词语序列中的各词语,并将各词语与敏感词数据库中的各敏感词进行匹配;
[0082] S10322、若匹配到对应的敏感词,将词语替换为对应的敏感等级标识,若匹配不到对应的敏感词,将词语替换为预设的填充标识,从而生成词语序列对应的敏感等级标识序列;
[0083] S10323、确定敏感等级标识序列中敏感等级标识的总数量和总等级数值,确定敏感等级标识序列的总长度,并确定敏感等级标识序列中任意两个敏感等级标识之间的最小间隔长度;
[0084] S10324、根据总数量、总等级数值、总长度以及最小间隔长度确定第一敏感度;
[0085] 其中,第一敏感度与总数量正相关,第一敏感度与总等级数值正相关,第一敏感度与总长度负相关,第一敏感度与最小间隔长度负相关。
[0086] 具体地,本发明实施例中,将词语序列中的词语与敏感词数据库中的敏感词进行匹配,当匹配到敏感词,用对应的敏感等级标识替代原有的词语,未匹配到时用预设的填充标识(如0)进行替代,从而可以得到敏感等级标识序列。
[0087] 在一些可选的实施例中,第一敏感度的计算公式为:
[0088]
[0089] 其中,A表示总数量,B表示总等级数值,C表示最小间隔长度,D表示总长度,S表示第一敏感度。
[0090] 例如,若某段语音信息对应的词语序列转化成的敏感等级标识序列为“000400020300500000200”,则可以确定敏感等级标识的总数量为5,总等级数值为16,总长度为21,而最小间隔长度为1,则可以计算出对应的第一敏感度为
[0091] 可以理解的是,上述第一敏感度的计算公式仅为一种示例,本领域技术人员可以根据实际情况进行设置,本发明实施例对此不作限定。
[0092] S104、当语音信息不含敏感信息,提醒用户待检测终端正在进行录音,当语音信息含有敏感信息,关闭待检测终端的录音权限并通知用户待检测终端存在隐私泄漏风险。
[0093] 步骤S104具体包括以下步骤:
[0094] S1041、当语音信息不含敏感信息,发出警报提醒用户待检测终端正在进行录音,并弹出可供用户关闭待检测终端的录音权限的选择窗口;
[0095] S1042、当语音信息含有敏感信息,关闭待检测终端的录音权限,并将敏感信息的内容推送到前端供用户查看,同时提醒用户待检测终端存在隐私泄漏风险。
[0096] 具体地,当检测到终端的目标数据流的语音信息不含敏感信息时,可以提醒用户该终端正在进行录音,由用户自主选择是否关闭其录音权限;当检测到终端的目标数据流的语音信息含有敏感信息时,可以判断录音权限是否由用户主动打开,若不是则可以强制关闭录音权限,并同时告知用户,可以通过指令重新打开录音权限。
[0097] 以上对本发明实施例的方法步骤进行了说明。可以认识到,本发明实施例通过DPI技术获取终端数据流的数据内容并进行语音识别,可以准确判断终端是否进行录音,通过敏感度分析还可以确定终端录制的语音信息是否含有敏感信息,从而可以提醒用户终端是否处于录音状态以及是否存在隐私泄露的风险,增强了用户隐私的安全性,相较于采用干扰器屏蔽的手段而言,降低了设备成本,适用场景也更广,且不影响用户与终端的语音交互,提高了用户的终端使用体验。
[0098] 参照图2,本发明实施例提供了一种基于DPI技术的终端录音状态检测系统,包括:
[0099] 数据内容获取模块,用于获取待检测终端的目标数据流,并通过DPI技术对目标数据流进行协议分析、内容重组得到第一数据内容;
[0100] 语音识别模块,用于对第一数据内容进行语音识别,当未识别到语音信息,确定待检测终端未进行录音;
[0101] 敏感度分析模块,用于当识别到语音信息,对语音信息进行敏感度分析,判断语音信息是否含有敏感信息;
[0102] 通知模块,用于当语音信息不含敏感信息,提醒用户待检测终端正在进行录音,当语音信息含有敏感信息,关闭待检测终端的录音权限并通知用户待检测终端存在隐私泄漏风险。
[0103] 上述方法实施例中的内容均适用于本系统实施例中,本系统实施例所具体实现的功能与上述方法实施例相同,并且达到的有益效果与上述方法实施例所达到的有益效果也相同。
[0104] 参照图3,本发明实施例提供了一种基于DPI技术的终端录音状态检测装置,包括:
[0105] 至少一个处理器;
[0106] 至少一个存储器,用于存储至少一个程序;
[0107] 当上述至少一个程序被上述至少一个处理器执行时,使得上述至少一个处理器实现上述的一种基于DPI技术的终端录音状态检测方法。
[0108] 上述方法实施例中的内容均适用于本装置实施例中,本装置实施例所具体实现的功能与上述方法实施例相同,并且达到的有益效果与上述方法实施例所达到的有益效果也相同。
[0109] 本发明实施例还提供了一种计算机可读存储介质,其中存储有处理器可执行的程序,该处理器可执行的程序在由处理器执行时用于执行上述一种基于DPI技术的终端录音状态检测方法。
[0110] 本发明实施例的一种计算机可读存储介质,可执行本发明方法实施例所提供的一种基于DPI技术的终端录音状态检测方法,可执行方法实施例的任意组合实施步骤,具备该方法相应的功能和有益效果。
[0111] 本发明实施例还公开了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存介质中。计算机设备的处理器可以从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行图1所示的方法。
[0112] 在一些可选择的实施例中,在方框图中提到的功能/操作可以不按照操作示图提到的顺序发生。例如,取决于所涉及的功能/操作,连续示出的两个方框实际上可以被大体上同时地执行或上述方框有时能以相反顺序被执行。此外,在本发明的流程图中所呈现和描述的实施例以示例的方式被提供,目的在于提供对技术更全面的理解。所公开的方法不限于本文所呈现的操作和逻辑流程。可选择的实施例是可预期的,其中各种操作的顺序被改变以及其中被描述为较大操作的一部分的子操作被独立地执行。
[0113] 此外,虽然在功能性模块的背景下描述了本发明,但应当理解的是,除非另有相反说明,上述的功能和/或特征中的一个或多个可以被集成在单个物理装置和/或软件模块中,或者一个或多个功能和/或特征可以在单独的物理装置或软件模块中被实现。还可以理解的是,有关每个模块的实际实现的详细讨论对于理解本发明是不必要的。更确切地说,考虑到在本文中公开的装置中各种功能模块的属性、功能和内部关系的情况下,在工程师的常规技术内将会了解该模块的实际实现。因此,本领域技术人员运用普通技术就能够在无需过度试验的情况下实现在权利要求书中所阐明的本发明。还可以理解的是,所公开的特定概念仅仅是说明性的,并不意在限制本发明的范围,本发明的范围由所附权利要求书及其等同方案的全部范围来决定。
[0114] 上述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例上述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read‑Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
[0115] 在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。
[0116] 计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印上述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得上述程序,然后将其存储在计算机存储器中。
[0117] 应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
[0118] 在本说明书的上述描述中,参考术语“一个实施方式/实施例”、“另一实施方式/实施例”或“某些实施方式/实施例”等的描述意指结合实施方式或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施方式或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施方式或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施方式或示例中以合适的方式结合。
[0119] 尽管已经示出和描述了本发明的实施方式,本领域的普通技术人员可以理解:在不脱离本发明的原理和宗旨的情况下可以对这些实施方式进行多种变化、修改、替换和变型,本发明的范围由权利要求及其等同物限定。
[0120] 以上是对本发明的较佳实施进行了具体说明,但本发明并不限于上述实施例,熟悉本领域的技术人员在不违背本发明精神的前提下还可做作出种种的等同变形或替换,这些等同的变形或替换均包含在本申请权利要求所限定的范围内。