用于语音转写的方法、装置、开发平台和存储介质

用于语音转写的方法、装置、开发平台和存储介质实质审查发明

技术领域

[0001] 本申请涉及深度学习技术领域，具体而言，涉及一种用于语音转写的方法、装置、开发平台和存储介质。

具体实施方式

[0045] 为了能够更加详尽地了解本公开实施例的特点与技术内容，下面结合附图对本公开实施例的实现进行详细阐述，所附附图仅供参考说明之用，并非用来限定本公开实施例。在以下的技术描述中，为方便解释起见，通过多个细节以提供对所披露实施例的充分理解。
然而，在没有这些细节的情况下，一个或多个实施例仍然可以实施。在其它情况下，为简化附图，熟知的结构和装置可以简化展示。

[0046] 目前，对于TO B(To Business面向商业或面向客户)类项目需求对接与实施交付，总会有很多客户个性化的需求。具体在语音转写这个细分领域的算法问题上，除了要保证不同行业的领域热词要转写准确，而且还需要让语音转写软件满足客户的个性化需求。

[0047] 相关技术中，一般是项目交付团队业务/产品经过客户需求调研，将客户需求拿回来，算法人员根据项目具体需要进行二次开发，部署一套定制开发的模型到项目，客户试用并对转写不准确的点进行反馈，算法多次调优，至最终交付。其中问题就在于，客户也很难一次性表达清楚所有的定制化需求，需要在使用过程中不断的进行优化调整。这个过程中需要有产品或者项目交付人员进行维护，每一个需要迭代的需求点发现到最后完成优化中间需要传递很多次。导致项目周期较长，开发效率较低，人员投入高。

[0048] 而本申请提供了一种用于语音转写的方法，旨在打破语音转写TO B类项目交付冗长的流程，通过界面化功能配置，在线部署的方式实现项目的模型直接交付，实现零代码定制化开发项目交付。

[0049] 值得注意的是，本申请中提到的平台是指开发平台。平台是一个相对概念，任何软件都可以叫平台，也可以叫工具。一般理解的平台就是能够让用户自己在上面进行开发的软件。而开发平台可以是一种服务器、台式机、笔记本电脑上的某款软件等。可以通过连接互联网进行通信连接，具有智能控制，智能应用的特征，运作过程往往依赖于物联网、互联网以及电子芯片等现代技术的应用和处理。

[0050] 结合图1所示，本公开实施例提供的一种用于语音转写的方法，包括：

[0051] S101，处理器利用已配置的语音转写模型对测试语音进行识别和转写，并将转写结果呈现给用户。

[0052] S102，处理器在转写结果不满足用户需求的情况下，对语音转写模型进行调整。

[0053] S103，处理器在转写结果满足用户需求的情况下，发布语音转写模型；

[0054] S104，处理器基于发布的语音转写模型，进行语音转写。

[0055] 本发明采用深度学习技术领域的技术手段，是一种基于平台化配置的语音转写方法。首先基于平台部署通用的语音转写模型，进而对用户上传的语音进行识别和转写。在转写之后，可以基于平台将转写的结果同时呈现给用户，这样就可以了解用户是否满足当前的转写结果。如果客户认为转写结果不够精准或并不符合客户习惯，那么就可以立即对模型提出建议，从而开发人员可以立刻进行调整。最后将用户满意的语音转写模型在平台上发布。相关技术中都是直接用模型进行语音转写处理，不能很好的满足客户的个性化需求。而本申请是把语音转写模型部署于平台化配置，基于用户需求进行开发，从而使得让用户也参与了开发和测试的过程。让用户可以更加快速的提出建议，也方便开发人员进行优化，进而大大缩短交付周期，提高开发效率。

[0056] 可选地，结合图2所示，本申请实施例提供的又一个用于语音转写的方法包括：

[0057] S201，处理器接收用户在平台上部署的语音转写模型。

[0058] S202，处理器获取应用场景，并配置于语音转写模型。

[0059] S203，处理器获取热词词典，并配置于语音转写模型。

[0060] S204，处理器利用已配置好的语音转写模型，对测试语音进行识别和转写，并将转写结果呈现给用户。

[0061] S205，处理器根据用户对转写结果的反馈，判断转写结果是否满足用户需求，若是，进入S2061；若否，进入S2062

[0062] S2061，处理器在平台上发布语音转写模型。

[0063] S2062，处理器根据用户的输入指令，对语音转写模型进行调整。

[0064] 可选地，获取热词词典的步骤包括新建热词词典，或根据用户输入的转写需求转化为热词词典，或根据已配置的应用场景，在数据库中检索与应用场景匹配的热词词典。通过多种方式获取热词词典，可以极大程度的保证语音转写的正确，从而进一步提高对于语音转写模型的输出准确率。

[0065] 具体地，应用场景可以为车辆、航空、交通、网络等。有些同音不同义或相近读音的词语事实上根据语音很难去进行识别到底应该选择哪一个，例如“框架”和“矿价”。在这种情况下，可以通过限定应用场景，从而确定其使用领域，提高识别的准确性。

[0066] 可选地，获取测试语音的方法包括接收用户上传的语音的测试语音，或根据已配置的应用场景，在数据库中检索对应场景的测试语音，或接收用户在线录制的测试语音。通过数据库检索对应场景获取测试语音，可以快速获取符合相关行业领域的一段语音，进而进行识别。也可以满足由用户自己在线录制或上传一段语音，对其进行识别转写，从而更加贴合用户的需求。

[0067] 可选地，在转写结果不满足所述用户需求的情况下，对语音转写模型进行调整，包括：在转写结果不满足所述用户需求的情况下，根据用户的输入指令，对已配置于所述语音转写模型的热词词典进行修改，或；在转写结果不满足所述用户需求的情况下，删除已配置于所述语音转写模型的热词词典，并根据用户的输入指令重新配置热词词典。当用户对转写的结果不满意时，可以对热词词典进行修改，进一步丰富部分热词，从而提高转写准确率。也可以直接删除掉已配置好的热词词典，重新由用户上传新的热词词典或者更换对应领域内的其他热词词典。从而保证最后在平台上发布的语音转写模型可以保证转写的准确和客户的需求。

[0068] 可选地，对输入的语音进行转写识别后，向用户显示未配置热词词典的转写结果和配置热词词典的转写结果。从而使用户清晰直观的看出经过热词词典配置后，转写的准确性会有明显的提高。

[0069] 可选地，上述方法还可以将语音转写的测试语音和测试结果存储至应用场景对应的数据库，以便再次调用。从而大大增加了该基于平台发布的语音转写模型的使用便利性。

[0070] 下面结合图3至图6，对本申请基于平台发布的语音转写模型进行具体介绍和说明。

[0071] 由图3和图4所示，用户登录至已经部署好语音转写模型的平台后，需要对模型的应用场景进行配置。初始状态下没有任何的场景，点击添加，用户输入或选择对应的具体应用场景。获取用户的实际应用场景。其目的是先了解了待识别语音的所处行业或领域，从而在基于该行业或领域的基础上再进行识别，从而提高识别的准确性。

[0072] 此外，创建的场景会在用户的工作台中以列表的形式进行呈现，用户可以对已有的场景进行删除或是编辑操作。单击删除按钮，即对应的场景会被删除；单击编辑按钮，进入对应的场景的编辑页面；单击添加按钮，弹窗新增场景交互。

[0073] 在添加完应用场景后，需要配置热词词典，可以通过新建热词词典，或根据用户输入的转写需求转化为热词词典，或根据已配置的应用场景，在数据库中检索与应用场景匹配的热词词典等多种方式进行选择，从而提高对于语音转写模型的输出准确率。

[0074] 配置好热词词典后，接下来用户可以对已经配置好的语音转写模型进行测试。结合图5所示，测试语音可以通过上传本地录音、在线录制或从对应应用领域的数据库内进行搜索获得测试语音，进而进行转写。对转写结果进行分析时，结合图6所示，左侧为没有配置当前热词词典的转写结果，右侧为配置了热词词典的转写结果。从而使用户清晰直观的看出经过配置热词词典后，转写的准确性会有明显的提高。当然如果在配置了热词词典后如果转写效果并不符合客户需求，也可以通过对比清晰的看出那些地方存在转写欠缺，从而改进。

[0075] 当然，在转写结果不满足所述用户需求的情况下，还可以对语音转写模型进行调整。例如，在转写结果不满足所述用户需求的情况下，根据用户的输入指令，对已配置于所述语音转写模型的热词词典进行修改，或；在转写结果不满足所述用户需求的情况下，删除已配置于所述语音转写模型的热词词典，并根据用户的输入指令重新配置热词词典。当用户对转写的结果不满意时，可以对热词词典进行修改，进一步丰富部分热词，从而提高转写准确率。也可以直接删除掉已配置好的热词词典，重新由用户上传新的热词词典或者更换对应领域内的其他热词词典。从而保证最后在平台上发布的语音转写模型可以保证转写的准确和客户的需求。

[0076] 可选地，上述方法还可以将语音转写的测试语音和测试结果存储至应用场景对应的数据库，以便再次调用。从而大大增加了该基于平台发布的语音转写模型的使用便利性。

[0077] 本申请还提供了一种开发平台，包括上述实施例中的用于语音转写的装置。其中，结合图7所示，用于语音转写的装置包括处理器(processor)700和存储器(memory)701。可选地，该装置还可以包括通信接口(Communication Interface)702和总线703。其中，处理器700、通信接口702、存储器701可以通过总线703完成相互间的通信。通信接口702可以用于信息传输。处理器700可以调用存储器701中的逻辑指令，以执行用于语音转写的方法。

[0078] 此外，上述的存储器701中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。

[0079] 存储器701作为一种存储介质，可用于存储软件程序、计算机可执行程序，如本公开实施例中的方法对应的程序指令/模块。处理器700通过运行存储在存储器701中的程序指令/模块，从而执行功能应用以及数据处理，即实现上述实施例中用于语音转写的方法。

[0080] 存储器701可包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序；存储数据区可存储根据终端设备的使用所创建的数据等。此外，存储器701可以包括高速随机存取存储器，还可以包括非易失性存储器。

[0081] 上述的存储介质可以是暂态计算机可读存储介质，也可以是非暂态计算机可读存储介质。非暂态存储介质，包括：U盘、移动硬盘、只读存储器(ROM，Read‑Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等多种可以存储程序代码的介质，也可以是暂态存储介质。

[0082] 以上描述和附图充分地示出了本公开的实施例，以使本领域的技术人员能够实践它们。其他实施例可以包括结构的、逻辑的、电气的、过程的以及其他的改变。实施例仅代表可能的变化。除非明确要求，否则单独的部件和功能是可选的，并且操作的顺序可以变化。一些实施例的部分和特征可以被包括在或替换其他实施例的部分和特征。而且，本申请中使用的用词仅用于描述实施例并且不用于限制权利要求。如在实施例以及权利要求的描述中使用的，除非上下文清楚地表明，否则单数形式的“一个”(a)、“一个”(an)和“所述”(the)旨在同样包括复数形式。类似地，如在本申请中所使用的术语“和/或”是指包含一个或一个以上相关联的列出的任何以及所有可能的组合。另外，当用于本申请中时，术语“包括”(comprise)及其变型“包括”(comprises)和/或包括(comprising)等指陈述的特征、整体、步骤、操作、元素，和/或组件的存在，但不排除一个或一个以上其它特征、整体、步骤、操作、元素、组件和/或这些的分组的存在或添加。在没有更多限制的情况下，由语句“包括一个…”限定的要素，并不排除在包括所述要素的过程、方法或者设备中还存在另外的相同要素。本文中，每个实施例重点说明的可以是与其他实施例的不同之处，各个实施例之间相同相似部分可以互相参见。对于实施例公开的方法、产品等而言，如果其与实施例公开的方法部分相对应，那么相关之处可以参见方法部分的描述。

[0083] 本领域技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，可以取决于技术方案的特定应用和设计约束条件。所述技术人员可以对每个特定的应用来使用不同方法以实现所描述的功能，但是这种实现不应认为超出本公开实施例的范围。所述技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

[0084] 附图中的流程图和框图显示了根据本公开实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这可以依所涉及的功能而定。在附图中的流程图和框图所对应的描述中，不同的方框所对应的操作或步骤也可以以不同于描述中所披露的顺序发生，有时不同的操作或步骤之间不存在特定的顺序。例如，两个连续的操作或步骤实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这可以依所涉及的功能而定。框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

查看完整全部详细技术资料

当前第1页第1页第2页第3页