有声小说的播放、装置、设备及其存储介质_专利转让申请注册交易-盲点网

有声小说的播放、装置、设备及其存储介质实质审查发明

技术领域

[0001] 本申请实施例涉及人工智能(Artificial Intelligence，AI)技术领域，尤其涉及一种有声小说的播放装置、设备及其存储介质。

具体实施方式

[0068] 下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

[0069] 需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或服务器不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

[0070] 本申请实施例中，“示例性的”或者“例如”等词用于表示作例子、例证或说明，本申请实施例中被描述为“示例性的”或者“例如”的任何实施例或方案不应被解释为比其它实施例或方案更优选或更具优势。确切而言，使用“示例性的”或者“例如”等词旨在以具体方式呈现相关概念。

[0071] 在本申请实施例的描述中，除了另有说明，“多个”是指两个或两个以上，即至少两个。“至少一个”是指一个或一个以上。

[0072] 本申请实施例提供一种有声小说的播放方法，有声小说是一种音频文件，通过播放器播放，用户可以方便的暂停或者播放有声小说。

[0073] 图1为本申请实施例适用的一种场景示意图，如图1随时，该场景中包括终端设备10和服务器20，该终端设备10和服务器20通过有线或者无线方式连接并通信。该终端设备
10和服务器20通过交互实现有声小说的播放。

[0074] 终端设备10上运行有有声小说播放器(以下简称播放器)，该播放器用于播放有声小说，该播放器可以是传统应用软件，例如，小说播放应用(application，APP)，也可以实现为宿主应用程序中的小程序或应用模块，也可以是某个网页平台，在此不进行限定。

[0075] 终端设备可以为手机、平板电脑、桌面型计算机、手持计算机、笔记本电脑、车载设备、超级移动个人计算机(ultra‑mobile personal computer，UMPC)、上网本，以及个人数字助理(personal digital assistant，PDA)、增强现实(augmented reality，AR)\虚拟现实(virtual reality，VR)设备、游戏设备、智能可穿戴设备等。

[0076] 服务器20用于为播放器提供有声小说的播放资源以及其他与有声小说播放相关的处理，播放器可以看作一个客户端。服务器的功能包括但不限于：存储小说的文本内容，根据小说的文本内容生成小说的音频数据并存储小说的音频数据，播放器向服务器20请求小说的音乐数据，服务器20将小说的音频数据发送给播放器进行播放。

[0077] 本申请实施例中，服务器20或者终端设备10还具有以下功能：根据主播/用户的声音特征和小说的文本内容自动生成该小说的文本内容对应的视觉信息，播放器在播放音频数据时，在播放页面上同步显示该视觉信息。该视觉信息可以由视觉信息生成模型基于小说的文本内容和主播/用户的音频数据生成，该视觉信息生成模型也可以称为人工智能(Artificial Intelligence，AI)模型。

[0078] 服务器20可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云安全、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、以及大数据和人工智能平台等基础云计算服务的云服务器。

[0079] 此外，图1示例性地给出了一个终端设备和一个服务器，实际上可以包括更多的终端设备和服务器，本申请对此不作限制。

[0080] 下面通过一些实施例对本申请的技术方案进行详细说明。下面所描述的实施例可以相互结合，对于相同或相似概念或过程可能在某些实施例内不再赘述。

[0081] 图2为本申请实施例一提供的有声小说的播放方法的流程图，本实施例的方法可以由终端设备执行，具体由终端设备上的播放器执行，如图2所示，本实施例提供的方法包括以下步骤：

[0082] S101、获取目标小说的待生成文本对应的第一音频数据和第一视觉信息，该第一视觉信息是基于该待生成文本和第一音频数据确定的，第一音频数据是主播对待生成文本进行朗读得到的音频数据。

[0083] 目标小说为播放器当前正在播放的小说，用户打开播放器后，选择要播放的小说，点击开始控件开始播放。

[0084] 本实施例中播放器提供了一个新的功能：智能听书功能，该智能听书功能也称为AI听书功能，该AI听书功能用于实现在播放有声小说的同时，在播放页面上同步显示与小说内容适配的视觉信息，其中，该视觉信息是根据小说的待生成文本和待生成文本对应的音频数据自动生成，该音频数据可以是主播或者用户对待生成文本进行朗读录制得到的，该视觉信息可以是图像或者视频。

[0085] 该第一视觉信息为至少一张图像或者一段视频，第一视觉信息用于以第一音频数据对应的展示风格特征呈现待生成文本所描述的故事情节。

[0086] 一种示例性方式中，该第一视觉信息由终端设备根据待生成文本和第一音频数据生成。

[0087] 另一种示例性方式中，该第一视觉信息由服务器根据待生成文本和第一音频数据生成，并将第一视觉信息发送给终端设备。

[0088] 本申请实施例中，服务器和终端设备可以采用相同的生成算法生成待生成文本对应的视觉信息(包括第一视觉信息和第二视觉信息)，以下以终端设备生成视觉信息为例进行说明。

[0089] 可选的，该第一视觉信息由服务器或者终端设备上的视觉信息生成模型根据待生成文本和第一音频数据生成。

[0090] 可选的，用户可以选择开启或者关闭该AI听书功能，如果用户没有开启该AI听书功能，则播放器在播放小说时，播放页面上显示有小说的字幕，即小说的文字和语音逐字同步播放。

[0091] 一种实现方式中，播放器默认开启了AI听书功能，或者用户在上一次播放该目标小说时开启了AI听书功能，则本次播放该目标小说时，不需要重新开启AI听书功能。

[0092] 另一种可实现方式中，用户还没有开启AI听书功能，则在播放目标小说之前或者播放目标小说的过程中，根据用户操作开启AI听书功能。

[0093] 一种实现方式中，小说的播放页面上显示有AI听书功能入口，根据用户对AI听书功能入口的打开操作，显示设置界面，该设置界面上包括AI听书功能控件，根据用户对AI听书功能控件的开启操作开启AI听书功能。

[0094] 图3为用户开启AI听书功能过程中播放页面的示意图，如图3所示，图3(a)为用户开始播放目标小说后的播放页面的示意图，在播放页面的右上角显示有AI听书功能入口，用户点击该AI听书功能入口后，打开图3(b)所示的设置界面，该设置界面上显示有AI听书功能控件，用户点击该AI听书功能控件打开AI听书功能。

[0095] 参照图3所示，该设置界面上还包括其他功能选项，例如，还包括：收藏、分享、下载、加入歌单、下一首播放等。其中，收藏选项用于对小说进行收藏，分享选项用于对小说进行分享，下载选项用于将小说下载到本地，加入歌单用于为小说添加一些背景音乐，在小说播放过程中，可以同步播放音乐。

[0096] 用户开启AI听书功能后，播放器可以向服务器发送AI听书功能开启指令，服务器根据该AI听书功能开启指令可以同步开启AI听书功能，即触发服务器上与AI听书功能相关的功能模块开始工作。

[0097] 当由服务器生成视觉信息时，服务器在开启AI听书功能后，开始获取目标小说的待生成文本和待生成文本对应的第一音频数据，将待生成文本和待生成文本对应的第一音频数据输入视觉信息生成模型，视觉信息生成模型根据待生成文本和待生成文本对应的第一音频数据生成待生成文本对应的第一视觉信息。

[0098] 可选的，待生成文本为目标小说的任意一个章节，或者预设数量的段落或者预设数量的页数。以终端设备为例，终端设备以目标小说的章节、预设数量的段落或者预设数量的页数为粒度生成目标小说的文本对应视觉信息。该预设数量的段落可以为一个或者多个段落，该预设数量的页数可以为一页或者多页，本实施例不对视觉信息的生成粒度进行限制。

[0099] 当终端设备以目标小说的章节为粒度生成目标小说的文本对应的视觉信息时，终端设备获取的待生成文本为一个章节的文本，相应的，生成的视觉信息为一个章节的视觉信息，一个章节的视觉信息可能包括一张或者多张图像，或者包括一段视频。

[0100] 一个小说通常包括很多章节，播放器在播放目标小说时，按照章节的顺序进行播放。假设用户在目标小说的第N个章节开启了AI听书功能，则终端设备获取当前章节(即第N个章节)的文本和当前章节的文本对应的第一音频数据，根据当前章节的文本和当前章节的文本对应的第一音频数据，生成当前章节对应的第一视觉信息。

[0101] S102、播放第一音频数据，并在播放页面上同步显示第一视觉信息。

[0102] 该第一视觉信息可以是在目标小说播放过程中实时生成的，也可以是在目标小说播放前提前生成的。

[0103] 当以目标小说的章节为粒度生成目标小说的文本对应的视觉信息时，播放器获取到当前章节对应的第一视觉信息和第一音频数据后，播放第一音频数据，并同时在播放页面上同步显示第一视觉信息，随着主播的声音屏幕上会呈现出图像，前后图像在内容上具有一定的连贯性，随着小说内容的变化播放页面上的图像也会发生变化。从而使得用户在听书过程中不仅仅能够听到音频内容，还能够看到与小说内容适配的图像或者视频，使得用户能够更加沉浸式的体验小说，带给用户更好的体验。

[0104] 可以理解，在播放页面上不仅显示有待生成文本对应的第一视觉信息，还显示有其他信息，例如，播放页面上显示有待生成文本的字幕、播放控制面板和其他一些控件。例如，播放控制面板上包括播放控件、翻页控件、章节切换控件、快进和后退控件、目录入口、语速调整入口、评论入口等。

[0105] 一种实现方式中，第一视觉信息可以显示在播放页面的第一显示区域内，在用户未开启AI听书功能时，该第一显示区域用于显示待生成文本的字幕，在用户开启AI听书功能后，该第一显示区域用于显示待生成文本的字幕和待生成文本对应的第一视觉信息。

[0106] 当待生成文本的字幕和待生成文本对应的第一视觉信息都显示在该第一显示区域内时，可以通过如下两种方式显示：(1)待生成文本的字幕可以叠加显示在第一视觉信息上方，第一视觉信息作为背景；(2)待生成文本的字幕显示在该第一显示区域的下方位置，第一视觉信息显示在该第一显示区域的上方位置，第一视觉信息占用的区域较小，通常只能显示一行或者两行字幕。

[0107] 方式(1)中待生成文本的字幕铺满整个第一显示区域，可以显示多行字幕，而方式(2)中待生成文本的字幕仅位于第一显示区域下方较小区域内，通常只能显示一行或者两行字幕。

[0108] 图4为开启AI听书功能前后播放页面的变化示意图，如图4所示，图4(a)为开启AI听书功能前播放页面的示意图，在开启AI听书功能之前，待生成文本的字幕显示在整个第一显示区域内。图4(b)为用户开启AI听书功能后播放页面的示意图，在用户开启AI听书功能后，采用上述的方式(2)显示待生成文本的字幕和第一视觉信息。

[0109] 上述只是举例说明，本申请实施例不对第一视觉信息的显示位置和显示方式进行限定，例如，还可以将上述的第一显示区域分为左右两个区域，一个区域用于显示待生成文本的字幕，另一个区域用于显示待生成文本对应的第一视觉信息。

[0110] S103、在第一音频数据播放过程中，响应于小说共创指令，获取第二音频数据，第二音频数据是用户跟读所述待生成文本得到的跟读语音。

[0111] 本实施例中，播放器还提供了智能共创功能，该智能共创功能也称为AI共创功能，AI共创功能是指用户跟读小说并录制音频数据，由终端设备或者服务器根据用户跟读形成的第二音频数据和小说文本内容生成视觉信息，通过用户声音的加入，使得生成的视觉信息也相应发生变化，让用户更有参与感。

[0112] 在播放页面上显示有AI共创功能入口，用户可以通过该AI共创功能入口触发AI共创流程。例如，响应于对AI共创功能入口的第二操作，跳转至共创页面，该第二操作可以是用户对AI共创功能入口的点击操作、触摸操作、双击操作、长按操作等。

[0113] 用户通过该共创页面输入小说共创指令，响应于该小说共创指令，开始录制用户跟读待生成文本的跟读语音，得到第二音频数据。

[0114] S104、根据第二音频数据和待生成文本获取第二视觉信息。

[0115] 当小说的视觉信息由终端设备生成时，终端设备根据第二音频数据和待生成文本生成第二视觉信息。当小说的视觉信息由服务器生成时，服务器将第二音频数据发送给服务器，服务器根据第二音频数据和待生成文本生成第二视觉信息，并将第二视觉信息发送给终端设备。

[0116] 该第二视觉信息为至少一张图像或者一段视频，该第二视觉信息用于以第二音频数据对应的展示风格特征呈现待生成文本所描述的故事情节。

[0117] 第二音频数据和第一音频数据不同，因此，终端设备或者服务器生成的第二视觉信息与第一视觉信息不同。由于生成第一视觉信息和第二视觉信息使用的待生成文本是相同的，第一视觉信息和第二视觉信息的不同主要来自于声音特征的不同，声音特征的不同主要导致图像或者视频的展示风格不同，对待生成文本所描述的故事情节的差异影响较小，因此，第一视觉信息和第二视觉信息中故事情节基本是相同或者相似的，但是人物的动作、神态、形象、环境等可能有所不同。

[0118] 可选的，该第二视觉信息是视觉信息生成模型基于待生成文本和第二音频数据确定的。该视觉信息生成模型位于终端设备或者服务器上。

[0119] 可选的，该视觉信息生成模型可以采用大语言模型(Large Language Model，LLM)，大语言模型是指拥有庞大参数量的自然语言处理模型。这些模型通常基于深度学习技术，特别是Transformer架构，通过在大规模语料库上进行训练，来理解和生成人类语言。

[0120] 大语言模型具有强大的上下文理解能力，能够理解和处理长距离的文本依赖关系，这使得它能够更好地理解文本的上下文，并生成更符合小说内容的图像或者视频。大语言模型还具有生成式能力，不仅可以理解和分析文本、图像等，还可以生成自然、流畅的语言、生动的图像等。

[0121] 本实施例中，视觉信息生成模型可以采用生成式的大语言模型，例如，生成式预训练Transformer模型(Generative Pre‑Trained Transformer，GPT)等。

[0122] S105、播放目标音频数据，并在播放页面上同步显示第二视觉信息，该目标音频数据为第一音频数据或者第二音频数据。

[0123] 用户对待生成文本进行AI共创后，待生成文本对应的图像或者视频会发生变化，视觉信息生成模型根据用户跟读得到的第二音频数据，捕捉和分析当前用户的声音、情感、投入状态等特征，并作用于算法生成不同的图像或者视频效果。从而能够让用户参与到小说创作中，用户能够更加身临其境的感受小说的情节和氛围，另外，用户越有感情的朗读小说，生成的画面色彩也会更加丰富。

[0124] 第二视觉信息与第一视觉信息的显示位置、显示方法相同，这里不再赘述，参照前述第一视觉信息的显示描述。

[0125] 可选的，在播放器的广场页面可以新增“AI共创”模块，在该模块中展示已经进行智能共创或者AI共创的小说列表，以及各小说的共创次数。例如，在该模块展示一个AI共创合集，该AI共创合集中展示有播放器上所有被AI共创的小说的信息，并形成一个共创次数排行榜，用户可以选择共创次数多的小说进行收听。

[0126] 本实施例中，终端设备在目标小说的待生成文本对应的第一音频数据和第一视觉信息播放过程中，响应于小说共创指令，获取第二音频数据，该第二音频数据是用户跟读待生成文本得到的跟读语音，根据第二音频数据和待生成文本获取第二视觉信息，播放第一音频数据或者第二音频数据，并在播放页面上同步显示第二视觉信息。该方法中，用户通过跟读待生成文本得到第二音频数据，生成算法根据第二音频数据能够捕捉到用户的声音特征，基于用户的声音特征生成第二视觉信息，从而能够让用户参与到小说创作中，用户能够更加身临其境的感受小说的情节和氛围，增强用户的听书体验。

[0127] 在实施例一的基础上，本申请实施例二提供一种有声小说的播放方法，主要对实施例一中步骤S103的一种具体实现方式进行详细说明，本实施例以终端设备生产第二视觉信息为例进行说明，可以理解的是，本实施例的方法同样适用于服务器。图5为本申请实施例二提供的第二视觉信息的生成方法的流程图，如图5所示，本实施例提供的方法包括以下步骤：

[0128] S1031、对第二音频数据进行特征提取得到第二声音特征。

[0129] 该第二音频数据是用户跟读待生成文本得到根据语音，通过对第二音频数据进行处理得到用户的第二声音特征，改第二声音特征包括以下特征中的至少一个：音色、音量、音调或者感情投入度，该第二声音特征用于表征待生成文本对应的视觉元素的展示风格。

[0130] 音色是声音的质地或特色，也可以理解为声音的个性，音色用于区分不同的人声。音量是声音的强度或响度，它取决于声波的振幅大小，音量的大小决定了声音的传播距离和清晰度。音调是指声音的高低音频特征，由声波的振动频率决定，音调直接影响人们对声音的感知和识别能力。

[0131] S1032、根据待生成文本获取待生成文本对应的视觉元素，该视觉元素包括人物、故事情节和环境。

[0132] 目标小说的待生成文本用于描述小说的具体内容，通过对待生成文本进行分析，可以得到待生成文本中包括的人物、故事情节和环境等视觉元素。其中，人物、故事情节和环境是构成小说的主要因素。人物是指小说中主要涉及的人物角色，环境是指小说所描述的自然环境或者人物所处的社会环境，故事情节用于描述小说中人物的动作、神态、对话等。

[0133] 一种实现方式中，终端设备实时的对待生成文本进行分析，得到待生成文本对应的视觉元素。

[0134] 另一种实现方式中，终端设备从存储器中读取待生成文本对应的视觉元素，存储器中存储的待生成文本对应的视觉元素是终端设备在生成待生成文本对应的第一视觉信息时，对待生成文本对应的视觉元素进行分析得到的。该方式中，终端设备在生成待生成文本对应的第一视觉信息和第二视觉信息时使用的待生成文本对应的视觉元素完全相同。

[0135] S1033、根据第二声音特征和待生成文本对应的视觉元素生成第二视觉信息。

[0136] 一种示例性方式中，根据第二声音特征，确定待生成文本对应的视觉元素的展示风格，根据待生成文本对应的视觉元素的展示风格和待生成文本对应的视觉元素生成第二视觉信息。

[0137] 不同的声音特征对应不同的展示风格，从而使得基于相同的生成文本和不同声音特征生成的视觉信息不同。

[0138] 该第二视觉信息用于呈现待生成文本所描述的故事情节，该第二视觉信息与目标小说的内容息息相关，用于对目标小说的文本内容进行图像还原，并且在生成第二视觉信息时考虑了用户的声音特征，以生成不同风格的图像或者视频。

[0139] 例如，目标小说的待生成文本用于描写两个好朋友坐在咖啡店喝咖啡、聊天等，那生成的第二视觉信息中包括咖啡厅、两个坐着的好朋友。该第二视觉信息还与用户的声音特征有关，例如，当用户为一个男性时，终端设备会以男性的视角来生成图像，生成的图像会从男性的角度描述咖啡馆的陈设和两个好朋友的姿势、神态等。而当用户为一个女性时，终端设备生成的图像会从女性的角度描述咖啡馆的陈设和两个好朋友的姿势、神态等，例如，根据女性角度生成的咖啡馆的陈设更加清新、浪漫，整个色彩相对明艳一些。

[0140] 该第二视觉信息为一段视频或者至少一帧图像，本实施例中，可以由生成算法规定生成的视觉信息为图像还是视频，也可以由用户选择生成的视觉信息为图像还是视频。

[0141] 第二视觉信息中包括的图像数量或者视频的镜头数量，可以为固定数量，也可以根据待生成文本的内容确定，不同文本内容生成的图像数量或者视频的镜头数量不同。

[0142] 另一种示例性方式中，终端设备还根据待生成文本获取了待生成文本的场景转换信息，该场景转换信息包括待生成文本中的场景数量、场景转换类型和场景转换时间。

[0143] 以待生成文本为一个章节为例，一个小说章节中包括很多的场景，通过场景转换或者切换实现故事情节的推进，场景转换类型包括时间转换、地点转换、视角转换或者事件转换等。例如，地点转换是指人物所处的地点发生了变化，例如，从办公室到家里，从家里到公园。事件转换是指人物身上的故事或者事件发生了变化，例如，从吃饭变成了看电视，从运动变成了聊天等。场景转换时间点是指从一个场景切换到一个场景之间的时间间隔。

[0144] 可选的，终端设备通过如下两种方式获取待生成文本的场景转换信息：方式一，终端设备实时的对待生成文本进行分析，得到待生成文本的场景转换信息。方式二，终端设备从存储器中读取待生成文本的场景转换信息，存储器中存储的待生成文本对应的视觉元素和场景转换信息，该场景转换信息是终端设备在生成待生成文本对应的第一视觉信息时，对待生成文本进行分析得到的。

[0145] 获取待生成文本的场景转换信息后，终端设备根据待生成文本中的场景数量，确定第二视觉信息中包括的图片数量或者视频的镜头数量。通过上述的描述可知场景的转换通常意味着地点(即环境)、人物、人物的事件(即故事情节)等发生变化，而地点(即环境)、人物、人物的事件等发生变化需要反应在小说的视觉信息中，让用户感知到变化，因此，可以根据待生成文本中的场景数量确定第二视觉信息中包括的图片数量或者视频的镜头数量。

[0146] 可以针对每个场景生成一张图片，该图片用于展示对应场景中的人物、环境和故事情节，可选的，也可以针对每个场景生成两张或者多张图片，多张图片之间用于描述一个故事情节，但是人物的动作、表情等随着估计情节有所变化。例如，当待生成文本中发生了9次场景切换，则待生成文本中有10个场景，假设第一个场景为两个人物在家里吃饭，则生成的图片中包括两个人物在家里吃饭的情景，第二个场景为两个人物在看电视，则生成的图片包括两个人物坐在沙发上看电视的情景。当小说播放过程中，音频数据的内容从第一个场景切换到第二个场景，则用户看到的图片也从第一个场景对应的图片切换到第二个场景对应的图片，即音频内容和视觉信息同步变化。

[0147] 一段视频可以包括多个镜头，每个镜头对应一个场景，一个镜头中可能包括一帧或者多帧图片。

[0148] 终端设备根据第二视觉信息中包括的图片数量或者视频的镜头数量，待生成文本对应的视觉元素的展示风格以及待生成文本对应的视觉元素，生成第二视觉信息。

[0149] 可选的，可以根据待生成文本的场景转换信息，对待生成文本对应的视觉元素按照场景进行拆分，得到待生成文本中各场景的视觉元素，根据待生成文本对应的视觉元素的展示风格，各场景的视觉元素，以及第二视觉信息中包括的图片数量或者视频的镜头数量，生成第二视觉信息。

[0150] 可选的，第二视觉信息是视觉信息生成模型基于待生成文本和第二音频数据确定的。通过将待生成文本和第二音频数据输入视觉信息生成模型，视觉信息生成模型输出第二视觉信息，该视觉信息生成模型可以采用本实施例的方法生成第二视觉信息。

[0151] 需要说明的是，本实施例以第二视觉信息的生成过程为例进行说明，本实施例的方法同样适用于第一视觉信息的生成，这里不再重复说明。

[0152] 本实施例中，对第二音频数据进行特征提取得到第二声音特征，根据待生成文本获取待生成文本对应的视觉元素，该视觉元素包括人物、故事情节和环境；根据第二声音特征和待生成文本对应的视觉元素生成第二视觉信息。通过该方法能够生成与待生成文本适配，且满足用户需求的视觉信息。

[0153] 图6为本申请实施例三提供的有声小说的生成方法的信令流程图，本实施例以服务器通过视觉信息生成模型为例进行说明，相同内容参照前述实施例的描述，本实施例不再重复说明。图7为终端设备侧用户操作的一种流程示意图，参照图6和图7，本实施例提供的方法包括以下步骤。

[0154] S301、服务器获取目标小说的待生成文本和第一音频数据。

[0155] 第一音频数据是主播对待生成文本进行朗读得到的音频数据。

[0156] S302、服务器根据待生成文本和第一音频数据生成第一视觉信息。

[0157] 服务器通过视觉信息生成模型生成第一视觉信息，该视觉信息生成模型以目标小说的章节、预设数量的段落或者预设数量的页数为粒度生成目标小说的文本对应视觉信息。当视觉信息生成模型以目标小说的章节为粒度生成视觉信息时，每次生成一个章节对应的第一视觉信息，一个章节对应的第一视觉信息可能包括多张图像，该多张图像在内容上具有一定的连贯性。

[0158] 当视觉信息生成模型以目标小说的章节为粒度生成视觉信息时，一种实现方式中，在播放目标小说之前，服务器已经生成了全部或者部分章节的音频数据，服务器可以从本地或者关联的数据库中读取当前章节的文本和第一音频数据。另一种实现方式中，服务器实时的根据每个章节的文本生成该章节对应的音频数据，例如，用户通过翻页操作或者其他操作打开新的一个章节时，服务器实时的生成该章节对应的音频数据。

[0159] S303、服务器将待生成文本对应的第一音频数据和第一视觉信息发送给终端设备。

[0160] S304、终端设备播放第一音频数据，并在播放页面上同步显示第一视觉信息。

[0161] 终端设备的播放器接收到第一音频数据和第一视觉信息后，同步播放第一音频数据和第一视觉信息，使得用户在听书的同时能够看到与小说内容适配的图像或者视频。

[0162] 当视觉信息生成模型以目标小说的章节为粒度生成目标小说的文本对应的视觉信息时，一种实现方式中，当用户在某个章节开启AI听书功能时，服务器根据当前章节的文本和音频数据实时的生成当前章节对应的第一视觉信息，并将当前章节对应的第一视觉信息和第一音频数据一起发送给播放器。在当前章节播放完成后，服务器自动获取下一章节的文本和下一章节文本对应的第一音频数据，将下一章节的文本和下一章节文本对应的第一音频数据输入视觉信息生成模型。或者，服务器基于用户触发(例如用户进入下一章节的翻页操作，或者章节的选择操作)获取下一章节的文本和下一章节文本对应的第一音频数据，将下一章节的文本和下一章节文本对应的第一音频数据输入视觉信息生成模型。视觉信息生成模型根据下一章节的文本和下一章节文本对应的第一音频数据生成下一章节对应的第一视觉信息。通过该方法能够实时的生成当前播放章节的第一视觉信息。

[0163] 可选的，服务器也可以在用户开启AI听书功能时，生成当前章节以及当前章节之后的连续多个章节的第一视觉信息，后续每间隔固定章节提前一次性生成未来需要播放的多个章节的第一视觉信息，该方式在当前章节的第一视觉信息提前生成，播放时不需要实时生成当前章节的第一视觉信息，从而能够避免由于实时生成当前章节的第一视觉信息带来的时延问题。

[0164] 可选的，用户可以对待生成文本对应的第一视觉信息进行评价，一种实现方式中，播放页面上显示有第一评价控件和第二评价控件，根据用户对第一评价控件的第一操作，获取第一视觉信息的正向评价信息；或者，根据用户对第二评价控件的第一操作，获取第一视觉信息的负向评价信息。

[0165] 该第一评价控件用于对第一视觉信息进行正向评价，该第二评价控件用于对第一视觉信息进行负向评价，第一操作可以是对第一评价控件或者第二评价控件的点击操作或者双击操作等。

[0166] 示例性的，第一评价控件为“认同”控件，第二评价控件为“不认同”控件，或者，第一评价控件为“喜欢”控件，第二评价控件为“不喜欢”控件，或者，第一评价控件为“点赞”控件，第二评价控件为“不支持”控件等。

[0167] 可选的，终端设备还可以将第一视觉信息的正向评价信息或者负向评价信息发送给服务器，服务器统计用户对各第一视觉信息的正向评价和负向评价。其中，某个视觉信息的正向评价越多，说明越多用户对该视觉信息认可，某个视觉信息的负向评价越多，说明越多用户对该视觉信息不认可。

[0168] 服务器可以根据用户对各第一视觉信息的正向评价和负向评价对视觉信息生成模型的性能进行评测，以及对视觉信息生成模型进行微调。

[0169] 服务器接收播放器发送的当前用户对待生成文本对应的第一视觉信息的评价信息，服务器还对待生成文本对应的第一视觉信息进行统计形成统计信息，该统计信息为多个用户对待生成文本对应的第一视觉信息的评价信息的统计结果，统计信息中包括正向评价的个数和负向评价的个数。

[0170] 服务器根据多个用户对待生成文本对应的第一视觉信息的评价信息的统计信息生成训练样本。当待生成文本对应的第一视觉信息中正向评价的个数大于预设数量，或者正常评价的占比大于预设占比，则说明大多数用户对待生成文本对应的第一视觉信息是认可的，服务器可以根据待生成文本对应的第一视觉信息生成一个训练样本，该训练样本为一个正样本，训练样本包括待生成文本、第一音频数据和待生成文本对应的第一视觉信息，其中，待生成文本对应的第一视觉信息为训练样本的标签，使用该训练样本对视觉信息生成模型进行调整。同样，可以生成一些负样本用于训练。

[0171] 服务器根据用户对待生成文本对应的第一视觉信息的评价信息的统计信息生成的训练样本，使用该训练样本训练得到的视觉信息生成模型的预测结果更加符合用户需求。

[0172] 当一个章节的第一视觉信息中包括多张图像时，一种实现方式中，第一评价控件和第二评价控件可以用于对单张图像进行评价，例如，在显示当前章节的第三张图像时，用户点击了“认可”控件，则表示用户对当前章节的第三张图像认可。

[0173] 另一种实现方式中，第一评价控件和第二评价控件用于对章节的所有图像进行评价，例如，在显示当前章节的第三张图像时，用户点击了“认可”控件，则表示用户对当前章节的所有图像认可。

[0174] 可选的，一种实现方式中，播放页面上可以只显示第一评价控件，该第一评价控件用于对第一视觉信息进行正向评价。

[0175] S305、终端设备在第一音频数据播放过程中，响应于小说共创指令，获取第二音频数据，第二音频数据是用户跟读待生成文本得到的跟读语音。

[0176] 在播放页面上显示有AI共创功能入口，用户可以通过该AI共创功能入口触发AI共创流程。例如，响应于对AI共创功能入口的第二操作，跳转至共创页面，该第二操作可以是用户对AI共创功能入口的点击操作、触摸操作、双击操作、长按操作等。

[0177] 参照图7所示，用户可以在边听书边看图像的过程中，根据自己的需求随时进行AI共创，例如，用户在听到某一章节时，对该章节的图像或者视频不喜欢，则可以进行AI共创，生成自己需要的视觉信息。

[0178] 一种实现方式中，该共创页面上包括待生成文本对应的字幕和录制开始控件，响应于对录制开始控件的第三操作，播放器录制用户跟读待生成文本的跟读语音，得到第二音频数据。该第三操作可以是用户对录制开始控件的点击操作、触摸操作、双击操作、长按操作等。

[0179] 例如，用户点击录制开始控件后，用户根据待生成文本对应的字幕开始跟读待生成文本，播放器开始录制跟读语音。其中，用户跟读待生成文本时，主播声音可以同时播放，也可以不播放，在主播声音同时播放时，用户可以调整主播音量和自己声音的音量。相应的，在共创页面上还显示有主播音量调整控件和人声音量调整控件，主播音量调整控件用于调整主播声音的大小，人声音量调整控件用于调整录制的用户声音的大小。

[0180] 可选的，该共创页面上还包括重录控件和章节选择入口，重录控件用于触发重新录制第二音频数据，例如，用户点击重录控件后，该共创页面上从当前章节的起始位置开始播放音频数据以及显示字幕。

[0181] 章节选择入口用于触发跳转至章节选择页面，在章节选择页面中用户可以选择要共创的章节，用户可以选择已经播放过的任一章节进行共创，也可以选择当前章节进行共创或者选择未播放的任一章节进行共创。

[0182] S306、终端设备将第二音频数据发送给服务器。

[0183] 第二音频数据录制完成后，在共创页面上显示发布控件；响应于对发布控件的第四操作，触发根据第二音频数据和待生成文本获取第二视觉信息的操作。当由终端设备生成第二视觉信息时，终端设备调用第二音频数据生成第二视觉信息，当由服务器生成第二视觉信息时，终端设备需要将第二音频数据发送给服务器。

[0184] 第二音频数据录制完成后，播放器可以默认将第二音频数据发送给服务器，即不需要用户确认直接将第二音频数据发送给服务器，也可以在用户确认发送之后将第二音频数据发送给服务器。

[0185] 一种实现方式中，在第二音频数据录制完成后，在共创页面上显示发布控件，响应于对发布控件的第四操作，将第二音频数据上传至服务器。可选的，在第二音频数据录制完成后，共创页面上还包括取消发布控件，用户通过点击该取消发布控件，取消发布第二音频数据。

[0186] 在用户对发布控件进行第四操作之后，开始上传第二音频数据，可选的，在共创页面上还显示上传窗口，该上传窗口中显示有上传进度信息、发布控件和取消控件，从而使得用户根据上传进度信息实时的了解第二音频数据的上传状态，通过发布控件二次确认是否上传，通过取消控件随时取消第二音频数据的上传。

[0187] 可选的，在第二音频数据录制完成后，共创页面上还显示有试听控件，该试听控件用于触发用户试听录制的第二音频数据，如果用户通过试听对录制结果不满意，则可以重新进行录制或者取消发布。

[0188] 图8为用户打开AI共创功能后播放页面的变化示意图，如图8所示，图8(a)为用户点击AI共创入口跳转后共创页面的示意图，图中“开始跟读”控件为录制开始控件，用户点击“开始跟读”控件后开始跟读待生成文本，播放器录制跟读语音。8(b)为用户跟读完某一章节后的共创页面的示意图，即录制完某一章节的第二音频数据后的共创页面的示意图，图中的“发布至服务器”控件为上述的发布控件。8(c)为用户点击“发布至服务器”控件后的共创页面的示意图。

[0189] 另一种实现方式中，共创页面上包括音频选择入口，用户通过该音频选择入口选择已经提前录制好的第二音频数据，并将选择的第二音频数据上传至服务器。

[0190] 该提前录制好的第二音频数据可以是用户跟读待生成文本得到的跟读语音，也可以是用户跟读目标小说中的其他文本得到的跟读语音，或者，是用户跟读试文本得到的跟读语音。

[0191] 以待生成文本为当前章节为例，第二音频数据可以是用户跟读目标小说的任意一个章节的文本得到的跟读语音，用户在开始听该目标小说之前，选择对某个章节的文本进行跟读并录制。例如，用户选择目标小说的第一章节进行跟读得到跟读语音，后续可以使用第一章节的跟读语音对其他章节进行共创，不需要每一章节都实时的录制用户的跟读语音，避免了用户反复录制跟读语音，节省了共创所需的录制时间。

[0192] 相比于使用当前章节的跟读语音，使用其他章节的跟读语音对视觉信息生成模型生成的效果影响较小，这是因为视觉信息生成模型在生成当前章节对应的视觉信息时共有两个输入：当前章节的文本和音频数据，当前章节的文本相同，音频数据虽然不同，但是当前章节的跟读语音和其他章节的跟读语音都是同一个用户的语音，视觉信息生成模型从当前章节的跟读语音和其他章节的跟读语音都能提取到用户的声音特征，且提取到的用户声音特征的变化较小，因此，最终生成的当前章节对应的视觉信息的差异较小。

[0193] 同理，可以使用试读文本的跟读语音代替其他章节的跟读语音，该试读文本可以是小说中任意一段文本，也可以不是小说中的文本。

[0194] 参照图7所示，用户在进入AI共创流程后，可以在共创过程中随时选择退出AI共创流程。在跟读语音录制完成并上传至服务器后，会返回到播放页面，用户继续边听边看图像，此时播放的图像是用户参与共创的图像。

[0195] S307、服务器根据待生成文本和第二音频数据，生成待生成文本对应的第二视觉信息。

[0196] S308、服务器向终端设备发送目标音频数据和待生成文本对应的第二视觉信息，目标音频数据为第一音频数据或者第二音频数据。

[0197] 终端设备通过将第二音频数据发送给服务器，视觉信息生成模型根据第二音频数据和待生成文本生成第二视觉信息，该第二视觉信息用于以第二音频数据对应的展示风格特征呈现待生成文本所描述的故事情节，第二视觉信息为图像或者视频。

[0198] 第二音频数据和第一音频数据不同，因此，视觉信息生成模型生成的第二视觉信息与第一视觉信息不同。由于视觉信息生成模型生成的第一视觉信息和第二视觉信息使用的待生成文本是相同的，第一视觉信息和第二视觉信息的不同主要来自于声音特征的不同，声音特征的不同主要导致图像或者视频的展示风格不同，对待生成文本所描述的故事情节的差异影响较小，因此，第一视觉信息和第二视觉信息中故事情节基本是相同，但是人物的动作、神态、形象、环境等可能有所不同。

[0199] S309、终端设备播放目标音频数据，并在播放页面上同步显示第二视觉信息。

[0200] 用户对待生成文本进行AI共创后，待生成文本对应的图像或者视频会发生变化，视觉信息生成模型根据用户跟读得到的第二音频数据，捕捉和分析当前用户的声音、情感、投入状态等特征，并作用于算法生成不同的图像或者视频效果。从而能够让用户参与到小说创作中，用户能够更加身临其境的感受小说的情节和氛围，另外，用户越有感情的朗读小说，生成的画面色彩也会更加丰富。

[0201] 为便于更好的实施本申请实施例的有声小说的播放方法，本申请实施例还提供一种有声小说的播放装置。图9为本申请实施例四提供的有声小说的播放装置的结构示意图，如图9所示，该有声小说的播放装置100可以包括：

[0202] 第一获取模块11，用于获取目标小说的待生成文本对应的第一音频数据和第一视觉信息，所述第一视觉信息是基于所述待生成文本和所述第一音频数据确定的，所述第一音频数据是主播对所述待生成文本进行朗读得到的音频数据；

[0203] 播放模块12，用于播放所述第一音频数据，并在播放页面上同步显示所述第一视觉信息；

[0204] 第二获取模块13，用于在所述第一音频数据播放过程中，响应于小说共创指令，获取第二音频数据，所述第二音频数据是用户跟读所述待生成文本得到的跟读语音；

[0205] 第三获取模块14，用于根据所述第二音频数据和所述待生成文本获取第二视觉信息；

[0206] 所述播放模块12，还用于播放目标音频数据，并在播放页面上同步显示所述第二视觉信息，所述目标音频数据为所述第一音频数据或者所述第二音频数据。

[0207] 在一些实现方式中，所述第三获取模块14具体用于：

[0208] 对所述第二音频数据进行特征提取得到第二声音特征；

[0209] 根据所述待生成文本获取所述待生成文本对应的视觉元素，所述视觉元素包括人物、故事情节和环境；

[0210] 根据所述第二声音特征和所述待生成文本对应的视觉元素生成所述第二视觉信息。

[0211] 在一些实现方式中，所述根据所述第二声音特征和所述待生成文本对应的视觉元素生成所述第二视觉信息，包括：

[0212] 根据所述第二声音特征，确定所述待生成文本对应的视觉元素的展示风格；

[0213] 根据所述待生成文本对应的视觉元素的展示风格和所述待生成文本对应的视觉元素生成所述第二视觉信息。

[0214] 在一些实现方式中，所述第二视觉信息包括至少一张图片或者一段视频，所述第三获取模块14还用于：

[0215] 根据所述待生成文本获取所述待生成文本的场景转换信息，所述场景转换信息包括所述待生成文本中的场景数量、场景转换类型和场景转换时间；

[0216] 根据所述待生成文本中的场景数量，确定所述第二视觉信息中包括的图片数量或者视频的镜头数量；

[0217] 根据所述待生成文本的场景转换信息，对所述待生成文本对应的视觉元素按照场景进行拆分，得到所述待生成文本中各场景的视觉元素；

[0218] 根据所述待生成文本对应的视觉元素的展示风格，所述各场景的视觉元素，以及所述第二视觉信息中包括的图片数量或者视频的镜头数量，生成所述第二视觉信息。

[0219] 在一些实现方式中，所述第二声音特征包括以下特征中的至少一个：音色、音量、音调或者感情投入度。

[0220] 在一些实现方式中，所述待生成文本为所述目标小说的任意一个章节，或者预设数量的段落或者预设数量的页数。

[0221] 在一些实现方式中，所述第一视觉信息是视觉信息生成模型基于所述待生成文本和所述第一音频数据确定的；

[0222] 所述第二视觉信息是所述视觉信息生成模型基于所述待生成文本和所述第二音频数据确定的。

[0223] 在一些实现方式中，所述方法还包括训练模块，用于：

[0224] 获取当前用户对所述第一视觉信息的评价信息；

[0225] 根据多个用户对所述第一视觉信息的评价信息的统计信息生成训练样本，所述训练样本包括所述待生成文本、所述第一音频数据和所述第一视觉信息，其中，所述第一视觉信息为所述训练样本的标签；

[0226] 使用所述训练样本对所述视觉信息生成模型进行调整。

[0227] 在一些实现方式中，所述播放页面上显示有人工智能共创功能入口，所述第二获取模块13具体用于：

[0228] 响应于对所述共创功能入口的第二操作，跳转至共创页面，所述共创页面上包括所述待生成文本对应的字幕和录制开始控件；

[0229] 响应于对所述录制开始控件的第三操作，录制用户跟读所述待生成文本的跟读语音，得到所述第二音频数据。

[0230] 在一些实现方式中，所述第二获取模块13具体用于：

[0231] 在所述第二音频数据录制完成后，在所述共创页面上显示发布控件；

[0232] 响应于对所述发布控件的第四操作，触发根据所述第二音频数据和所述待生成文本获取第二视觉信息的步骤。

[0233] 在一些实现方式中，所述共创页面上还显示有以下至少一个控件：重录控件、主播音量调整控件、人声音量调整控件或者章节选择入口；

[0234] 在所述第二音频数据录制完成后，所述共创页面上还显示有以下至少一个控件：试听控件或者取消发布控件。

[0235] 在一些实现方式中，所述播放页面上显示有第一评价控件和第二评价控件，所述装置还包括评价模块，用于：

[0236] 根据用户对所述第一评价控件的第一操作，获取所述第一视觉信息的正向评价信息；

[0237] 或者，根据用户对所述第二评价控件的第一操作，获取所述第一视觉信息的负向评价信息。

[0238] 在一些实现方式中，所述装置100还包括：

[0239] 显示模块，用于在第一页面上展示播放器中已进行智能共创的小说列表，以及各小说的共创次数。

[0240] 在一些实现方式中，所述装置还包括：

[0241] 开启模块，用于根据用户操作开启智能听书功能，在开启所述智能听书功能后播放器在播放所述目标小说的音频数据时，在播放页面上同步显示对应的视觉信息。

[0242] 本实施例的装置可用于执行上述实施例一至实施例三任一实施例所述的方法，具体实现方式参照方法实施例的描述，这里不再赘述。

[0243] 应理解的是，装置实施例与方法实施例可以相互对应，类似的描述可以参照方法实施例。为避免重复，此处不再赘述。

[0244] 上文中结合附图从功能模块的角度描述了本申请实施例的装置100。应理解，该功能模块可以通过硬件形式实现，也可以通过软件形式的指令实现，还可以通过硬件和软件模块组合实现。具体地，本申请实施例中的方法实施例的各步骤可以通过处理器中的硬件的集成逻辑电路和/或软件形式的指令完成，结合本申请实施例公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。可选地，软件模块可以位于随机存储器，闪存、只读存储器、可编程只读存储器、电可擦写可编程存储器、寄存器等本领域的成熟的存储介质中。该存储介质位于存储器，处理器读取存储器中的信息，结合其硬件完成上述方法实施例中的步骤。

[0245] 本申请实施例还提供一种电子设备。图10为本申请实施例五提供的电子设备的一种结构示意图，该电子设备300可以为终端设备或者服务器，如图10所示，该电子设备300可以包括：

[0246] 存储器31和处理器32，该存储器31用于存储计算机程序，并将该程序代码传输给该处理器32。换言之，该处理器32可以从存储器31中调用并运行计算机程序，以实现本申请实施例提供的有声小说的播放方法。

[0247] 例如，该处理器32可用于根据该计算机程序中的指令执行上述方法实施例提供的有声小说的播放方法。

[0248] 在本申请的一些实施例中，该处理器32可以包括但不限于：通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等等。

[0249] 在本申请的一些实施例中，该存储器31包括但不限于：易失性存储器和/或非易失性存储器。其中，非易失性存储器可以是只读存储器(Read‑Only Memory，ROM)、可编程只读存储器(Programmable ROM，PROM)、可擦除可编程只读存储器(Erasable PROM，EPROM)、电可擦除可编程只读存储器(Electrically EPROM，EEPROM)或闪存。易失性存储器可以是随机存取存储器(Random Access Memory，RAM)，其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的RAM可用，例如静态随机存取存储器(Static RAM，SRAM)、动态随机存取存储器(Dynamic RAM，DRAM)、同步动态随机存取存储器(Synchronous DRAM，SDRAM)、双倍数据速率同步动态随机存取存储器(Double Data Rate SDRAM，DDR SDRAM)、增强型同步动态随机存取存储器(Enhanced SDRAM，ESDRAM)、同步连接动态随机存取存储器(synch link DRAM，SLDRAM)和直接内存总线随机存取存储器(Direct Rambus RAM，DR RAM)。

[0250] 在本申请的一些实施例中，该计算机程序可以被分割成一个或多个模块，该一个或者多个模块被存储在该存储器31中，并由该处理器32执行，以完成本申请提供的方法。该一个或多个模块可以是能够完成特定功能的一系列计算机程序指令段，该指令段用于描述该计算机程序在该电子设备中的执行过程。

[0251] 如图10所示，该电子设备300还可包括：收发器33、显示屏34等，处理器32分别与收发器33、显示屏34电性连接。

[0252] 其中，处理器32可以控制该收发器33与其他设备进行通信，具体地，可以向其他设备发送信息或数据，或接收其他设备发送的信息或数据。收发器33可以包括发射机和接收机。收发器33还可以进一步包括天线，天线的数量可以为一个或多个。

[0253] 显示屏34可用于显示图形用户界面以及接收用户作用于图形用户界面产生的操作指令。显示屏34可以为触控显示屏，触控显示屏可以包括显示面板和触控面板。其中，显示面板可用于显示由用户输入的信息或提供给用户的信息以及计算机设备的各种图形用户接口，这些图形用户接口可以由图形、文本、图标、视频和其任意组合来构成。可选的，可以采用液晶显示器(LCD，Liquid Crystal Display)、有机发光二极管(OLED，Organic Light‑Emitting Diode)等形式来配置显示面板。触控面板可用于收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板上或在触控面板附近的操作)，并生成相应的操作指令，且操作指令执行对应程序。可选的，触控面板可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器32，并能接收处理器32发来的命令并加以执行。触控面板可覆盖显示面板，当触控面板检测到在其上或附近的触摸操作后，传送给处理器32以确定触摸事件的类型，随后处理器32根据触摸事件的类型在显示面板上提供相应的视觉输出。

[0254] 可以理解，图10中示出的电子设备结构并不构成对电子设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。例如，该电子设备300还可以包括摄像头模组、无线保真WIFI模块、定位模块、蓝牙模块、显示器、控制器等，在此不再赘述。

[0255] 应当理解，该电子设备中的各个组件通过总线系统相连，其中，总线系统除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。

[0256] 本申请还提供了一种计算机存储介质，其上存储有计算机程序，该计算机程序被计算机执行时使得该计算机能够执行上述方法实施例的方法。或者说，本申请实施例还提供一种包含指令的计算机程序产品，该指令被计算机执行时使得计算机执行上述方法实施例提供的有声小说的播放方法或者有声小说的生成方法。

[0257] 本申请还提供了一种计算机程序产品，该计算机程序产品包括计算机程序，该计算机程序存储在计算机可读存储介质中。电子设备的处理器从计算机可读存储介质读取该计算机程序，处理器执行该计算机程序，使得电子设备执行方法实施例提供的有声小说的播放方法或者有声小说的生成方法的相应流程，为了简洁，在此不再赘述。

[0258] 在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，该模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个模块或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或模块的间接耦合或通信连接，可以是电性，机械或其它的形式。

[0259] 作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理模块，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。例如，在本申请各个实施例中的各功能模块可以集成在一个处理模块中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个模块中。

[0260] 以上仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以该权利要求的保护范围为准。

查看完整全部详细技术资料

当前第1页第1页第2页第3页

有声小说的播放、装置、设备及其存储介质实质审查发明

技术领域

相关背景技术

具体实施方式

[0002]有声小说是传统书籍的一种衍生形式，许多小说作品被录制成有声小说，有声小说是一种音频文件，...，盲点网为您提供有声小说的播放、装置、设备及其存储介质专利转让信息专利转让交易数据查询就上盲点网

有声小说的播放、装置、设备及其存储介质实质审查 发明

技术领域

相关背景技术

具体实施方式

[0002]有声小说是传统书籍的一种衍生形式，许多小说作品被录制成有声小说，有声小说是一种音频文件，...，盲点网为您提供有声小说的播放、装置、设备及其存储介质专利转让信息专利转让交易数据查询就上盲点网

有声小说的播放、装置、设备及其存储介质实质审查发明