首页 / 自动化演示控制

自动化演示控制有效专利 发明

技术内容

自动化演示控制 背景技术 [0001] 当前,演示者需要手动地控制演示的幻灯片与其语音之间的同步。有不同的电子装置可以用于控制演示的流程,诸如:键盘、鼠标、专用点击器(有线或无线)等。然而,这样的电子装置的使用需要来自演示者的关注,限制了演示者为控制器(例如,“点击器”)实际使用一只手,并且常常导致技术问题。尝试通过这样的电子装置手动地控制演示可能导致问题,诸如中断、(计算设备或相关联的电子装置的)技术故障以及使演示流程破坏。 [0002] 其他技术进步使得应用程序/服务(例如,数字助理)能够利用语音命令来使演示与演示者的语音同步。然而,这样的应用程序/服务通常需要用户手动地提供用于演示控制的命令(例如,下一幻灯片),这限制了这样的应用程序/服务的生产力和效率,以及使演示流程中断。例如,用户被要求采取动作以发起数字助理服务,以识别语音命令。另外,语音命令库通常是有限的,并且可能无法编程以包括针对特定演示而定制的上下文相关内容。 发明内容 [0003] 鉴于前述技术缺点,本公开的非限制性示例涉及在一个或多个数字文档的演示期间的自动化演示控制。代表用户使数字文档的流程控制自动化以替代数字演示的位置放置更新通常所需的手动动作。通过用户语音信号的上下文评估来实现自动化演示控制。在本文中所描述的处理操作可以被配置为与任何类型的应用程序/服务一起工作,其中,在本文中所描述的示例扩展到任何类型的(一个或多个)数字文档的演示,包括基于幻灯片的演示。 [0004] 在示例中,可以在演示数字文档的同时检测语音信号。数字文档(或多个数字文档)的演示意在包括各实例,其中:1)正在通过应用程序/服务访问数字文档;2)正在通过应用程序/服务执行数字文档的试验演示的训练模式;以及3)正在通过应用程序/服务以演示模式来演示数字文档。在任何示例中,可以将检测到的语音信号转换成文本并且进行分析。 可以将经转换的文本和与数字文档(或其他数字文档)相关联的上下文数据(例如,经预处理的内容)进行匹配。可以基于经转换的文本与上下文数据的匹配来生成针对确定数字文档的下一放置位置的概率计分。可以基于所生成的概率计分来选择下一放置位置。可以将数字文档的显示自动地更新以反映所选择的下一放置位置,从而代表用户提供自动化演示控制。 [0005] 提供本发明内容是为了以简化形式介绍一系列概念,在下文的具体实施方式中进一步描述这些概念。本发明内容并不旨在标识所要求保护的主题的关键特征或必要特征,也并不旨在用于限制所要求保护的主题的范围。各示例的另外的方面、特征和/或优点将部分在以下描述中阐述,并且部分在某种程度上从描述中将显而易见,或者可通过实践本公开而认识到。 附图说明 [0006] 参考以下附图来描述非限制性并且非穷举性的示例。 [0007] 图1图示了与可以利用其实践本公开的各方面的自动化演示控制相关的示范性方法。 [0008] 图2A图示了可以利用其实践本公开的各方面的训练情形中的语音到文本处理的示范性过程流。 [0009] 图2B图示了可以利用其实践本公开的各方面的实况演示模式情形中的语音到文本处理的示范性过程流。 [0010] 图3是图示了可以利用其实践本公开的各方面的计算设备的示例的框图。 [0011] 图4A和4B是可以利用其实践本公开的各方面的移动计算设备的简化框图。 [0012] 图5是其中可以实践本公开的各方面的分布式计算系统的简化框图。 具体实施方式 [0013] 本公开的非限制性示例涉及在一个或多个数字文档的演示期间的自动化演示控制。代表用户使数字文档的流程控制自动化以替代数字演示的位置放置更新通常所需的手动动作。通过用户语音信号的上下文评估来实现自动化演示控制。在本文中所描述的处理操作可以被配置为与任何类型的应用程序/服务一起工作,其中,在本文中所描述的示例扩展到任何类型的(一个或多个)数字文档的演示,包括基于幻灯片的演示。数字文档(或多个数字文档)的演示意在包括各实例,其中:1)正在通过应用程序/服务来访问数字文档;2)正在通过应用程序/服务来执行数字文档的试验演示的训练模式;以及3)正在通过应用程序/服务以演示模式来演示数字文档。 [0014] 为了容易解释,在本文中所描述的示例可以参考单个数字文档的上下文分析和自动化控制。然而,还要理解的是,在本文中所描述的处理操作不仅涉及单个数字文档的演示控制,还可以扩展到跨不同数字文档以及应用程序/服务示例之间的演示控制(例如,放置位置的选择)。例如,用户可以具有打开以用于演示并且在演示期间在数字文档之间进行切换的多个数字文档,其中,对演示者的语音的上下文分析可以确定从演示期间突出显示的不同数字文档选择放置位置。在另一种情况下,演示者可以使数字文档打开,其中,对语音信号的上下文分析指示用户正在参考另一数字文档,例如,该另一数字文档被存储(在本地或者通过与执行服务相关联的分布式存储装置)但是并非正在被访问。在那种情况下,对放置位置的选择可以包括例如代表用户来访问并且演示该数字文档,以辅助演示者进行演示的流程,以及增强用于取回数字文档的计算设备和应用程序/服务的生产力和处理效率。 [0015] 在本文中所描述的示例包括实时(或接近实时)地访问演示的那些示例。在一些情况下,应用程序/服务可以使得用户能够执行用于(一个或多个)数字文档的演示的训练轮次,例如,其中,可以使用训练模式对训练/试验轮次(或多个轮次)的语音进行建模,用于后续实况演示。这可以辅助对语音信号的实时处理,其中,关于在演示期间位置放置的概率确定可以依据先前执行的训练轮次。在实时处理期间,演示者可以使用类似语言、改变语句、跳过语句等,其中,自然语言处理能够将接收到的语音与训练期间先前经处理和分析的相关。在其他情况下,用于在演示期间确定数字文档之内的放置位置的语音信号的上下文分析可以包括分析以下中的一项或多项:时间戳数据、关键字或语音命令、与数字演示文档相关联的元数据、包括与数字文档的各部分相关联的注释/注释项目的数字演示文档的内容、从与用户界面的交互(例如,鼠标设备或指针的定位)收集的分类类别/实体数据和信号数据、以及其他示例。这样的上下文分析可以实时发生,示例包括先前尚未记录训练轮次的那些。训练轮次的执行可以获得经过训练的语音,其能用于在概率计分的生成期间增强精确度、准确度和效率,以在数字文档之内选择下一放置位置。 [0016] 在一个示例中,在应用程序/服务的用户界面中演示数字文档。例如,应用程序/服务的演示模式可以是用于检测语音信号的触发器,所述语音信号可以被分析以确定用于数字文档的演示的上下文。演示模式可以是被配置用于数字文档的演示的用户界面模式,与仅通过应用程序/服务的用户界面访问数字文档的情况相反。然而,在本文中所描述的示例并不限于应用程序/服务的具体模式。在其他示例中,应用程序/服务可以被配置为使得用户能够执行用于数字文档的演示的训练模式。示范性训练模式可以使得用户能够执行用于数字文档的演示的训练/试验轮次。在演示的训练轮次的执行期间,可以生成训练语音并且将其用于模型训练,以在数字文档的后续实况演示期间增强用户语音信号的语音识别和上下文分析。 [0017] 在其他示例中,应用程序/服务可以被配置为在执行应用程序/服务的同时在任何时间点处自动地检测语音信号。要指出的是,可以根据任何隐私法律法规并且根据用户同意来进行对语音信号的捕获。所捕获的语音信号可以被语言理解服务(例如,采用用于自然语言理解的机器学习模型)转换成文本并且接下来进行分析。在一种情况下,示范性语言理解服务被配置为将经转换的文本和与数字文档(或其他数字文档)相关联的上下文数据进行匹配。在一些示例中,与数字文档相关联的内容可以被预处理,例如,以增强实时处理期间的处理效率并且减少延迟。由语言理解服务所采用的示范性语言处理模型被配置为生成概率计分,用于确定(数字文档或另一数字文档之内)演示的下一放置位置。下一放置位置是数字文档之内的可以重新定位数字文档的焦点的参考点。基于所生成的概率计分来选择下一放置位置(例如,另一数字文档、下一页、下一幻灯片、四页幻灯片之前、3页幻灯片之前)。通过示范性应用程序/服务的用户界面,可以将数字文档的显示自动地更新到选定的放置位置,代表用户提供自动化演示控制。 [0018] 由在本公开中所描述的处理所提供的示范性技术优势包括,但不限于:代表用户对数字文档的自动化演示(流程)控制;通过实现针对数字文档的演示的自动化演示控制的适配的用户界面的经改善的应用程序/服务;通过适配的用户界面针对利用数字文档工作(包括数字文档的演示)的用户的经改善的用户交互和生产力;利用与数字文档相关联的内容对用于经转换文本的上下文分析以及用于确定演示的下一放置位置的概率计分的生成的语言理解模型的调整;针对计算设备的经改善的处理效率,包括数字文档的演示期间的减小的处理负载以及数据取回和演示中的减小的延迟;计算设备的操作期间涉及处理效率的改善(处理循环的减少)以及在数字文档的演示控制期间对计算机存储装置/存储器的更好的管理;通过替代人工用户动作的主动数据取回和分析实现跨应用程序/服务的增强;以及扩展相关联的应用程序/服务的能力和功能的经改进的系统/服务示例,以及其他技术优势。 [0019] 图1图示了与可以利用其实践本公开的各方面的自动化演示控制相关的示范性方法100。自动化演示控制涉及分析语音信号并且将其与数字文档相关联的示例,包括在应用程序/服务的演示模式中演示数字文档的示例。数字文档的演示包括以下示例,其中:数字文档在计算设备上打开/活动并且基于对语音信号的分析来论述;数字文档在应用程序/服务的演示模式中被演示;并且进一步扩展到数字文档被存储(未被主动访问)但是正在基于对语音信号的分析来论述的示例。语言理解处理以及用于自动化演示控制的用户界面特征(包括训练和实况演示模式的切换)可以天然集成在用于访问数字文档的应用程序/服务之内。 [0020] 例如,方法100可以由示范性计算设备(或多个计算设备)和/或系统、诸如在图3-5中所示的那些来执行。在方法100中所执行的操作可以对应于有执行计算机程序的系统和/或服务执行的操作、应用编程接口(API)、神经网络或机器学习和语义和实体理解建模、以及其他示例。例如,在方法100中所执行的处理操作可以由一个或多个硬件组件来执行。在另一示例中,在方法100中所执行的处理操作可以由一个或多个软件组件来执行。在一些示例中,在方法100中所描述的处理操作可以由与可以访问多个应用程序/服务、设备、知识资源等的web服务相关联的一个或多个应用程序/服务来执行。在一种情况下,在方法100中所描述的处理操作可以由通过分布式网络连接的一个或多个组件来实施。 [0021] 方法100开始于处理操作102,其中,通过示范性应用程序/服务来演示数字文档。 可以通过正在计算设备上执行的应用程序/服务的用户界面进行示范性数字文档的演示(处理操作102)。数字文档(或多个数字文档)的演示意在包括各实例,其中:1)正在通过应用程序/服务来访问数字文档;2)正在通过应用程序/服务来执行用于数字文档的试验演示的训练模式;以及3)正在通过应用程序/服务以演示模式来演示数字文档。数字文档可以包括,但不限于:网站、电子文件/文档,诸如:文字文档、笔记文档、电子表格文档、网页和数字演示文档,以及其他非限制性示例。数字文档的示例包括当由(执行应用程序/服务的)计算设备访问时用于生成可查看内容的任何数字文件。如上所述,数字文档的一个示例是数字演示文档。示范性数字演示文档包括基于幻灯片的演示(例如, 演示、演示 稿)。数字演示文档的其他示例包括经布置或分组的内容,包括:数字笔记卡片项目、图像内容(例如,被布置成图像库)、视频内容和经分组/线程化的消息内容、以及其他示例。 [0022] 应用程序/服务的示例是生产力应用程序/服务。示范性生产力应用程序/服务是被配置用于执行以使得用户能够在计算设备上完成任务(例如,一个或多个数字文档的演示)的应用程序/服务,其中,示范性生产力服务可以被配置用于数字文档的演示以及对数字文档的自动化演示(流程)控制。与可以适于自动化演示控制的示范性生产力服务的用户界面协调地进行该操作。生产力服务的示例包括,但不限于:文字处理应用程序/服务、电子表格应用程序/服务、笔记/记笔记应用程序/服务、创作应用程序/服务、数字演示应用程序/服务、搜索引擎应用程序/服务、电子邮件应用程序/服务、即时消息应用程序/服务、web浏览应用程序/服务、协作团队应用程序/服务、数字助理服务、目录应用程序/服务、绘图服务、日历服务、电子支付服务、数字存储应用程序/服务和社交网络应用程序/服务、以及其他示例。在一些示例中,示范性生产力应用程序/服务可以是可以被配置为和与平台相关联的其他应用程序/服务进行接口的生产力应用程序/服务的套件的组件。例如,文字处理服务可以被包括在捆绑服务中(例如, 等)。此外,例如,示范性生产 力服务可以被配置为与其他因特网资源/服务进行接口,包括第三方应用程序/服务,例如,以增强生产力服务的功能。 [0023] 在一些示例中,方法100的处理可以进行到处理操作104,在其中执行针对数字文档的演示的训练。如在先前描述中所参考的,在本文中所描述的示例包括在其中实时(或接近实时)访问演示的那些示例。在一些情况下,应用程序/服务可以使得用户能够执行针对(一个或多个)数字文档的演示的训练轮次,例如,其中,可以使用训练模式对语音进行建模,以用于对数字文档的将来演示。这可以辅助对语音信号的实时处理,其中,通过在针对数字文档的演示的训练轮次期间的分析处理来增强关于演示期间位置放置的概率确定的准确度。在实时处理期间,其中,演示者使用类似语言、改变语句、跳过语句等,自然语言处理能够将接收到的语音与训练期间先前经处理和分析的相关。在这样做时,可以实施语言理解模型或自然语言模型以执行语言模型处理以及所接收语音信号的相关。本领域技术人员知道示范性语言理解处理(包括语言理解模型/自然语言模型的实施)。 [0024] 本公开还公开了,在数字文档的训练或实况演示(例如,没有训练)的执行中,实施基于机器学习的服务,以将自然语言理解构建到应用程序/服务中,以用于在演示期间的数字文档的评估。除了其他示例之外,机器学习模型(或神经网络模型,以及其他示例)可以适于将所接收到的语音信号的上下文和与数字文档相关联的上下文数据进行比较。在这样做时,机器学习模型被配置为从语音信号中提取含义(包括本领域技术人员公知的基于时隙的数据分析(例如,时隙标记(slot tagging)))。鉴于与数字文档相关联的上下文数据,对语音信号的分析被用于生成用于确定数字文档的自动化更新的放置位置确定的概率计分。 所生成的概率计分可以被用于确定在数字文档的演示之内的当前放置位置,以及用于数字文档的演示的自动更新的后续放置位置。对经分析的数据的上下文分析和概率评估以确定演示中的下一放置位置是本公开的新技术优势之一。如前文中所参考的,语言理解服务可以采用示范性语言理解模型,其独立于示范性生产力服务,或者其中,功能被固有地集成到生产力服务中。 [0025] 用于数字文档的演示的后续放置位置可以是线性更新(例如,前一排序的幻灯片或下一排序的幻灯片)或非线性更新(例如,不遵循数字文档之内的幻灯片的顺序),其中,语音信号的上下文分析和与数字文档相关联的上下文数据的比较来确定用于演示的自动更新的下一放置位置。上下文数据可以包括,但不限于:时间戳数据、关键字或语音命令、与数字演示文档相关联的元数据、包括与数字文档的各部分相关联的注释/注释项目的数字演示文档的内容、从与用户界面的交互(例如,鼠标设备或指针的定位)收集的分类类别和实体数据和信号数据、以及其他示例。可以从若干数据源的任何源收集上下文数据,包括从执行应用程序/服务(例如,演示数字文档的生产力服务)、与数字文档相关联的数据(和元数据)的语法分析、与包括知识库的平台服务的跨应用程序/服务交互、日志数据(包括点击日志数据)、实体关系数据库、语音命令库、自动语音识别建模等收集。如上所述,语言理解处理以及用于自动化演示控制的用户界面特征(包括训练和实况演示模式的切换)可以固有地集成在用于访问数字文档的应用程序/服务之内。在一些情况下,可以使用分布式网络服务(例如,基于云的服务)来进行在本文中针对语音识别(例如,将语音转换成文本)和/或用于为数字文档演示中的放置位置的确定生成概率计分的排序器而描述的处理操作,其中,可以利用(或集成)与平台提供商(例如, ) 相关联的不同服务的功能来增强处理和生产力。 [0026] 在一个示例中,示范性应用程序/服务的用户界面可以被配置为使得用户能够在数字文档的演示期间进入针对语音识别训练的训练模式。例如,示范性生产力服务的用户界面可以被配置为使得用户能够选择用户界面特征,以触发进入训练模式(例如,以执行演示的试验轮次)。示范性训练模式是示范性应用程序/服务的模式,其使得能够演示数字文档,用于生成经过训练的语音,以增强实况演示期间语音信号的后续分析。在另一示例中,与用于查看数字文档的应用程序/服务独立的应用程序/服务可以被配置为实施被训练用于进行演示特有的上下文分析的语言理解模型。在这样的示例中,实施语言理解模型的应用程序/服务可以与用于查看数字文档的应用程序/服务集成,例如,以使得能够代表用户实现用于自动化演示控制的命令。 [0027] 此外,由于训练轮次可能在数字文档的实际演示之前很早就进行,所以可以通过对接其他平台应用程序/服务、第三方应用程序/服务等来进一步分析来自训练轮次的数据收集,以增强后续实时处理。正式演示数字文档(或多个文档)的演示者可能希望执行演示的训练轮次以辅助数字文档的将来实况演示。可以训练示范性语言理解模型以通过评估语音信号的韵律和语汇分析以及评估其他信号数据(例如,演示期间的设备点击、鼠标点击、训练期间输入的注释/关键字)来理解语音信号。示范性语言理解分析,包括通过语汇和韵律评估进行语音信号的评估,是本领域普通技术人员已知的。在一种情况下,训练轮次可以识别特定演示者的特性(例如,语法分析、时隙标记、语音识别的部分、文字和语句结构化、语义分析、演讲者的数量、语气、内涵、性别识别),这可能对于在实时后续演示期间执行概率确定是有用的。例如,演讲者可能正向大量听众演示,其中,听众成员可能提出问题,而问题被登记为语音信号。在这样的示例中,在先训练数据使得语言理解模型能够考虑在先训练语音以检测到不应当改变数字文档的位置放置,因为演示者在该时间点并未主导演示。 在其他示例中,语言理解模型可以被配置为评估任何类型的语音信号(无论其是来自训练中识别的演示者还是另一讲演者)以进行演示的自动化流程控制。 [0028] 用于数字文档的演示的训练(处理操作104)的执行包括与在方法100中接下来所描述的相同的处理操作的执行。示范性处理操作包括:语音信号的、检测到的语音信号到文本的转换、对经转换的文本的上下文分析、以及针对后续位置放置而生成概率计分。在图2A的描述中进一步提供了用于数字文档的演示的训练期间的处理的示例。在示例中,训练轮次可以被用于识别与数字文档(或不同数字文档的使用)的内容(例如,幻灯片)的具体部分的演示相关联的时间戳数据。例如,演示者可以输入设备动作(例如,鼠标点击)以改变基于幻灯片的演示的幻灯片,其中,使用训练来识别设备动作之间的时间戳数据,以识别特定幻灯片和描述特定幻灯片的语音信号。以这种方式,特定的字词、语句、动作等可以与特定幻灯片相关联,其能够被用作用于训练示范性语言理解模型进行后续演示的基础。 [0029] 此外,在一些示例中,训练的执行(处理操作104)还可以包括数字文档的演示期间的放置位置的自动更新。例如,演示者可以执行多个训练轮次,其中,第二训练轮次可以使得被训练语言理解模型能够基于针对演示的自动化流程控制的示范性概率计分的结果,来自动地调节演示。此外,示范性语言理解模型可以在训练轮次的执行期间从演示者做出的校正来学习。例如,演示者可以通过用户界面提供校正对演示进行的自动化更新的动作,其能够被用于训练语言理解模型在后续处理期间进行评估。 [0030] 无论是否已经执行了用于数字文档的演示的训练,方法100的流程可以进行到处理操作106,其中,检测数字文档中当前的放置位置,以用于数字文档的演示的实时评估。当前放置位置是指示演示是当前参考的数字文档中的位置的参考点。在一个示例中,当前放置位置是初始放置位置,这是访问数字文档的演示所在的点。例如,当启动数字文档或进入(应用程序/服务的)演示模式以对数字文档(或多个数字文档)进行数字演示时,可以通过示范性应用程序/服务(例如,生产力服务)指示的信号数据来确定数字文档的初始放置位置。如前文中所述的,在本文中所描述的示例可以参考训练模式以及演示模式(例如,实况演示模式)。在任一示例中,处理操作是类似的,但是执行演示的训练可以通过经训练的语音处理为数字文档的后续演示得到更大准确度、精确度和处理效率。实况演示模式(或实况演示模式)是训练模式正在操作之外的数字文档的任何实时演示。 [0031] 时间戳数据可以与当前放置位置相关联,其可以被用于针对从示范性应用程序/服务和计算设备接收的语音信号以及信号数据来提供具体参考点(例如,动作、与计算设备相关联的电子设备/附件的指针参考)。如上所述,可以将来自训练期间分析的语音信号的时间戳数据与来自实时(实况)演示、后续训练轮次等的时间戳数据对齐,以检测用于数字文档的演示的上下文。当前放置位置的检测(处理操作106)可以连续地进行,其中,应用并且配置示范性语言理解模型以连续地检查演示的当前放置位置,所述当前放置位置可以在任何时间点处改变。在一些示例中,可以利用训练数据,例如基于当前放置定位/初始放置定位的先前试验轮次,来增强关于下一放置位置的概率确定。此外,当前放置位置的检测是用于演示的自动化更新的参考点,其中,应用程序/服务可以在演示期间保持对放置位置的跟踪。在一个示例中,当前放置位置被移动到下一放置位置,其中,演示者可以陈述语音命令,以返回到先前的幻灯片(或上一放置位置)。以这种方式,针对数字文档的演示的流程控制实现了处理效率。 [0032] 在数字文档的演示期间,方法100的流程可以进行到处理操作108,其中,检测语音信号并且将其转换成文本,以用于后续处理。如上所述,可以实施示范性语言理解模型以执行语音识别处理。示范性语言理解模型可以被集成在示范性应用程序/服务(例如,生产力服务)之内,或者应用程序/服务可以(例如,通过API或其他编程)进行接口,以接收语音识别处理的结果。作为示例,示范性语言理解模型可以是基于云的机器学习模型,其可以由平台的多个应用程序/服务通过网络连接来访问。示范性语言理解模型可以进一步被配置用于对语音的上下文分析,其用于对数字文档的数字演示中的下一放置位置的选择。 [0033] 在数字文档的演示期间,可以连续地检测语音信号。如前文所述,当经由应用程序/服务进入用于数字演示的演示模式(或训练模式)时,可以进行语音检测。在替代示例中,语音识别处理可以在任何时间点处进行,并且不需要进入演示模式或训练模式才进行语音识别处理。处理操作108将所接收到的语音信号转换成文本并且传播经转换的文本以用于上下文分析,以将经转换的语音和与数字文档相关联的上下文数据相匹配。 [0034] 在处理操作110,对经转换的文本进行上下文分析。处理操作110包括将文本和与数字文档相关联的上下文数据进行匹配。如前所述,可以训练机器学习模型(例如,语言理解模型)以将经转换的语音文本和与数字文档相关联的示范性上下文数据相关。上下文数据可以包括,但不限于:时间戳数据、关键字或语音命令、与数字演示文档相关联的元数据、包括与数字文档的各部分相关联的注释/注释项目的数字演示文档的内容、从与用户界面的交互(例如,鼠标设备或指针的定位)收集的分类类别和实体数据分析和信号数据、以及其他示例。可以从若干数据源中的任何数据源收集上下文数据,包括从执行应用程序/服务(例如,演示数字文档的生产力服务)、与数字文档相关联的数据(和元数据)的语法分析、与包括知识库的平台服务的跨应用程序/服务交互、日志数据(包括点击日志数据)、实体关系数据库、语音命令库、自动语音识别建模等收集。 [0035] 在其中已经接收到用于数字文档的演示的经训练语音的示例中,经训练的语音可以被用作上下文数据的基本形式以与(实时接收的)经转换的文本相匹配。例如,针对(语音信号的)经转换文本与数字文档的上下文数据的匹配的概率计分可以包括除其他上下文数据(例如,数字文档的具体上下文部分、数字文档的元数据、从应用程序/服务、计算设备接收的信号数据)之外的经训练语音的评估。在未接收到用于数字文档的演示(例如,演示是立即实况的)的经训练语音的示例中,上下文数据分析可以包括:对数字文档的具体内容部分的评估;与数字文档相关联的注释(例如,与具体幻灯片相关联的注释/关键字);语音的类别分类;信号数据(从应用程序/服务和/或计算设备接收);以及预处理的语音命令、以及其他示例。 [0036] 流程可以进行到处理操作112,其中,针对演示(在数字文档或另一数字文档之内)的下一放置位置的确定生成概率计分。示范性下一放置位置是可以重新定位数字文档的焦点的数字文档的一部分内容。对下一放置位置的选择(处理操作114)包括对经的转换的语音文本与数字文档的内容的匹配计分的概率确定。在这样做时,示范性语言理解模型被配置为生成分数/等级,其将数字文档的具体部分与静转换的语音文本相关。这是基于机器学习处理进行的,所述机器学习处理对经转换的文本相对于数字文档(或多个数字文档)的内容进行上下文分析。可以训练示范性语言理解模型以优化概率计分。包括排序/计分处理的机器学习处理是本领域技术人员已知的。为了提高计分处理的准确度和精确度,可以训练示范性语言理解模型。用于概率计分的示范性机器学习模型的训练可以取决于在方法100中所描述的处理操作的离线执行,所述处理操作包括对语音信号的检测和评估以及示范性上下文数据与来自语音识别处理的转换语音文本的匹配。在至少一个示例中,将加权应用于特定类型的上下文数据,其中一些类型的上下文数据(例如,幻灯片上的内容)可以比例如从应用程序/服务接收的信号数据被赋予更大权重。可以使用上下文数据的加权评估来识别用于将经转换的文本与数字文档的特定部分(例如,幻灯片)进行匹配的概率计分。 [0037] 例如,演示者可能在主导关于营销策略的基于幻灯片的数字演示,其中,演示者在第一幻灯片上并且开始讲述按照数字演示的幻灯片稿排序在三个幻灯片之后的主题内容(例如,客户人口统计信息)。示范性语言理解模型被配置为对演示者正在参考数字文档的不同部分的内容的可能性进行计分/排序。在所提供的示例中,所述语言理解模型可以检测到演示者正在从营销讲解到年龄人口统计信息,并且将其匹配到包括用于产品营销的年龄人口统计信息的图形表示的幻灯片上的内容。概率计分可以基于与经转换的文本与(数字文档的)内容部分的匹配程度相关的阈值评估。例如,如果所确定的演示者正在参考特定内容(例如,幻灯片)的概率高于预定阈值量,那么选择该特定内容作为用于数字演示的自动化更新的下一放置位置。预定阈值可以变化而不脱离本公开的主旨。 [0038] 可以基于所生成的概率计分来选择下一放置位置(处理操作114)。例如,示范性语言理解模型可以选择超过预定阈值的最高计分选择,所述预定阈值用于经转换的文本和与数字文档相关联的上下文数据的匹配。示范性放置位置的选择还可以包括传播使得应用程序/服务能够识别要更新数字文档的点的数据。例如,在基于幻灯片的演示中,可以传播诸如幻灯片编号、幻灯片标题等数据以辅助应用程序/服务识别所选择的放置位置。如前面的描述所指出的,用于数字文档的演示的下一放置位置可以是线性更新(例如,前一排序的幻灯片或下一排序的幻灯片)或非线性更新(例如,不遵循数字文档之内的幻灯片的顺序),其中,对语音信号的上下文分析和与数字文档相关联的上下文数据相比较来确定用于演示的自动更新的下一放置位置。 [0039] 方法100的流程可以进行到处理操作116,其中,将数字文档的显示自动地更新到所选择的下一放置位置。处理操作116包括代表用户通过应用程序/服务的用户界面自动地更新数字文档的显示,而无需用户做出手动动作。当正在从被配置用于自动化演示控制的应用程序/服务向应用程序/服务(例如,生产力服务)发送更新命令的示例中,方法116还可以包括对应关系,其中,应用程序/服务进行接口以使得示范性生产力服务能够基于所接收到的更新命令来自动地更新数字文档的显示。示范性更新命令可以包括所选择的下一位置的指示以及使应用程序/服务更新数字文档的显示(例如,数字演示)的指令。在其他情况下,应用程序/服务被配置为固有地基于下一放置位置的选择来更新数字文档的演示。 [0040] 方法100的流程可以进行到决策操作118,其中,确定是否对数字文档的自动更新进行校正。在未接收到校正的示例中,决策操作118的流程分支到“否”,并且方法100的处理返回到处理操作108,其中,检测并且转换后续语音信号。在需要对数字文档的自动更新进行校正的示例中,决策操作118的流程分支到“是”,并且处理进行到处理操作120。在处理操作120处,接收到用于数字文档的演示的手动更新。在一些情况下,自动更新可能是不正确的,或者不是演示者希望的。处理操作120包括演示者对数字文档的放置的手动校正。例如,演示者可以利用电子设备(例如,演示点击器、鼠标、触笔)或触摸输入来调节数字文档的演示。在其他示例中,演示者可以使用语音命令来这样做。在任何示例中,示范性语言理解模型可以从校正学习,包括检测到指示自动化更新错误的语音。在接收到校正的示例中,方法 100的流程返回到处理操作108,其中,检测并且转换后续语音信号。 [0041] 图2A-2B图示了包括方法100的前述描述(图1)中所描述的处理操作的示范性过程流。 [0042] 图2A图示了在训练情形中用于语音到文本处理的示范性过程流200,其中,生成经训练的语音用于数字文档的后续实况演示。如前述描述中所述,可能会发生一些处理示例,其中,演示者已经执行了演示的训练轮次。在这样的情况下,可以利用经训练的语音来辅助数字文档的实况演示的上下文评估。 [0043] 在过程流200中,接收语音输入202用于处理。如在过程流200中所图示的,语音输入202的训练可以包括对设备点击(例如,“鼠标点击”)之间的口头讲话(语音信号)的评估,这提供了演示者在导航数字演示的同时讲解数字文档的特定部分的指示。可以使用示范性语言理解模型进行语音识别处理和分析。例如,用户可以点击到演示的下一幻灯片并且开始讲解该幻灯片。当接收到进行到另一幻灯片的下一设备点击时,示范性语言理解模型可以注释与设备点击相关联的时间戳,以识别涉及特定幻灯片的特定语音。与设备点击(动作)相关联的信号数据可以辅助将数字文档的特定内容(例如,幻灯片)与从演示者接收到的语音相关。例如,应用程序/服务可以识别演示内可以辅助确认数字文档中演示者正在参考的点的参考点(例如,幻灯片编号、页码等)。如在方法100中所描述的,将接收的语音信号转换204成文本。分析206经转换的文本,其中,经转换的文本与数字文档的特定部分相关联。例如,分析206可以包括逐个幻灯片地聚集转换。这使得能够针对数字文档的特定部分(例如,幻灯片)来创建经训练的语音。然后可以利用经训练的语音来辅助对数字文档的实况演示期间接收到的语音信号的上下文分析。 [0044] 图2B图示了可以利用其实践本公开的各方面的实况演示模式情形中的语音到文本处理的示范性过程流220。如前述描述所述,实况演示模式是未针对数字文档的演示生成任何经训练的语音的情况。在实况演示模式的示例中,接收222语音输入。与演示者正在训练机器学习模型以生成经训练的语音从而辅助后续分析的一些情况不同,实况演示模式可以严格集中于所接收到的语音信号。例如,在数字文档的演示期间,可以使用示范性语言理解模型进行语音识别处理和分析。将语音输入222转换224成文本以辅助后续上下文分析。 在处理操作226处,然后分析经转换的文本以和与数字文档的特定部分(例如,幻灯片)相关联的内容匹配。在这样做时,分析226包括:如在方法100中所述(图1),通过组合分析的不同上下文方面(例如,组合来自上下文分析的多个不同类别的处理结果),为经转换的文本找到最佳匹配幻灯片。基于考虑到上下文分析的概率计分的结果,选择示范性下一放置位置用于演示的自动化更新。 [0045] 图3-5和相关联的描述提供了可以在其中实践本发明的各示例的各种操作环境的论述。然而,结合图3-5例示和论述的设备和系统用于举例和例示的目的,并非限制如本文所述可以用于实践本发明的各示例的大量计算设备配置。 [0046] 图3是图示了可以利用其实践本公开的各示例的计算设备302、例如移动处理设备的物理组件的框图。除了其他示例之外,计算设备302可以是如本文所述的被配置用于自动化演示控制的示范性计算设备。在基础配置中,计算设备302可以包括至少一个处理单元 304和系统存储器306。根据计算设备的配置和类型,系统存储器306可以包括,但不限于:易失性存储装置(例如,随机存取存储器)、非易失性存储装置(例如,只读存储器)、闪存存储器或者这样的存储器的任意组合。系统存储器306可以包括操作系统307以及适合于运行软件程序/模块320的一个或多个程序模块308,软件程序/模块诸如是IO管理器324、其他实用程序326和应用程序328。例如,系统存储器306可以存储指令以供执行。系统存储器306的其他示例可以存储与应用程序相关联的数据。例如,操作系统307可以适合于控制计算设备 302的操作。此外,可以结合图形库、其他操作系统或者任何其他应用程序来实践本发明的示例,并且并不限于任何特定的应用程序或系统。该基础配置在图3中由虚线322之内的那些组件例示。计算设备302可以具有额外的特征或功能。例如,计算设备302还可以包括额外的数据存储设备(可移除和/或不可移除),诸如,例如磁盘、光盘或磁带。这样的额外的存储装置在图3中由可移除存储设备309和不可移除存储设备310例示。 [0047] 如上所述,系统存储器306中可以存储若干程序模块和数据文件。当在处理单元 304上执行时,程序模块308(例如,输入/输出(I/O)管理器324、其他实用程序326和应用程序328)可以执行过程,包括,但不限于整个本公开中描述的操作的一个或多个阶段。根据本发明的示例可以使用的其他程序模块可以包括电子邮件和联系人应用程序、文字处理应用程序、电子表格应用程序、数据库应用程序、幻灯片演示应用程序、绘图或计算机辅助应用程序、照片编辑应用程序、创作应用程序等。 [0048] 此外,可以在包括离散电子元件、包含逻辑门的封装或集成电子芯片、利用微处理器的电路的电路中,或者在包含电子元件或微处理器的单个芯片上实践本发明的示例。例如,可以经由片上系统(SOC)来实践本发明的示例,其中,在图3中所图示的每个或很多组件可以被集成到单个集成电路上。这样的SOC器件可以包括一个或多个处理单元、图形单元、通信单元、系统虚拟化单元和各种应用功能,其全部被集成(或“烧制”)到芯片衬底上作为单个集成电路。当经由SOC来操作时,可以经由在单个集成电路(芯片)上与计算设备402的其他组件一起集成的专用逻辑来操作本文所述的功能。也可以使用能够执行逻辑操作,诸如例如与、或和非的其他技术,包括,但不限于:机械、光学、流体和量子技术,来实践本公开的示例。另外,可以在通用计算机或在任何其他电路或系统之内实践本发明的示例。 [0049] 计算设备302还可以具有一个或多个输入设备312,诸如键盘、鼠标、笔、声音输入设备、用于语音输入/识别的设备、触摸输入设备等。还可以包括(一个或多个)输出设备 314,诸如显示器、扬声器、打印机等。前述设备是示例,本文可以使用其他设备。计算设备 302可以包括一个或多个通信连接316,其允许与其他计算设备318通信。适当通信连接316的示例包括但不限于:RF发射机、接收机和/或收发器电路;通用串行总线(USB)、并行和/或串行端口。 [0050] 如在本文中所使用的,术语计算机可读介质可以包括计算机存储介质。计算机存储介质可以包括在用于存储诸如计算机可读指令、数据结构或程序模块的信息的任何方法或技术中实现的易失性和非易失性、可移除和不可移除介质。系统存储器306、可移除存储设备309和不可移除存储设备310全部是计算机存储介质示例(即,存储器存储装置)。计算机存储介质可以包括RAM、ROM、电可擦除只读存储器(EEPROM)、闪存存储器或其他存储技术、CD-ROM、数字通用盘(DVD)或其他光学存储装置、磁带盒、磁带、磁盘存储器或其他磁性存储设备,或者能够被用于存储信息并且能够由计算设备302访问的任何其他制品。任何这样的计算机存储介质都可以是计算设备302的一部分。计算机存储介质不包括载波或其他传播或调制的数据信号。 [0051] 通信介质可以由计算机可读指令、数据结构、程序模块或调制数据信号(诸如载波或其他传输机制)中的其他数据体现,并且可以包括任何信息递送介质。术语“经调制的数据信号”可以描述具有以在信号中对信息编码的方式来设置或改变一个或多个特性的信号。例如但并非限制,通信介质可以包括有线介质和无线介质,有线介质例如是有线网络或直接线路连接,无线介质例如是声学、射频(RF)、红外和其他无线介质。 [0052] 图4A和图4B图示了可以用于实践本发明的示例的移动计算设备400,例如移动电话、智能电话、个人数据助理、平板个人计算机、平板手机、平板电脑、膝上型计算机等。移动计算设备400可以是如本文所述的被配置为自动化演示控制的示范性计算设备。可以为诸如移动计算设备400的计算设备上执行的应用程序提供应用程序命令控制。应用程序命令控制涉及通过用户界面(UI)或图形用户界面(GUI)演示和控制用于应用程序的命令。在一个示例中,可以对应用程序命令控制专门编程以与单个应用程序一起工作。在其他示例中,可以对应用程序命令控制进行编程以在超过一个应用程序之间工作。参考图4A,示出了用于实施各示例的移动计算设备400的一个示例。在基本配置中,移动计算设备400是具有输入元件和输出元件的手持式计算机。移动计算设备400通常包括显示器405和一个或多个输入按钮410,输入按钮允许用户向移动计算设备400中输入信息。移动计算设备400的显示器 405还可以充当输入设备(例如,触摸屏显示器)。如果包括的话,任选的侧面输入元件415允许进一步用户输入。侧面输入元件415可以是旋转开关、按钮或任何其他类型的手动输入元件。在替代示例中,移动计算设备400可以结合更多或更少的输入元件。例如,在一些示例中,显示器405可以不是触摸屏。在又一个替代示例中,移动计算设备400是便携式电话系统,例如蜂窝电话。移动计算设备400还可以包括任选的小键盘435。任选的小键盘435可以是物理小键盘或触摸屏显示器上生成的“软”小键盘或任何其他软件输入面板(SIP)。在各示例中,输出元件包括用于示出GUI的显示器405、视觉指示器420(例如,发光二极管)和/或音频换能器425(例如,扬声器)。在一些示例中,移动计算设备400结合振动换能器,以为用户提供触觉反馈。在又一示例中,移动计算设备400结合输入和/或输出端口,诸如音频输入(例如,麦克风接口)、音频输出(例如,耳机接口)和视频输出(例如,HDMI端口),用于向外部设备发送信号或从外部设备接收信号。 [0053] 图4B是示出移动计算设备的一个示例的架构的框图。亦即,移动计算设备400可以结合系统(即,架构)402以实施一些示例。在一个示例中,系统402被实现为能够运行一个或多个应用程序(例如,浏览器、电子邮件、日历、联系人管理器、消息客户端、游戏和媒体客户端/播放器)的“智能电话”。在一些示例中,系统402被集成为计算设备,例如集成的个人数字助理(PDA)、平板计算机和无线电话。 [0054] 一个或多个应用程序466可以被加载到存储器462中并运行于操作系统464上或与操作系统相关联地运行。应用程序的示例包括电话拨号器程序、电子邮件程序、个人信息管理(PIM)程序、文字处理程序、电子表格程序、因特网浏览器程序、消息程序等。系统402还包括存储器462之内的非易失性存储区468。非易失性存储区468可以用于存储持久信息,如果系统402断电,持久信息不应丢失。应用程序466可以使用并在非易失性存储区468中存储信息,例如电子邮件应用程序使用的电子邮件或其他消息等。同步应用程序(未示出)也驻留在系统402上并且被编程控制以与主计算机上驻留的对应同步应用程序交互,以保持非易失性存储区468中存储的信息与主计算机处存储的对应信息同步。应当认识到,其他应用程序可以被加载到存储器462中并运行于在本文中所描述的移动计算设备(例如,系统402)上。 [0055] 系统402具有电源470,其可以被实现为一个或多个电池。电源470还可以包括外部电源,例如AC适配器或带电托架,为电池补充电力或充电。 [0056] 系统402可以包括外围设备端口430,其执行促成系统402和一个或多个外围设备之间连接的功能。在操作系统(OS)464的控制下进行向和从外围设备端口430的传输。换言之,可以经由操作系统464将外围设备端口430接收的通信散布到应用程序466,反之亦然。 [0057] 系统402还可以包括无线电接口层472,其执行发射和接收射频通信的功能。无线电接口层472促成系统402和“外部世界”之间经由通信载波或服务提供商的无线连接。在操作系统464的控制下进行向和从无线电接口层472的传输。换言之,可以经由操作系统464将无线电接口层472接收的通信散布到应用程序566,反之亦然。 [0058] 视觉指示器420可以用于提供视觉指示,且/或音频接口474可以用于经由音频换能器425产生可听到的通知(如移动计算设备400的描述中所述)。在例示的示例中,视觉指示器420为发光二极管(LED),音频换能器425为扬声器。这些设备可以直接耦合到电源470,使得在被激活时,即使处理器460和其他组件可能断电以节省电池电力,但它们在通知机制指定的持续时间内保持工作。可以对LED编程控制以无限期地保持工作,直到用户采取措施来指示设备的加电状态为止。音频接口474用于向用户提供可听到的信号并从用户接收可听到的信号。例如,除了耦合到音频换能器425(图4A所示)之外,音频接口474还可以耦合到麦克风以接收可听到的输入,例如,以方便电话会议。根据本发明的示例,麦克风还可以充当音频传感器以便于控制通知,如下文所述。系统402还可以包括视频接口476,其使得板载相机430能够操作以记录静止图像、视频流等。 [0059] 实现系统402的移动计算设备400可以具有额外的特征或功能。例如,移动计算设备400还可以包括额外的数据存储设备(可移除和/或不可移除),例如磁盘、光盘或磁带。在图4B中由非易失性存储区468例示这样的附加存储设备。 [0060] 移动计算设备400生成或捕获并经由系统402存储的数据/信息可以存储于移动计算设备400本地,如上所述,或者数据可以存储于任意数量的存储介质上,该设备可以经由无线电设备472或经由移动计算设备400和与移动计算设备400相关联的独立计算设备之间的有线连接来访问该存储介质,所述独立计算设备例如是分布式计算网络,诸如因特网中的服务器计算机。应当认识到,可以由移动计算设备400经由无线电设备472或经由分布式计算网络访问这样的数据/信息。类似地,可以根据公知的数据/信息传输和存储手段,包括电子邮件和协作数据/信息共享系统,在计算设备之间容易地传输这样的数据/信息以供存储和使用。 [0061] 图5图示了如上所述的一种系统的架构的一个示例,该系统用于提供可靠地访问存储系统上的目标数据并处理发往一个或多个客户端设备的通信故障的应用程序。图5的系统可以是如本文所述的被配置为自动化演示控制的示范性系统。结合编程模块308和/或应用程序320以及存储设备/存储器(图3所述)访问、交互或编辑的目标数据可以存储于不同通信信道或其他存储类型中。例如,可以使用目录服务522、web门户524、邮箱服务526、即时消息储存器528或社交网站530存储各种文档。IO管理器324、其他实用程序326、应用程序 328和存储系统可以使用这些类型的系统中的任何系统等来实现数据利用,如本文所述。服务器520可以提供存储系统供操作于一般计算设备302和移动设备400上的客户端通过网络 515使用。例如,网络515可以包括因特网或任何其他类型的局域网或广域网,客户端节点可以被实现为用于连接到网络515。客户端节点的示例包括,但不限于:体现于个人计算机中的计算设备302、平板计算设备和/或移动计算设备400(例如,移动处理设备)。例如,客户端节点可以使用无线网络连接(例如,WiFi连接、蓝牙等)而连接到网络515。然而,在本文中所描述的示例也可以扩展到经由有线连接而连接到网络515。客户端计算设备302或400的任何这些示例可以从储存器516获得内容。 [0062] 在整个本说明书中提到过“一个示例”或“示例”,表示在至少一个示例中包括特定描述的特征、结构或特性。因此,使用这样的短语可以指超过仅仅一个示例。此外,所述特征、结构或特性可以任何适当的方式结合在一个或多个示例中。 [0063] 然而,相关领域的技术人员可以认识到,可以不用一个或多个具体细节,或利用其他方法、资源、材料等来实践各示例。在其他情况下,未详细示出或描述为人们所熟知的结构、资源或操作,仅仅是为了避免使各示例的各方面模糊不清。 [0064] 尽管已经例示和描述了样本示例和应用,但是要理解的是,示例不限于上述精确配置和资源。可以在本文公开的方法和系统的布置、操作和细节方面做出对本领域技术人员而言显而易见的各种修改、改变和变化而不脱离所主张示例的范围。

相关技术
自动化演示相关技术
G·塔米尔发明人的其他相关专利技术