首页 / 自动信息检索

自动信息检索失效专利 发明

技术内容

自动信息检索 背景技术 [0001] 互联网提供对各种信息的访问。例如,特定主题或者特定新闻报道的数字图像文件、视频和/或音频文件、以及网页资源可通过互联网访问。相对于网页资源,设计这些资源中的大多数资源是为了促进执行特定功能(诸如,银行业务、预定酒店预订、购物等)或者提供结构化信息,诸如,在线百科全书、电影数据库等。搜索引擎爬取并且索引这些资源以促进搜索资源。 [0002] 此外,随着平板计算机和智能电话的出现,目前正在大量地提供促进通过使用网页资源促进的相同功能的执行的本地应用。另外,不具备带有相似内容(诸如,游戏)的对应网站的本地应用在平板计算机和智能电话上也极为常见。因此,搜索引擎现在还促进搜索这些本地应用。 [0003] 搜索引擎收集针对本地应用的信息的一个过程是通过访问本地应用的“深度链接”。深度链接是指定本地应用的特定环境实例的指令,并且可以配置为在用户设备处被选择时使本地应用将所指定的本地应用的环境实例实例化。本地应用生成用于在用户设备上的本地应用内进行显示的环境实例。例如,深度链接可以是指定特定本地应用的URI、本地应用要访问的资源内容、以及应该在通过使用该深度链接来启动本地应用时被实例化的特定用户界面。 [0004] 搜索引擎现在还促进搜索这些本地应用。因此,用户的信息需求可以由搜索引擎来满足,该搜索引擎提供识别描述了本地应用的特定网页资源中的一个(或者两者)的搜索结果和针对本地应用本身的搜索结果。 发明内容 [0005] 一般而言,本说明书描述了一种用于自动信息检索的系统和方法。该系统和方法包括:对在本地应用内的内容进行评分,从而使得与本地应用相关的一个或者多个搜索结果能够包括在响应于查询而提供的搜索结果中,即使本地应用没有对应网页。因此,该系统和方法提供改进的搜索和检索。 [0006] 一般而言,本说明书中描述的主题的一个创新方面可以体现在包括以下动作的方法中:接收相应web资源集合的相关性分数,每个相关性分数指示web资源与其所对应的搜索查询的相关性;针对多个web资源中的每个web资源,获取多个相似度分数,web资源的每个相似度分数表示在web资源与指向本地应用的相应深度链接所引用的相应内容之间的相似度;基于web资源的相应相关性分数以及在web资源与深度链接所引用的内容之间的相应相似度分数,针对每个深度链接,生成深度链接所引用的内容的相应质量分数;选择引用了具有满足阈值质量分数的相应质量分数的内容的深度链接;以及响应于搜索查询向用户设备提供具有多个web搜索结果的所选择的深度链接,所述多个web搜索结果分别引用对应的web资源。 [0007] 实施方式可以包括以下特征中的一个或者多个。在获取多个相似度分数之前:针对每个web资源,通过内容和web资源生成web资源的多个相似度分数。生成多个相似度分数基于以下中的一个或者多个:针对多个相似度分数的n元语法Jaccard相似度、最小散列、或者局部敏感散列。针对每个深度链接生成深度链接所引用的内容的相应质量分数包括:针对每个web资源,计算web资源的相应相关性分数和在web资源与深度链接所引用的内容之间的相应相似度分数的相应乘积;以及将每个乘积相加以生成相应质量分数。指向相应本地应用的每个深度链接指定相应本地应用的特定环境实例,并且在用户设备处被选择时使相应本地应用对显示有深度链接中引用的内容的相应本地应用的实例进行实例化。相应web资源的每个相关性分数基于通过搜索引擎进行排名的web资源列表中的相应web资源的排名。选择引用了具有满足阈值质量分数的相应质量分数的内容的深度链接包括:选择引用了具有满足阈值质量分数的质量分数的内容的多达最大数量的深度链接。向用户设备提供具有多个web搜索结果的多个深度链接包括:向用户设备提供web搜索结果和深度链接的排名列表。向用户设备提供web搜索结果和深度链接的排名列表包括:针对每个深度链接,将深度链接的相应质量分数归一化为web搜索结果的相应相关性分数,以生成深度链接的归一化相关性分数;基于相关性分数和归一化相关性分数对web搜索结果和深度链接进行排名,以生成web搜索结果和深度链接的排名列表;以及向用户设备提供web搜索结果和深度链接的排名列表。相应深度链接所引用的相应内容不是web资源。 [0008] 可以实施在本说明书中描述的主题的具体实施例以实现以下优点中的一个或者多个。某些本地应用没有本地应用的对应网页。尽管没有将现有的对应网页的相关性分数用作基本度量,系统也可以对不具有对应网页和/或内容页的这些本地应用进行排名。 [0009] 包括指向本地应用(具有或者不具有对应网页(例如,移动应用))内的特定位置的链接的搜索结果可以与其它搜索结果(例如,网页的搜索结果)一起进行排名,使得更相关的资源(应用或者网页)排名较高。包含链接至应用内的位置的搜索结果提供了可以更好地满足用户的信息需求的附加搜索结果选项。 [0010] 在附图和下面的说明中阐述了在本说明书的主题的一个或者多个实施例的细节。 本主题的其它特征、方面、和优点将通过描述、附图、以及权利要求书而变得显而易见。 附图说明 [0011] 图1是触发本地应用的搜索和排名发生的示例环境的框图。 [0012] 图2A是用于生成在本地应用内的内容与web资源之间的相似度分数的示例方法的流程图。 [0013] 图2B是用于对本地应用内的内容进行评分的示例方法的流程图。 [0014] 图3是对本地应用内的内容进行评分的图示。 [0015] 图4是提供有web搜索结果的本地应用搜索结果的图示。 [0016] 在各种附图中的类似的附图标记和名称指示类似的元件。 具体实施方式 [0017] 系统对没有对应网页的本地应用内的内容进行评分。即,本地应用可以显示不能通过web浏览器在web资源(例如,网页)处访问的内容。可以基于与内容相似的web资源对本地应用内的内容进行评分,下文将对此进行进一步地描述。 [0018] 如本文所使用的,本地应用生成用于在本地应用的环境内的用户设备上进行显示的环境实例,并且独立于用户设备上的浏览器应用操作。本地应用是专门用于在特定用户设备操作系统和机器固件上运行的应用。因此,本地应用与基于浏览器的应用和浏览器呈现的资源不同。每当将可从web服务器下载的元件或者指令实例化或者呈现这些元件或者指令时,后者需要所有或者至少一些元件或者指令。此外,基于浏览器的应用和浏览器呈现的资源可以通过浏览器内的所有具有网络能力的移动设备(并且因此,而不是特定于操作系统)来处理。 [0019] 如果触发搜索以包括本地应用搜索结果以及web搜索结果,则对本地应用索引搜索本地应用,并且对本地应用进行评分。可以使用各种评分信号,包括本地应用的索引内容、本地应用的用户评级、针对应用索引的搜索而接收到的查询的查询流行度等。一旦响应于查询而进行评分,本地应用就可以如下文陈述那样进行排名,并且可以响应于查询而将一个或者多个本地应用搜索结果提供给用户设备。 [0020] 是否提供本地应用搜索查询,并且如果提供本地应用搜索查询本地应用搜索结果相对于其它搜索结果的位置,基于一个或者多个过滤标准和排名标准来确定。过滤标准和排名标准可以包括相对于其它资源描述本地应用的对应资源的排名、本地应用的分数、以及其它因素。 [0021] 下文更详细地描述了这些特征和其它特征。 [0022] 图1是触发本地应用的搜索和排名发生的示例环境100的框图。计算网络102(诸如,互联网)连接资源发布者网站104、应用发布者106、用户设备108、以及搜索引擎120。 [0023] 资源发布者网站104包括与域相关联的并且由一个或者多个位置中的一个或者多个服务器托管的一个或者多个web资源105。通常,资源发布者网站是以可以包含文本、图像、多媒体内容、和编程元素的超文本标记语言(HTML)格式化的网页类集。每个网站104由内容发布者维护,该内容发布者是控制、管理、和/或拥有网站104的实体。 [0024] 网页资源是可以由发布者网站104通过网络102提供并且具有资源地址(例如,统一资源定位符(URL))的任何数据。web资源可以是HTML页面、图像文件、视频文件、音频文件、和馈源,仅举几例。资源可以包括嵌入式信息,例如,元信息和超链接、和/或嵌入式指令,例如,客户端脚本。更普遍地,“资源”是可通过网络识别的任何事物,并且还可以包括本地应用。 [0025] 应用发布者网站106还可以包括一个或者多个web资源105,并且还提供本地应用 107。如上所述,本地应用107是专门用于在特定用户设备操作系统和机器固件上运行的应用。本地应用107可以包括用于在不同的平台上运行的多个版本。例如,与电影数据库网站对应的本地应用可以包括在第一类型的智能电话上运行的第一本地应用、在第二类型的智能电话上运行的第二本地应用、在第一类型的平板上运行的第三本地应用等。 [0026] 如本说明书中所使用的,“环境实例”是本地应用内的显示环境,并且在该显示环境内显示内容,诸如,文本、图像等。环境实例特定于特定本地应用,并且本地应用特定于用户设备108的特定操作系统。环境实例与渲染的web资源的不同之处在于环境实例在本地应用内生成并且特定于本地应用,而web资源可以在网页资源可兼容的任何浏览器中被呈现,并且独立于用户设备的操作系统。 [0027] 用户设备108是处于用户的控制下的电子设备。用户设备108通常能够通过网络 102请求和接收网页资源104和本地应用107。示例用户设备108包括个人计算机、移动通信设备、以及平板计算机。 [0028] 为了搜索web资源105和本地应用107,搜索引擎120访问web索引116和应用索引 114。例如,web索引116是已经通过爬取发布者网站104而构建的web资源105的索引。应用索引114是本地应用107的应用页的索引,并且使用应用数据提取器和处理器110和索引器112而构建。尽管将web索引116和应用索引114示出为单独的索引,但是web索引116和应用索引 114可以组合成单个索引。 [0029] 用户设备108向搜索引擎120提交搜索查询。响应于每个查询,搜索引擎120访问web索引116和应用索引114(可选地)以分别识别与查询相关的资源和应用。通常,实施第一搜索算法的第一类型的搜索操作用于搜索索引116,并且实施第二不同的算法的第二类型的搜索操作用于搜索应用索引114。搜索引擎120实施资源计分器132过程以生成web资源的相关性分数并且实施相似度计分器136过程以生成在web资源与本地应用内的内容之间的相似度分数。本地应用内的内容不是web资源。本地应用内容计分器134过程基于相关性分数和相似度分数来生成本地应用内的内容的质量分数。下文将参照图2和图3进一步描述本地应用内容计分器134。可以使用各种适合的搜索引擎算法来实施资源计分器132、相似度计分器136、和本地应用内容计分器134。 [0030] 搜索引擎120利用搜索引擎前端138(诸如,web服务器)来确定是否要搜索本地应用索引114并且将本地应用搜索结果提供给用户设备。搜索引擎前端138布置搜索结果并且向接收到查询的用户设备108提供该搜索结果。 [0031] web资源搜索结果是由搜索引擎120生成的数据,该搜索引擎120识别web资源并且提供满足特定搜索查询的信息。资源的web资源搜索结果可以包括网页标题、从资源中提取的文本的片段、以及资源的资源定位符,例如,网页的URL。本地应用搜索结果指定本地应用并且是响应于应用索引114的搜索而生成的。本地应用搜索结果可以包括指定本地应用的特定环境实例的“深度链接”,并且该深度链接配置为(在被选择时)使本地应用将指定的环境实例实例化。例如,深度链接可以指定游戏环境的选择菜单、或者音乐应用的特定歌曲选择、或者烹饪应用的特定食谱等。例如,本地应用搜索结果的选择可以使本地应用启动(如果安装在用户设备108上)并且以屏幕截图的形式生成在应用搜索结果中引用的环境实例。 可替代地,本地应用搜索结果可以包括“购买”(或者“安装”)命令,该命令在被选择时会造成用户设备上的本地应用的购买(或者免费下载)和安装。 [0032] 提供本地应用107的发布者106还向搜索引擎120提供深度链接109。例如,应用发布者可以以统一资源标识符(URI)(或者特定于发布者所发布的本地应用的其它指令类型)的形式提供深度链接109的列表。这些深度链接是发布者106期望在应用索引114中爬取并且索引的深度链接。 [0033] 对于许多本地应用107,还存在描述本地应用107的web资源111。这种资源111的一个示例是在线本地应用商店中的产品页。产品页可以使用web浏览器来浏览并且可以在web索引116中被索引。web资源111可以包括本地应用的屏幕截图、用户评级的描述等。通常,web资源111是特定于本地应用的网页,并且用于促进本地应用的购买和/或下载。 [0034] 在特定情况下,根据搜索查询和对应的基于web的搜索结果,搜索引擎120可以将本地应用搜索结果包括在网页搜索结果集合中。例如,本地应用搜索结果可以插入相对于本地应用的产品网页搜索结果的位置处,或者可替代地,可以完全替换产品网页搜索结果。 下面参照图4对此进行进一步描述。 [0035] 图2A是用于生成在本地应用内的内容与web资源之间的相似度分数的示例方法的流程图200。为了方便起见,将相对于具有执行软件以实施方法200的一个或者多个计算设备的系统(例如,图1的搜索引擎120)对方法200进行描述。 [0036] 系统收集web资源(步骤202)。可以从web索引(例如,图1的web索引116)中收集web资源。 [0037] 系统获取本地应用内的内容(步骤204)。在一些实施方式中,内容是来自应用索引内被索引的本地应用的应用页的内容,例如,来自图1的应用索引114的内容。 [0038] 系统生成在内容与web资源之间的相似度分数(步骤206)。系统可以通过使用任何合适的方法来生成在web资源与相应内容之间的相似度分数。例如,系统可以基于n元语法Jaccard相似度、最小散列、或者局部敏感散列来生成相似度分数。 [0039] 在一些实施方式中,系统以下形式生成输出: [0040] [wd_1,[(nac_1,s_11),(nac_2,s_12),(nac_3,s_13)…], [0041] wd_2,[(nac_1,s_21),(nac_2,s_22),(nac_3,s_23)…],…] [0042] 其中,wd_i(例如,wd_1或者wd_2)是web文档i,nac_j(例如,nac_1)是本地应用内容j,s_ij(例如,s_11)是在web文档i与本地应用内容j之间的相似度分数。而且,s_ij=similarity(wd_i,nac_j)=similarity(nac_j,wd_i);similarity是计算相似度分数s_ij的函数。 [0043] 系统使用输出来生成本地应用内的内容的质量分数,下文将参照图2A对此进行进一步描述。 [0044] 图2B是用于对本地应用内的内容进行评分的示例方法的流程图208。为了方便起见,将相对于具有执行软件以实施方法208的一个或者多个计算设备的系统(例如,图1的搜索引擎120)对方法208进行描述。 [0045] 系统接收web资源集合的相关性分数(步骤210)。每个web资源具有指示web资源与搜索资源的相关性的相关性分数。 [0046] 在一些实施方式中,相关性分数基于由搜索引擎进行排名的web资源列表中的web资源的排名。例如,可以使用下面的公式1来计算相关性分数。 [0047] [0048] 其中,s是响应于搜索查询的搜索结果列表中的若干搜索结果,并且r是搜索结果列表中的web资源的排名。 [0049] 系统针对web资源集合中的每个web资源获取web资源的相似度分数集合(步骤 212)。如上文参照图2A描述的,可以从输出向量中获取相似度分数。web资源的每个相似度分数可以表示在web资源与不具有对应网页或者内容页的本地应用内的相应内容之间的相似度。 [0050] 指向本地应用的相应深度链接可以引用相应内容。相应深度链接指定本地应用的特定环境实例,并且在用户设备处被选择时使本地应用对显示有深度链接中引用的相应内容的相应本地应用的实例进行实例化。 [0051] 系统针对每个深度链接生成深度链接所引用的内容的相应质量分数(步骤214)。 可以通过在内容与web资源之间的相似度分数以及web资源的相关性分数来生成深度链接所引用的内容的质量分数。下面将参照图3对此进行进一步描述。 [0052] 系统选择引用了具有满足阈值质量分数的相应质量分数的内容的深度链接(步骤 216)。在一些实施方式中,系统选择具有满足阈值质量分数的质量分数的多达最大数量的深度链接。最大数量可以由系统的管理员确定。 [0053] 系统向用户设备提供所选择的深度链接以及web搜索结果,该web搜索结果分别引用对应的web资源(步骤S218)。系统可以响应于搜索查询而向用户设备提供所选择的深度链接和web搜索结果。在一种实施方式中,系统可以向用户设备提供web搜索结果和深度链接的排名列表。 [0054] 在提供排名列表的一些实施方式中,系统针对每个深度链接将深度链接的相应质量分数归一化为web搜索结果的相应相关性分数,以生成深度链接的归一化相关性分数。例如,如果特定相关性分数可以是数字范围内的数字,则系统可以(例如,利用缩放系数)将深度链接的质量分数缩放为相关性分数的数字范围内的比例数。 [0055] 在将每个深度链接的相应质量分数归一化之后,系统可以基于相关性分数和归一化相关性分数对web搜索结果和深度链接进行排名,以生成统一的web搜索结果和深度链接的排名列表。然后,系统可以向用户设备提供web搜索结果和深度链接的排名列表,下面将参照图4对此进行进一步描述。 [0056] 在一些实施方式中,响应于来自用户的搜索查询而执行步骤210至218。在一些其它实施方式中,将可以执行生成相似度分数执行为后端过程的一部分。 [0057] 图3是使用给定了搜索查询的搜索引擎的本地应用内容计分器对本地应用内的内容进行评分的图示300。内容可以是不具有来自web索引(例如,来自图1的web索引116)的对应网页的应用页X。本地应用内容计分器可以生成应用页X的质量分数X_quality 314。 [0058] 为了生成质量分数X_quality 314,计分器可以计算web资源集合的相关性分数向量与web资源集合的相似度分数向量之间的点积。换言之,可以使用下面的公式2来计算质量分数: [0059] [0060] 其中,x是不具有对应网页的应用页,resourcek是n个web资源的集合中的第k个web资源,relevance函数返回相关性分数,以及similarity函数返回指示在第k个web资源与应用页x之间的相似度的相似度分数。 [0061] 通过图示,A、B、和C都可以是web资源(例如,来自图1的web索引116)。因此,A_relevance 302是A与搜索查询的相关性分数,AX_similarity 304是指示web资源A与应用页X的相似程度的相似度分数,B_relevance 306是B与搜索查询的相关性分数,BX_similarity 308是指示web资源B与应用X的相似程度的相似度分数,C_relevance 310是C与搜索查询的相关性分数,CX_similarity 312是指示web资源C与应用X的相似程度的相似度分数,依此类推。计分器可以计算A_relevance 302和AX_similarity 304的乘积、B_relevance306和BX_similarity 308的乘积、C_relevance 310和CX_similarity 312的乘积,依此类推,并且然后将这些乘积相加以生成X_quality分数314。 [0062] 计分器可以按照这种方式计算没有对应网页和/或内容页的应用索引中的每个应用页的点积,以对应用页进行评分。 [0063] 图4是提供有web搜索结果的本地应用搜索结果的图示。可以在用户设备的浏览器应用处提供搜索结果。 [0064] 浏览器应用显示由搜索引擎响应于搜索查询402而提供的搜索结果404至410的视图401。这些搜索结果中的一个是本地应用搜索结果(即,本地应用搜索结果408),而剩余的搜索结果是web搜索结果(即,web搜索结果404、406、410)。按照web搜索结果404、406、410、本地应用搜索结果408的递减的相关性分数的顺序来显示搜索结果404至410。 [0065] 本地应用搜索结果408是深度链接,该深度链接在被选择时可以使本地应用对在用户设备上显示有在本地应用搜索结果408中引用的内容的相应本地应用的实例进行实例化。 [0066] 可以利用数字电子电路系统、利用计算机软件或者固件、利用有形体现的计算机软件或者固件、利用计算机硬件(包括本说明书中所公开的结构及其结构等效物)、或者它们中的一个或者多个的组合来实施本说明书中所描述的主题和功能操作的实施例。可以将本说明书中描述的主题的实施例实施为一个或者多个计算机程序,即,编码在计算机存储介质(例如,该计算机存储介质可以是有形的非暂时性计算机存储介质)上、由数据处理装置执行或者控制该数据处理装置的操作的计算机程序指令的一个或者多个模块。计算机存储介质可以是机器可读存储设备、机器可读存储基板、随机或者串行存取存储器设备、或者它们中的一个或者多个的组合。计算机程序可以包括多个文件和/或可以部署为执行一个或者多个数据处理装置。 [0067] 术语“数据处理装置”囊括了用于处理数据的所有种类的装置、设备、和机器,包括:例如,可编程处理器、计算机、专用电路系统、或者多个处理器或者计算机。除了硬件之外,装置还可以包括为探讨中的计算机程序创建执行环境的代码,例如,构成处理器固件、协议栈、数据库管理系统、操作系统、或者它们中的一个或者多个的组合的代码。 [0068] 可以通过一个或者多个可编程计算机来进行本说明书中描述的过程和逻辑流程,该一个或者多个可编程计算机执行一个或者多个计算机程序以通过操作输入数据并且生成输出或者通过一个或者多个专用逻辑电路系统来进行功能。 [0069] 虽然本说明书包含了许多具体实施细节,但是不应该将这些细节视为对任何发明或者可能被要求的内容的范围的限制,而是作为针对特定发明的特定实施例的特征的描述。在本说明书中在单独实施例的场境下描述的某些特征还可以组合地实施在单个实施例中。相反,在单个实施例的场境下描述的各种特征也可以单独地或者按照任何合适的子组合实施在多个实施例中。此外,虽然上文可能将特征描述为以某些组合来起作用并且最初甚至同样地对该特征要求保护,但是在一些情况下可以从组合中删除来自所要求的组合的一个或者多个特征,并且所要求的组合可以指向子组合或者子组合的变化。 [0070] 同样,虽然在附图中按照特定顺序示出了操作,但是不应该将其理解为需要按照所述的特定顺序或者按照相继的顺序来进行这种操作,或者需要进行所有图示的操作以实现期望的结果。在某些情况下,多任务处理和并行处理可以是有利的。此外,不应该将在上述实施例中的各种系统模块和组件的分离理解为在所有实施例中需要这种分离,并且应该理解,所描述的程序组件和系统通常可以一起集成在单个软件产品中或者封装到多个软件产品中。 [0071] 已经对本主题的具体实施例进行了描述。其它实施例在以下权利要求书的范围内。例如,在权利要求书中叙述的动作可以按照不同的顺序来进行并且仍然可以实现期望的结果。作为一个示例,在附图中描绘的过程不一定需要所示的特定顺序或者相继顺序,以实现期望的结果。在某些实施方式中,多任务处理和并行处理可以是有利的。

相关技术
自动信息相关技术
李东河发明人的其他相关专利技术