服务的健康指数 背景技术 [0001] 云计算是基于网络的计算,通常是基于互联网的计算,其中共享资源、软件和信息按需提供。服务提供方可以在云计算环境中供应许多服务功能供客户访问。客户总是希望避免云服务降级或中断。因此,监控云中提供的服务的健康状况的能力将是非常有帮助的。 发明内容 [0002] 根据本文描述的主题的实现,提供了一种用于提供服务的健康指数的解决方案。 在该解决方案中,获得与多个服务相关联的多个事故信息集。该多个服务在计算环境中供应。与服务相关联的事故信息集指示在服务的操作期间报告的至少一个事故。基于多个事故信息集中的相应事故信息集和健康分类策略来确定针对多个服务的相应的健康指数。相应的健康指数指示多个服务的相应的健康状态,并且从相同的健康指数范围确定。 [0003] 本发明内容将以简化形式介绍一组概念,这些概念将在下面的具体实施方式中进一步描述。本发明内容并不旨在确定本文描述主题的关键特征或必要特征,也不旨在用于限制本文描述的主题的范围。 附图说明 [0004] 图1示出了其中可以采用本文描述的主题的实现的计算环境; [0005] 图2示出了根据本文描述的主题的一些实现的提供针对服务的健康指数的示例架构的框图; [0006] 图3示出了根据本文描述的主题的一些实现的针对服务收集的示例事故池; [0007] 图4示出了根据本文描述的主题的实现的指示的、指示针对服务的事故计数的时间序列数据的曲线图; [0008] 图5示出了根据本文描述的主题的实现的示出健康指数的示例用户界面; [0009] 图6A和图6B示出了根据本文描述的主题的一些实现的示出健康指数的另一示例用户界面; [0010] 图7示出了根据本文描述的主题的实现的过程的流程图;以及 [0011] 图8示出了其中可以实现本文描述的主题的各种实现的计算机环境的框图。 [0012] 在整个附图中,相同或相似的附图标记表示相同或相似的元素。 具体实施方式 [0013] 现在将参考一些示例实现来描述本文描述的主题的原理。应当理解,描述这些实现仅是为了说明的目的,并且帮助本领域的技术人员更好地理解并且因此实现本文描述的主题,而不暗示对本文公开的主题范围的任何限制。 [0014] 如本文所使用的,术语“包括”及其变型应理解为开放术语,意思是“包括但不限于”。术语“基于”应理解为“至少部分地基于”。术语“实现”和“一个实现”应理解为“至少一个实现”。术语“另一实现”应理解为“至少一个其他实现”。术语“第一”、“第二”等可以指不同的或相同的对象。其他明确或隐含的定义可以包括在下面。 [0015] 如本文所使用的,“机器学习模型”是AI模型,它也可以被称为“学习模型”、“学习网络”、“网络模型”或“模型”。这些术语在下文中可互换使用。深度学习模型是机器学习模型的一个示例,它的示例包括“神经网络”。通过基于训练数据的模型的训练阶段来确定机器学习模型的参数集。训练的机器学习模型使用训练的参数集将接收的输入映射到相应的输出。因此,机器学习模型的训练过程可以被认为是从训练数据学习输入与输出之间的映射或关联。 [0016] 图1示出了其中可以采用本文描述的主题的实现的计算环境100。计算环境100被示为云计算环境。计算环境100中的基础设施110包括各种硬件或软件组件以提供物理或虚拟资源的共享池。基础设施110的硬件或软件组件可以聚集或分布在远程数据中心的位置。 [0017] 资源包括例如网络、网络带宽、服务器、处理设备、存储器、存储设备、虚拟机、软件、应用等。基础设施110的资源可以以最少的管理努力或与提供方的交互被快速供应和释放。 [0018] 计算环境100可以根据云计算模型来构建,云计算模型可以由各种特性组成,例如按需自助服务、广泛的网络接入、资源池、快速弹性、测量服务等。云计算模型也可以是各种服务模型的形式,诸如例如软件即服务(“SaaS”)、平台即服务(“PaaS”)和基础设施即服务(“IaaS”)。云计算模型也可以使用不同的部署模型来部署,例如私有云、社区云、公共云、混合云等。在本文描述的主题中,“云计算环境”是其中采用云计算的环境。 [0019] 服务提供方可以通过基础设施110向其客户130供应任何数目的服务。利用基础设施110的资源来支持服务122的部署、操作和用户访问。如图所示,服务122‑1,122‑2,122‑ 3,……,122‑N(其中N是大于或等于1的整数)被供应在计算环境100中。为方便讨论,服务 122‑1,122‑2,122‑3,……,122‑N统称或单独称为服务122。 [0020] 如本文所使用的,“服务”可以是通用术语,其可以指能够在计算环境中执行或以其他方式由计算环境供应以支持相应任务或功能的任何服务。例如,服务122可以是任何类型的web服务、身份管理服务、防火墙或其他安全服务、消息收发服务、数据存储或备份服务、文件维护服务或可供计算环境的终端用户使用的任何其他服务。应当理解,可以设想与计算环境相关联或以其他方式由计算环境支持的其他服务。 [0021] 在操作中,基础设施的一些软件或硬件组件可能出现故障和错误,导致服务供应的降级或中断。服务管理员140负责维护服务122、诊断故障或错误,以便采取必要的动作来修复或缓解它们。 [0022] 由于在计算环境中可能供应成百上千的服务,因此监控这些服务的健康状况是具有挑战性的任务。随着云计算规模的爆炸性增长,供应的服务变得越来越复杂。这也给服务维护带来了更大的挑战,因为很难为所有的服务提供通用的健康监控功能。 [0023] 当前存在一些侧重于监控诸如web服务或存储服务的单个服务的方法。这些方法很难扩展到其他服务,因为它们依赖于深厚的领域知识和特定的服务特征。此外,通过针对个别服务开发特定的健康监控办法,跨不同服务的“健康”或“不健康”的定义之间可能存在差距。因此,很难比较不同服务的健康状况。 [0024] 根据本文描述的主题的实现,提出了用于提供服务的通用健康指数的解决方案。 在该解决方案中,对于每个服务,获得事故信息集以确定针对该服务的健康指数。事故信息集指示在服务操作期间报告的一个或多个事故。当报告针对计算环境中供应的几乎大多数服务的事故时,对于多个服务中的每个服务,可以获得相应的事故信息集以生成针对该服务的健康指数。采用相同的健康分类策略,以基于事故信息集从相同的健康指数范围确定服务的健康指数。 [0025] 通过统一使用事故信息,确定的健康指数可以指示不同服务的通用和一致的健康状态。跨不同服务的健康或不健康的定义是可比较的,这意味着在服务管理过程中更容易执行多服务健康追踪。例如,通过分析多个服务的健康状态的变化趋势,更容易在同一标准下诊断哪些服务是健康的或不健康的,和/或预测潜在的问题。 [0026] 下面将参考其他附图详细讨论本文描述的主题的示例实现。需要重申的是,尽管本公开包括关于云计算的详细描述,但本文描述的主题的实现不限于云计算环境。相反,本文描述的主题的实现旨在利用现在已知或以后开发的任何类型的网络计算环境来实现。 [0027] 图2示出了根据本文描述的主题的一些实现来提供服务的健康指数的示例架构 200。在架构200中,健康监控系统220被配置为生成针对计算环境100中要监控的多个服务 122的健康指数(为了简洁,本文省略其中的基础设施)。本文描述的健康监控系统220的功能可以在计算环境100中作为一个或多个服务来实现,或者可以由计算环境100外部的一个或多个计算设备来实现。 [0028] 在本文描述的主题的实现中,健康监控系统220获得与多个服务122相关联的事故信息,以生成针对这些服务的健康指数。针对每个服务122,健康监控系统220获得用于确定该服务的健康指数的相关联的事故信息集212。事故信息集212指示在该服务122的操作期间报告的至少一个事故。 [0029] 针对该服务报告的相应事故可以由事故管理系统210监控和收集。本文描述的事故管理系统210的功能还可以在计算环境100中作为一个或多个服务来实现,或者可以由计算环境100外部的一个或多个计算设备来实现。 [0030] 如本文所使用的,事故是不作为服务的正常操作过程的部分并且可能影响或中断服务的操作并且在某些情况下可能导致灾难的事件。事故可以指代指示对服务的中断、服务质量降低的任何事件或尚未影响服务客户的事件。根据应用的术语和计算环境,这样的事件可以用其他术语来指代,而不是“事故”。与服务相关联的事故可以由该服务自动报告给事故管理系统210。在一些实现中,事故可能由客户投诉的服务中断或降级触发。 [0031] 除了事故之外,还可以存在与被定义为从不同角度报告计算环境内的运行条件的服务相关联的各种其他类型的事件。其他类型的事件可以包括以下一项或多项: [0032] ‑错误:指示偏离实际值和期望值的错误。通常由人为过失造成的错误。 [0033] ‑过错:过错指示软件程序中不正确的步骤、过程或数据定义,导致程序以意非计划或非预期的方式运行。过错可能是错误的结果。 [0034] ‑故障:故障指示组件或系统无法在规定的性能要求内执行其所需的功能。例如,可以针对计算环境中的一组物理或虚拟资源/组件报告故障。 [0035] ‑中断:服务连续性的停止或打断。 [0036] ‑降级:服务的服务等级协议(SLA)下降,不会完全中断服务。 [0037] ‑停机(outage):停机指示系统、基础设施、(多个)所支持的服务或整个业务操作的操作完全破坏或中断的时间段,这可能会导致服务提供方在一段时间内无法提供(多个)服务。停机可能会影响大量客户。 [0038] 在所有可能报告的事件中,事故的范围可能介于服务降级等级到完全停机等级之间。发明人已经发现,事故对于测量所供应的服务的通用健康状态是优选的并且是有用的。 其中一些原因简要介绍如下。 [0039] 一方面,与小的故障、错误或过错相比,事故可以指示服务的不健康信号的高等级聚合信息。关于服务的不健康信号的噪声和不确定性可以从事故中过滤掉。虽然停机可以反映服务的不健康信号的更高等级的聚合,但当报告服务停机时发生了更大范围的灾难,这可能已经需要立即采取措施。虽然很少有停机报告,但这并不意味着服务的健康状态是完全健康的。有鉴于此,利用事故来提供健康指数更为实用和有利。 [0040] 另一方面,用于报告服务事故的触发器通常由服务提供方或开发人员限定。例如,可以将事故设计为在监控到性能降级低于降级阈值时触发,并且可以将另一事故设计为在故障存储设备达到阈值数目时触发。为了实现事故报告,可以由服务提供方或开发人员配置用于计算性能降级、降级阈值和阈值数目的测量方法。此外,所设计的事故可能隐含地指示存储设备的性能降级和故障可能导致服务停机。因此,通过利用事故,可以将领域知识和专业经验结合在测量服务的健康状态中。 [0041] 虽然事故是指示服务健康的良好信号,但在云规模中,服务在一段时间内可能会触发大量事故。事故可能具有不同的严重性等级和/或不同的状态,如将在下文讨论的。简单地使用事故中的一个事故来指示整个服务的健康状态是不合适的。根据本文描述的主题的实现,在架构200中,健康监控系统220基于与服务122相关联的事故信息集212来测量服务的健康状态,并且通过遵循健康分类策略将事故信息集212映射到健康指数222。从预定的健康指数范围中选择针对每个服务122的健康指数222。对于多个服务122中的每个服务,应用相同的方法来确定健康指数。 [0042] 健康指数是指示服务健康的定量或定性指示符,其目的是使用单个数值或其他指示符来总结(多个)事故中反映的复杂情况。健康指数也可以被称为健康得分、健康度量或健康等级。在一些实现中,健康指数范围可以被确定为数值范围或者包括多个数值,以指示服务的健康状态从健康到不健康的不同等级。健康指数222可以由数值范围内的数值表示或者从多个数值中选择。例如,健康指数可以被确定为从0到10的范围内的值,其中健康指数222越高,服务122越健康(反之亦然)。 [0043] 在其他实现中,健康指数222可以由非数字定性信息来表示。例如,健康指数范围可以包括指示不同健康等级的多个定性指示符。在示例实现中,健康指数范围可以包括两个指示符,以简单地指示服务的健康状态或不健康状态。应当理解,健康指数范围和个体健康指数可以用其他方式来表示,并且本文描述的主题的范围不限于此。 [0044] 在一些实现中,可以在任何时间点报告事故,健康监控系统220可以获得指示每个服务122在例如数分钟、数小时等的时间段期间的事故的事故信息集212。事故和事故被报告的相应时间两者可以被包括在事故信息集212中。健康监控系统220可以使用事故信息集 212来确定健康指数222,以指示服务122在该时间段期间的健康状态。 [0045] 事故可以用多个预定义的状态中的一个状态来设置。在一些实现中,事故可以具有三种状态中的一个状态,包括活动状态、缓解状态和解决状态。通常,在创建事故时,其状态将标记为活动。如果与事故相关的底层问题被缓解,则状态将标记为缓解。如果问题完全解决,则事故的状态可以标记为解决。图3示出了在时间段期间收集针对服务122的事故的示例池300。事故包括缓解事故302、活动事故304和解决事故306。 [0046] 在一些实现中,用于测量服务的健康指数222的事故信息集212可以包括处于活动状态的一个或多个事故。活动事故可以反映服务122的不健康的方面。在图3的示例中,在报告针对服务122的所有事故中,选择活动事故304的子集310以供使用。在一些其他实现中,由于缓解事故仍然指示已缓解但未完全解决的现有问题,因此用于测量健康指数222的事故信息集212还可以包括在缓解状态中的一个或多个事故。 [0047] 在一些实现中,健康监控系统220使用的健康分类策略限定了用于将服务122的健康状态分类成由健康指数范围指示的多个健康状态的方法。可以采用各种方法来执行基于事故信息集的健康分类。 [0048] 在一些实现中,健康分类策略可能需要从与服务122相关联的相应事故信息集212中提取一种或多种类型的特征。在一些实现中,基于健康分类策略,健康监控系统220可以确定该时间段内的(活动)事故的数目作为事故信息集212的特征。更具体地,健康监控系统 220可以将收集事故信息集212的时间段划分为多个时间间隔,并且确定在时间间隔中的每个时间间隔期间报告的(活动)事故的计数。(活动)事故的计数可以形成时间序列数据,以指示计数随时间的变化。 [0049] 在一些实现中,当被报告时,可以用严重性等级来配置事故以指示该事故有多严重。作为一个示例,可以定义从0到4的五个严重性等级,其中严重性等级“0”(表示为“sev0”)指示危急等级,严重性等级“1”(表示为“sev1”)指示高等级,严重性等级“2”(表示为“sev2”)指示中等等级,严重性等级“3”(表示为“sev3”)指示低等级,以及严重性等级“4”(表示为“sev4”)指示轻微严重性等级。可以理解,事故的严重性可以划分为多于或少于五个等级。在一些实现中,与服务122相关联的事故信息集212还可以指示事故的相应严重性等级。 [0050] 由于不同的严重性等级可以指示服务的中断或降级的不同等级,因此在一些实现中,健康监控系统220可以从事故信息集212中提取每严重性等级的相应特征。更具体地,健康监控系统220可以根据其严重性等级来划分在事故信息集212中指示的事故。健康监控系统220可以将收集事故信息集212的时间段划分为多个时间间隔,并且确定针对时间间隔中的每个时间间隔处于严重性等级中的每个严重性等级的事故的计数。针对服务122的每个严重性等级,事故的对应计数可以形成时间序列数据,以指示该计数随时间的变化。 [0051] 图4示出了指示指示针对服务122的事故计数的时间序列数据的曲线图。在图4中,曲线图410指示严重性等级为“0”的事故计数随时间变化。类似地,曲线图420指示严重性等级为“1”的事故计数的变化,曲线图430指示严重性等级为“2”的事故计数的变化,曲线图 440指示严重性等级为“3”的事故计数的变化,曲线图450指示严重性等级为“4”的事故计数的变化。应当理解,提供图4的示例只是为了说明的目的,而不暗示任何限制。 [0052] 利用所提取的特征,健康监控系统220使用的健康分类策略可以基于所提取的特征进一步限定算法以确定针对服务122的健康指数222。在一些实现中,健康监控系统220可以应用异常检测算法来检测所提取的特征中的异常,例如关于事故计数的时间序列数据。 例如,随着不同严重性程度的事故的计数随时间变化,时间序列数据可能存在一些峰值,如图4中的曲线图410至450所示。时间序列数据中的这些峰值可以被认为是时间序列数据的异常或不健康部分。服务122的总体健康状态可以通过测量从事故信息集212导出的时间序列数据的异常得分来确定。如果获得了针对不同严重性等级的时间序列数据,则可以基于一个或多个异常得分来确定健康指数222。 [0053] 异常检测算法可以基于概率模型、拟合模型、深度学习网络等。在一些实现中,事故分类策略可能需要使用k‑sigma概率模型来计算服务122的相应健康指数222。k‑sigma概率模型的示例包括3‑sigma概率模型。对于指示处于相应严重性等级的事故的计数的每个特征,可以基于该特征来计算个体健康得分。根据3‑sigma概率模型,可以使用累积分布函数(CDF)并且基于事故计数与该特征的样本平均值之间的距离除以标准差来确定个体健康得分。 [0054] 在一个示例中,计算可以表示如下: [0055] Ssev=cdf((countsev‑mean)/std) 公式(1) [0056] 其中,Ssev表示基于指示处于相应严重性等级“sev”的事故的计数的特征的个体健康得分,cdf()表示可以用于近似健康得分的标准正态分布的CDF,countsev表示处于该严重性等级的事故的计数,mean和std表示标准正态分布的平均值和标准差。 [0057] 在公式(1)中,mean和std是3‑sigma概率模型中需要预先确定的参数集,其用作测量健康得分的基线。在一些实现中,由于严重性等级处的事故计数的分布对于不同的服务 122可能是不同的,所以可以特定确定针对每个服务122的两个参数mean和std。在一些实现中,可以获得与服务122相关联的历史事故信息集,以确定特定于该服务122的参数集。历史事故信息集可以指示在时间段内的服务122的操作期间报告的一个或多个历史事故。例如,可以收集过去三天、过去十天、过去三十天等的历史事故信息集。健康监控系统220可以以与事故信息集212类似的方式分析历史事故信息集,以确定随着时间的推移处于相应严重性等级的事故计数。对于服务122的每个严重性等级,可以计算不同时间间隔的事故计数的平均值和标准差作为两个参数mean和std。 [0058] 在一些实现中,健康监控系统220可以组合针对相应严重性等级计算的个体健康得分,以生成服务122的健康指数222。 [0059] 在一些实现中,为了区分处于不同严重性等级的事故的影响,可以分配针对不同的严重性等级的相应的权重。权重可以直接应用于在事故信息集212中指示的事故。在实现中,当从个体健康得分的组合计算健康指数222时,可以将权重应用于针对相应严重性等级计算的个体健康得分。 [0060] 例如,服务122的健康指数222可以基于个体健康得分和针对严重性等级的权重来确定,如下所示: [0061] [0062] 其中,H表示用于指示服务122的健康指数222的组合得分,Ssev表示相应严重性等级“sev”的个体健康得分,其中“sev”的范围是从0到最大严重性等级(在上面的示例中为 4),而wsev表示针对严重性等级“sev”分配的权重。权重可以被设置为从0到1的任意值。在一些实现中,如果健康指数是从包括多个定性指示符的健康指数范围中选择的,则可以相应地将组合得分H映射到定性指示符中的一个指示符。 [0063] 在一些实现中,除了3‑sigma概率模型之外或者作为备选,可以使用其他模型来配置健康分类策略。可以采用概率模型、拟合模型和/或深度学习模型来计算相应服务122的健康指数222。其他可能的模型的一些示例可以包括线性拟合/回归模型、自回归聚合移动平均(ARIMA)模型、自回归移动平均(ARMA)模型、诸如Prophet的预测模型、诸如长短期记忆网络(LSTM)模型的人工递归神经网络(RNN)等。在一些实现中,健康分类策略可能需要使用混合模型来确定服务的相应健康指数。混合模型可以由多个模型组装而成。多个模型各自生成针对服务122的健康得分,并且可以通过组合来自多个模型的输出健康得分(例如,通过计算输出健康得分的加权和)来确定服务122的健康指数222。 [0064] 在一些实现中,如果按照健康分类策略的要求使用概率模型或拟合模型,则从与相应服务122相关联的历史事故信息集中导出用于确定健康指数222的参数集。每个参数集可以特定于服务122中的服务。例如,如果使用3‑sigma概率模型,则可以基于针对该服务 122收集的历史事故信息集来特定确定针对每个服务122的参数mean和std。对于诸如RNN或LSTM模型的深度学习模型,可以从与相应服务122相关联的历史事故信息(包括多个历史事故信息集)的集中确定针对该模型的通用参数集。可以通过训练过程从历史事故信息中学习通用参数集,以学习与服务122相关联的事故信息集与来自预定健康指数范围的健康指数之间的映射或关联。 [0065] 在一些实现中,可以在一段时间之后用新收集的历史事故信息来更新特定参数集或通用参数集。例如,可以用新的历史事故信息集来更新在3‑sigma概率模型中使用的服务 122的参数mean和std。 [0066] 在上述实现中,确定计算环境100中的服务122的相应健康指数222。健康指数222是按服务确定的。在一些实现中,由于以统一方式确定健康指数222,因此可以设置健康阈值以基于对应的健康指数222来确定服务122是否健康。例如,假设较高的健康指数122指示服务122更健康。如果某个服务122的健康指数122低于预设的健康阈值,则指示该服务122不健康;否则,该服务122是健康的。 [0067] 在一些实现中,由于服务122中的一个或多个服务可以从不同区域访问或依赖于位于不同区域的资源,因此针对每个服务122,健康监控系统210可以确定针对不同区域的相应健康指数222。这些每个区域的健康指数222可以用于指示相应区域内的服务122的健康状态。在一些实现中,与服务122相关联的事故信息集212可以指示针对该服务122报告事故的相应区域。健康监控系统210可以基于从该区域报告的事故来确定该区域的健康指数 222。也就是说,事故信息集212可以基于区域被划分为针对区域的多个事故信息子集。对于每个事故信息子集,可以应用与上述相同或相似的方法来确定相应区域中的服务122的健康指数。 [0068] 根据本文描述的主题的不同实现,健康监控系统210能够确定多服务健康指数222和多区域健康指数222。针对多个服务并且可能针对多个地区的通用健康指数222可以用于促进问题检测、诊断、改进故障影响分析,并且促进用于智能停机管理的其他机器学习模型。在一些实现中,健康指数222可以在用户界面中呈现给用户,诸如计算环境100的服务管理员140。健康指数222可以与相应服务122的指示一起呈现。如果基于区域来确定健康指数 222,则可以在用户界面中布置健康指数222以指示相关联的服务122和区域。可以在用户界面中应用适当的可视化来指示健康指数。 [0069] 图5示出了示例用户界面500,其中呈现了服务122‑1至122‑4的健康指数的视觉指示符502。视觉指示符502可以被设计成表示不同的健康指数。对于每个服务,还呈现了区域A、区域B和区域C的多个健康指数。健康指数的多服务和多区域呈现可以帮助用户以方便的方式监控和比较不同区域中的服务122的健康状态。在该特定示例中,用户界面500还允许用户选择要呈现的健康指数。例如,通过可选择选项510和512,用户可以过滤关注的区域和服务。通过可选择选项520和522,用户可以确定是仅呈现不健康服务的健康指数、选择仅呈现健康服务的指数、还是呈现两者。 [0070] 在一些实现中,相应服务122的健康指数222随时间的变化趋势可以进一步促进服务的诊断或停机的预测。因此,对于某个服务122,可以从在多个时间段上报告的多个事故信息集来确定多个健康指数222。在实现中,可以针对该服务122确定多个区域的相应健康指数222。可以呈现针对每个服务的健康指数222以指示其随时间的变化。图6A和6B示出了根据本文描述的主题的一些实现的示出健康指数的另一示例用户界面600和601。 [0071] 在图6A的用户界面600中,曲线图611呈现了针对区域A中的服务122‑1随时间确定的健康指数(表示为“H”),曲线图612呈现了针对区域B中的服务122‑2随时间确定的健康指数。类似地,曲线图621、622、631和632指示区域B、区域C中的服务122‑1、122‑2的随时间变化的健康指数。通过监控服务的健康指数的变化,用户可以从曲线图611和621观察到区域A和区域B两者中的服务122‑1的健康指数的快速增长。用户可以确定可能存在针对服务122‑ 1的跨区域停机(假设在图6A和6B的示例中,较高的健康指数指示较不健康的服务)。 [0072] 在图6A的用户界面602中,曲线图641、642、651、652、661和662指示区域A、区域B、区域C中的服务122‑1、122‑2的随时间变化的健康指数。通过监控服务的健康指数的变化,用户可以从曲线图661和662观察到区域C中的服务122‑1、122‑2的健康指数的快速增长。用户可以确定在该区域中可能存在跨服务停机。 [0073] 应当理解,图5、图6A和图6B中的示例呈现仅用于说明目的提供。健康指数可以以任何其他方式呈现。更详细的信息可以与健康指数一起呈现,以允许观看者获得信息。 [0074] 图7示出了根据本文描述的主题的一些实现的过程700的流程图。过程700可以由健康监控系统220实现。 [0075] 在框710处,健康监控系统220获得与在计算环境中供应的多个服务相关联的多个事故信息集。与服务相关联的事故信息集指示在服务的操作期间报告的至少一个事故。在框720处,健康监控系统220基于多个事故信息集中的相应事故信息集和健康分类策略来确定多个服务的相应健康指数。相应的健康指数指示多个服务的相应健康状态,并且从相同的健康指数范围确定。 [0076] 在一些实现中,与多个服务中的给定服务相关联的事故信息集指示在给定服务的操作期间报告事故的多个区域。在一些实现中,确定相应指数包括:基于相关联的事故信息集来确定给定服务的多个健康指数,该多个健康指数指示多个区域中的给定服务的相应健康状态。 [0077] 在一些实现中,事故信息集还指示至少一个事故的至少一个严重性等级,该至少一个严重性等级选自多个严重性等级。在一些实现中,确定相应的健康指数包括:通过应用针对处于至少一个严重性等级的至少一个事故的至少一个权重来确定针对多个服务的相应健康指数,该至少一个权重从分配给多个严重性等级的多个权重选择。 [0078] 在一些实现中,事故信息指示处于活动状态的至少一个事故。 [0079] 在一些实现中,健康分类策略包括针对多个服务的多个相应参数集。在一些实现中,该过程还包括:针对多个服务中的给定服务,获得与给定服务相关联的历史事故信息集,历史事故信息集指示在给定服务的操作期间报告的至少一个历史事故;以及基于历史事故信息集,确定多个参数集中针对给定服务的给定参数集。 [0080] 在一些实现中,健康分类策略包括通用参数集。在一些实现中,该过程还包括获得与多个服务相关联的多个历史事故信息集、指示在服务的操作期间报告的至少一个历史事故的与服务相关联的历史事故信息集;以及基于多个历史事故信息集来确定通用参数集。 [0081] 在一些实现中,该过程还包括在用户界面中结合多个服务的相应指示来呈现相应的健康指数。 [0082] 图8示出了其中可以实现本文描述的主题的各种实现的计算设备800的框图。应当理解,如图8所示的计算设备800仅作为示例提供,而不暗示对本文描述的主题的功能和实现范围的任何限制。健康监控系统220可以完全地或部分地在计算设备800中实现。 [0083] 如图8所示,计算设备800包括通用计算设备形式的计算设备800。计算设备800的组件可以包括但不限于一个或多个处理器或处理单元810、存储器820、存储设备830、一个或多个通信单元840、一个或多个输入设备850、以及一个或多个输出设备860。 [0084] 在一些实现中,计算设备800可以实现为各种用户终端或服务器终端。服务器终端可以是由各种服务提供方提供的任何服务器、大规模计算设备和任何其他设备。用户终端可以是例如,任何类型的移动终端、固定终端或便携式终端,包括移动电话、站、单元、设备、多媒体计算机、多媒体平板计算机、互联网节点、通信器、台式计算机、膝上型计算机、笔记本计算机、上网本计算机、平板计算机、个人通信系统(PCS)设备、个人导航设备、个人数字助理(PDA)、音频/视频播放器、数码相机/摄像机、定位设备、无线电广播接收器、电子书设备、游戏设备或其任意组合,包括这些设备的附件和外围设备,或其任意组合。还可以设想,计算设备800可以支持对用户的任何类型的接口(例如,“可穿戴”电路等)。 [0085] 处理单元810可以是物理或虚拟处理器,并且可以基于存储在存储器820中的程序来实现各种过程。在多处理器系统中,多个处理单元并行执行计算机可执行指令,以提高计算设备800的并行处理能力。处理单元810还可以被称为中央处理单元(CPU)、微处理器、控制器或微控制器。 [0086] 计算设备800通常包括各种计算机存储介质。计算机存储介质可以是计算设备800可访问的任何可用介质,包括但不限于易失性和非易失性介质,或可拆卸和不可拆卸的介质。存储器820可以是易失性存储器(例如,寄存器、高速缓存、随机存取存储器(RAM))、非易失性存储器(例如,只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、闪存)或其任意组合。存储设备830可以是任何可拆卸或不可拆卸的介质,并且可以包括机器可读介质,诸如存储器、闪存驱动器、磁盘或可以用于存储信息和/或数据并且可由计算设备800访问的任何其他介质。 [0087] 计算设备800还可以包括附加的可拆卸/不可拆卸、易失性/非易失性存储介质。尽管未在图8中示出,但是可以提供用于从可拆卸和非易失性光盘读取或写入的盘驱动器,以及用于从可拆卸和非易失性光盘读取和写入的光盘驱动器。在这种情况下,每个驱动器可以经由一个或多个数据介质接口连接到总线(未示出)。 [0088] 通信单元840经由通信介质与另一计算设备通信。此外,计算设备800中的组件的功能可以由能够经由通信连接彼此通信的单个计算集群或多个计算机器来实现。因此,计算设备800可以使用与一个或多个其他服务器、网络个人计算机(PC)或其他一般网络节点的逻辑连接在联网环境中操作。 [0089] 输入设备850可以包括各种输入设备中的一个或多个设备,诸如鼠标、键盘、追踪球、语音输入设备等。输出设备860可以包括各种输出设备中的一个或多个设备,诸如显示器、扬声器、打印机等。通过通信单元840,如果需要,计算设备800还可以与诸如存储设备和显示设备的一个或多个外部设备(未示出)、使用户能够与计算设备800交互的一个或多个设备、或者使计算设备800能够与一个或多个其他计算设备通信的任何设备(诸如网卡、调制解调器等)通信。这种通信可以通过输入/输出(I/O)接口(未示出)来执行。 [0090] 计算设备800可以用于根据本文描述的主题的各种实现来实现健康监控,以提供服务的健康指数。存储器820可以包括具有一个或多个程序指令的一个或多个模块。这些模块可以由处理单元810访问和执行,以执行本文描述的各种实现的功能。例如,存储器820可以包括健康监控模块822,以实现上述健康监控。 [0091] 下面列出了本文描述的主题的一些示例实现。 [0092] 在第一方面,本文描述的主题提供了一种计算机实现的方法。该方法包括:获得与在计算环境中供应的多个服务相关联的多个事故信息集,与服务相关联的事故信息集指示在服务的操作期间报告的至少一个事故;以及基于多个事故信息集中的相应事故信息集和健康分类策略来确定针对多个服务的相应健康指数,相应健康指数指示多个服务的相应健康状态,并且从相同的健康指数范围确定。 [0093] 在一些实现中,与多个服务中的给定服务相关联的事故信息集指示事故在给定服务的操作期间报告的多个区域。在一些实现中,确定相应指数包括:基于相关联的事故信息集确定给定服务的多个健康指数,多个健康指数指示多个区域中给定服务的相应健康状态。 [0094] 在一些实现中,事故信息集还指示至少一个事故的至少一个严重性等级,至少一个严重性等级从多个严重性等级中被选择。在一些实现中,确定相应健康指数包括:通过针对处于至少一个严重性等级的至少一个事故应用至少一个权重来确定多个服务的相应健康指数,至少一个权重从分配给多个严重性等级的多个权重选择。 [0095] 在一些实现中,事故信息指示至少一个事故在活动状态中。 [0096] 在一些实现中,健康分类策略包括针对多个服务的多个相应参数集。在一些实现中,该方法还包括:针对多个服务中的给定服务,获得与给定服务相关联的历史事故信息集,历史事故信息集指示在给定服务的操作期间报告的至少一个历史事故;以及基于历史事故信息集,确定针对给定服务的多个参数集的给定参数集。 [0097] 在一些实现中,健康分类策略包括通用参数集。在一些实现中,该方法还包括:获得与多个服务相关联的多个历史事故信息集,与服务相关联的历史事故信息集指示在服务的操作期间报告的至少一个历史事故;以及基于多个历史事故信息集来确定通用参数集。 [0098] 在一些实现中,该方法还包括在用户界面中结合多个服务的相应指示来呈现相应的健康指数。 [0099] 在第二方面,本文描述的主题提供了一种电子设备。该设备包括:处理单元;以及存储器,耦合到处理单元并且其上存储有指令,指令当由处理单元执行时,使设备执行动作,该动作包括:获得与在计算环境中供应的多个服务相关联的多个事故信息集,与服务相关联的事故信息集指示在服务的操作期间报告的至少一个事故;以及基于多个事故信息集中的相应事故信息集和健康分类策略来确定针对多个服务的相应健康指数,相应健康指数指示多个服务的相应健康状态,并且从相同的健康指数范围确定。 [0100] 在一些实现中,与多个服务中的给定服务相关联的事故信息集指示事故在给定服务的操作期间报告的多个区域。在一些实现中,确定相应指数包括:基于相关联的事故信息集确定给定服务的多个健康指数,多个健康指数指示多个区域中的给定服务的相应健康状态。 [0101] 在一些实现中,事故信息集还指示至少一个事故的至少一个严重性等级,至少一个严重性等级从多个严重性等级中选择。在一些实现中,确定相应健康指数包括:通过应用针对处于至少一个严重性等级的至少一个事故的至少一个权重来确定针对多个服务的相应健康指数,至少一个权重从分配给多个严重性等级的多个权重选择。 [0102] 在一些实现中,事故信息指示至少一个事故在活动状态中。 [0103] 在一些实现中,健康分类策略包括针对多个服务的多个相应参数集。在一些实现中,该动作还包括:针对多个服务中的给定服务,获得与给定服务相关联的历史事故信息集,历史事故信息集指示在给定服务的操作期间报告的至少一个历史事故;以及基于历史事故信息集,确定针对给定服务的多个参数集的给定参数集。 [0104] 在一些实现中,健康分类策略包括通用参数集。在一些实现中,该动作还包括:获得与多个服务相关联的多个历史事故信息集,与服务相关联的历史事故信息集指示在服务的操作期间报告的至少一个历史事故;以及基于多个历史事故信息集来确定通用参数集。 [0105] 在一些实现中,该动作还包括在用户界面中结合多个服务的相应指示来呈现相应的健康指数。 [0106] 在第三方面,本文描述的主题提供了一种有形地存储在非瞬态计算机存储介质上并且包括机器可执行指令的计算机程序产品,计算机可执行指令当由设备执行时,使设备执行动作,该动作包括:获得与在计算环境中供应的多个服务相关联的多个事故信息集,与服务相关联的事故信息集指示在服务的操作期间报告的至少一个事故;以及基于多个事故信息集中的相应事故信息集和健康分类策略来确定针对多个服务的相应健康指数,相应健康指数指示多个服务的相应健康状态,并且从相同的健康指数范围确定。 [0107] 在一些实现中,与多个服务中的给定服务相关联的事故信息集指示事故在给定服务的操作期间报告的多个区域。在一些实现中,确定相应指数包括:基于相关联的事故信息集确定针对给定服务的多个健康指数,多个健康指数指示多个区域中的给定服务的相应健康状态。 [0108] 在一些实现中,事故信息集还指示至少一个事故的至少一个严重性等级,至少一个严重性等级选自多个严重性等级。在一些实现中,确定相应健康指数包括:通过应用针对处于至少一个严重性等级的至少一个事故的至少一个权重来确定针对多个服务的相应健康指数,至少一个权重从分配给多个严重性等级的多个权重选择。 [0109] 在一些实现中,事故信息指示至少一个事故在活动状态中。 [0110] 在一些实现中,健康分类策略包括针对多个服务的多个相应参数集。在一些实现中,该动作还包括:针对多个服务中的给定服务,获得与给定服务相关联的历史事故信息集,历史事故信息集指示在给定服务的操作期间报告的至少一个历史事故;以及基于历史事故信息集,确定针对给定服务的多个参数集中的给定参数集。 [0111] 在一些实现中,健康分类策略包括通用参数集。在一些实现中,该动作还包括:获得与多个服务相关联的多个历史事故信息集,历史事故信息集指示在服务的操作期间报告的至少一个历史事故;以及基于多个历史事故信息集来确定通用参数集。 [0112] 在一些实现中,该动作还包括在用户界面中结合多个服务的相应指示来呈现相应健康指数。 [0113] 在又一方面,本文描述的主题提供了一种其上存储有机器可执行指令的计算机可读介质,机器可执行指令当由设备执行时,使设备执行上述方法的一个或多个实现。 [0114] 本文描述的功能可以至少部分地由一个或多个硬件逻辑组件来执行。例如,但不限于,可使用的说明性类型的硬件逻辑组件包括现场可编程门阵列(FGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、片上系统(SOCs)、复杂可编程逻辑器件(CPLD)等。 [0115] 用于执行本文描述的主题的方法的程序代码可以用一种或多种编程语言的任意组合来编写。程序代码可以被提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时,使流程图和/或框图中指定的功能/操作得以实现。程序代码可以全或部分地在机器上执行,部分在机器上、部分在远程机器上、或完全在远程机器或服务器上作为独立的软件包执行。 [0116] 在本公开的上下文中,机器可读介质可以是可包含或存储由指令执行系统、装置或设备使用或结合的任何有形介质。机器可读介质可以是机器可读信号介质或机器可读存储介质。机器可读介质可以包括但不限于电子、磁、光、电磁、红外或半导体系统、装置或设备、或前述的任何适当组合。机器可读存储介质的更具体的示例将包括具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或闪存)、光纤、便携式光盘只读存储器(CD‑ROM)、光存储设备、磁存储设备或前述的任何适当组合。 [0117] 此外,虽然以特定顺序描述操作,但这不应被理解为要求以所示的特定顺序或按顺序执行这些操作,或要求执行所有所示的操作以实现期望的结果。在某些情况下,多任务和并行处理可能是有利的。同样,尽管在上述讨论中包含若干具体实现细节,但这些细节不应被解释为对本文描述的主题的范围的限制,而应被解释为对可能特定于特定实现的特征的描述。在分离实现的上下文中描述的某些特征也可以在单个实现中组合实现。相反,在单个实现中描述的各种特征也可以在多个实现中分离实现或在任何适当的子组合中实现。 [0118] 尽管已经用特定于结构特征和/或方法动作的语言描述了该主题,但是应当理解,在所附权利要求中指定的主题不必然限于上述特定特征或动作。相反,上面描述的特定特征和动作被公开作为实现权利要求的示例形式。