首页 / 浸没式液冷服务器的温度控制方法、装置及计算机设备

浸没式液冷服务器的温度控制方法、装置及计算机设备有效专利 发明

技术领域

[0001] 本发明涉及液冷服务器技术领域,尤其涉及一种浸没式液冷服务器的温度控制方法、装置及计算机设备。

相关背景技术

[0002] 随着边缘计算的快速发展,算力需要下沉到边缘侧。传统边缘服务器的算力受限于恶劣的环境,特别是温度、湿度等环境因素,不能很好的满足边缘场景的需求。由于浸没式液冷具有优异的散热能力,可以有效提升边缘侧的算力,因此边缘服务器通常采用浸没式液冷的散热方式进行散热。
[0003] 由于边缘侧的环境温度变化巨大,可能会导致边缘服务器的工作稳定性受到限制,现有液冷服务器通常是监测服务器内各器件的工作温度,通过监测到的器件的工作温度信息对服务器内部工作的环境温度的调控的精度不高,容易影响液冷服务器的稳定性。

具体实施方式

[0017] 为了使本发明的目的、技术方案及优点更加清楚明白,下文将要描述的各种示例性实施例将要参考相应的附图,这些附图构成了示例性实施例的一部分,其中描述了实现本发明可能采用的各种示例性实施例。除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。应明白,它们仅是与如所附权利要求书中所详述的、本发明公开的一些方面相一致的流程、方法和装置等的例子,还可使用其他的实施例,或者对本文列举的实施例进行结构和功能上的修改,而不会脱离本发明的范围和实质。
[0018] 在本发明的描述中,需要理解的是,术语“中心”、“纵向”、“横向”等指示的是基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的元件必须具有的特定的方位、以特定的方位构造和操作。术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。术语“多个”的含义是两个或两个以上。术语“相连”、“连接”应做广义理解,例如,可以是固定连接、可拆卸连接、一体连接、机械连接、电连接、通信连接、直接相连、通过中间媒介间接相连,可以是两个元件内部的连通或两个元件的相互作用关系。术语“和/或”包括一个或多个相关的所列项目的任意的和所有的组合。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。
[0019] 为了说明本发明所述的技术方案,下面通过具体实施例来进行说明,仅示出了与本发明实施例相关的部分。
[0020] 实施例一:如图1所示,本发明提供了一种浸没式液冷服务器的温度控制方法,包括:
S10、在服务器运行过程中,实时获取服务器内的当前温度值,当前温度值包括服务器内的冷却液的当前温度值和服务器内部的多个特殊区域的当前环境温度值,服务器为边缘一体机的浸没式液冷服务器,服务器内部的多个特殊区域包括顶部边缘区域、中部边缘区域和底部边缘区域;
S20、判断冷却液的当前温度值是否处于冷却液温度阈值范围,和/或判断每个特殊区域的当前环境温度值是否均处于对应区域的环境温度阈值范围;
S30、若否,则启动异常保护机制,以调整冷却液的当前温度值和/或特殊区域的当前环境温度值,直至当前温度值处于对应的温度阈值范围内或服务器关机。
[0021] 本发明实施例的浸没式液冷服务器的温度控制方法,在服务器运行时,通过实时监测服务器内冷却液和多个边缘区域的当前温度值,当冷却液的当前温度值和/或各个特殊区域的当前温度值不处于各自对应的温度阈值范围时,启动异常保护机制,便于在服务器的温度异常时进行合理控制,保证服务器边缘侧的温度正常,服务器的算力不受温度影响,能够稳定运行。
[0022] 具体的,在服务器运行过程中,实时获取服务器内的当前温度值,从而实现对服务器的温度进行实时监测,便于在服务器温度异常时,及时对服务器的温度进行调控。服务器内部的特殊区域可以根据实际需求进行设置,服务器内部的特殊区域可选为顶部边缘区域、中部边缘区域和底部边缘区域中的一个或多个,因此,当前温度值包括服务器内的冷却液的当前温度值、服务器内部的顶部边缘区域的当前环境温度值、服务器内部的中部边缘区域的当前环境温度值和服务器内部的底部边缘区域的当前环境温度值。冷却液的当前温度值对应的温度阈值范围为冷却液温度阈值范围,顶部边缘区域的当前环境温度值对应的温度阈值范围为顶部边缘区域温度阈值范围,中部边缘区域的当前环境温度值对应的温度阈值范围为中部边缘区域温度阈值范围,底部边缘区域的当前环境温度值对应的温度阈值范围为底部边缘区域温度阈值范围。冷却液温度阈值范围、顶部边缘区域温度阈值范围、中部边缘区域温度阈值范围和底部边缘区域温度阈值范围可以根据实际需求进行适应性设置。
[0023] 通过判断当前温度值是否处于对应的温度阈值范围内来确定服务器的温度是否正常,如果获取到的多个当前温度值中至少一个当前温度值没有处于对应的温度阈值范围时,说明服务器的温度异常,需要启动异常保护机制,根据异常情况对服务器进行温度调控,保证服务器运行的稳定性和安全性。如果获取到的多个当前温度值中每个当前温度值均处于对应的温度阈值范围时,服务器的温度正常,服务器继续实时获取服务器内的当前温度值,并判断当前温度值是否达到对应的温度阈值范围。
[0024] 更为具体的,判断当前温度值是否处于对应的温度阈值范围内,包括只判断服务器内的冷却液的当前温度值是否达到冷却液温度阈值范围,或只判断服务器内部的特殊区域的当前环境温度值是否达到对应区域的环境温度阈值范围,或同时判断服务器内的冷却液的当前温度值是否达到冷却液温度阈值范围,及服务器内部的特殊区域的当前环境温度值是否达到对应区域的环境温度阈值范围。具体的判断依据可以根据实际需求进行选择,优选为同时判断服务器内的冷却液的当前温度值是否达到冷却液温度阈值范围,及服务器内部的特殊区域的当前环境温度值是否达到对应区域的环境温度阈值范围,能够精确的确定服务器的各个位置的温度情况。冷却液温度阈值范围和对应区域的环境温度阈值范围可以根据实际需求进行适应性设置,只需保证处于服务器的正常工作温度范围即可。判断特殊区域的当前环境温度值是否处于对应区域的环境温度阈值范围时,每个特殊区域均需要进行判断检测。
[0025] 作为可选的实施方式,如图2所示,启动异常保护机制,以调整冷却液的当前温度值和/或特殊区域的当前环境温度值,直至当前温度值处于对应的温度阈值范围内,包括:S31、判断当前温度值是否小于对应的温度阈值范围的最小值;
S32、若是,则启动定时模块和至少一个特殊区域对应的区域加热模块,以对服务器进行局部加热处理或全局加热处理,并生成日志记录和实时监测服务器的当前温度值是否处于对应的温度阈值范围内;
S33'、若当前温度值达到对应的温度阈值范围,则关闭区域加热模块,复位定时模块,并实时获取服务器内的当前温度值。
[0026] 具体的,当确定服务器的稳定异常后,判断当前温度值是否小于对应的温度阈值范围的最小值,即当前温度值是否小于对应的温度阈值范围的温度下限值,如果当前温度值小于对应的温度阈值范围的温度下限值,则说明服务器存在温度过低的情况,需要启动服务器内至少一个特殊区域对应的区域加热模块,对温度过低的特殊区域进行加热处理。如果是当前温度值中的冷却液的当前温度值小于冷却液温度阈值范围的温度下限值,会导致冷却液因为过冷而变得粘度系数过大,甚至出现凝固的现象,因此需要对冷却液进行加热处理,保证冷却液对服务器进行浸没冷却时的流动性。如果是当前温度值中的一个或多个特殊区域的当前环境温度值小于对应区域的环境温度阈值范围,会影响服务器边缘侧的算力,因此对温度过低的特殊区域进行加热处理,保证服务器满足边缘场景的需求。
[0027] 当服务器局部温度过低时,可以只需进行局部加热处理,也可以根据实际情况进行全局加热处理,提高加热效率。当服务器全局温度过低时,进行全局加热处理。在进行加热处理时,实时监测服务器的当前温度值,方便通过实时获取到的当前温度值,确定服务器是否完成加热处理。加热处理过程中进行日志记录,根据日志记录分析服务器的实际温度情况,便于控制加热模块关闭。服务器完成加热处理后,仍然继续实时检测服务器的当前温度值,便于保证服务器运行的稳定性。服务器的温度过低,通过至少一个特殊区域对应的区域加热模块进行加热处理,能够避免服务器内的冷却液因为过冷而变得粘度系数过大,甚至出现凝固的现象,保证服务器的算力不被温度限制,能够满足边缘场景的需求。
[0028] 作为可选的实施方式,如图2所示,以对服务器进行局部加热处理或全局加热处理,并生成日志记录和实时监测服务器的当前温度值是否处于对应的温度阈值范围内之后,还包括:S33"、若当前温度值没有处于对应的温度阈值范围内,则判断区域加热模块的加热时长是否达到预设加热时长;
S331、若加热时长达到预设加热时长,则控制服务器生成日志记录并启动额外的区域加热模组进行加热,直至当前温度值处于对应的温度阈值范围内;
S332、若加热时长没有达到预设加热时长,则区域加热模块继续对服务器进行局部加热处理或全局加热处理,并实时监测服务器的当前温度值是否处于对应的温度阈值范围内。
[0029] 具体的,在启动区域加热模块的同时,启动定时模块(即定时器电路),方便确定服务器是否能够在预设加热时长内完成加热处理,避免长时间加热影响服务器的正常运行,能够使服务器快速的恢复到正常使用状态。如果服务器在预设加热时长内完成加热处理,则关闭区域加热模块,复位定时模块,并继续监测服务器的温度情况。如果服务器在预设加热时长内没有完成加热处理,服务器可以采取其他手段,如开启额外的区域加热模组加强加热处理,保证服务器的稳定性。在加热处理的过程中,当检测到服务器的当前温度值没有处于对应的温度阈值范围时,只要在预设加热时长内,区域加热模块能够进行持续加热处理。预设加热时长根据实现情况进行适应性设置,例如某个边缘区域温度过低,那么该边缘区域的加热时长比其他区域的加热时长更长,或者将低于温度阈值范围的当前温度值分为不同等级(如当前温度值低于温度阈值范围0‑3℃为第一等级,当前温度值低于温度阈值范围3‑6℃为第二等级等),根据不同等级设置不同的预设加热时长,使预设加热时长更有针对性,可以让各区域的温度均衡提升。
[0030] 作为可选的实施方式,方法还包括:如果当前温度值大于对应的温度阈值范围的最大值,则启动服务器的外置辅助换热单元和定时模块,对服务器进行加强散热处理,并生成日志记录和实时监测服务器的当前温度值是否处于对应的温度阈值范围内。若当前温度值处于对应的温度阈值范围,则关闭外置辅助换热单元,复位定时模块,并实时获取服务器内的当前温度值。具体的。当确定服务器的稳定异常后,判断当前温度值是否小于对应的温度阈值范围的最小值,如果不是,则当前温度值大于温度阈值范围的最大值,服务器存在温度过高的情况,需要启动服务器内的外置辅助换热单元,对温度过高的区域进行散热处理。在进行散热处理时,实时监测服务器的当前温度值,方便通过实时获取到的当前温度值,确定服务器是否完成散热处理。服务器的温度过高,通过外置辅助换热单元进行散热处理,能够使服务器的温度快速降低,避免冷却液无法实现有效的冷却,保证冷却液的冷却效果,使服务器处于安全的工作环境。
[0031] 作为可选的实施方式,对服务器进行加强散热处理,并生成日志记录和实时监测服务器的当前温度值是否处于对应的温度阈值范围内之后,还包括:若当前温度值没有处于对应的温度阈值范围内,则判断外置辅助换热单元的散热时长是否达到预设散热时长;
若散热时长达到预设散热时长,则控制服务器生成日志记录并进行降频直至服务器关机,或者控制服务器紧急关机;
若散热时长没有达到预设散热时长,则外置辅助换热单元继续对服务器进行加强散热处理,并实时监测服务器的当前温度值是否处于对应的温度阈值范围内。
[0032] 具体的,由于在启动外置辅助换热单元的同时启动定时模块(即定时器电路),方便确定服务器是否能够在预设散热时长内完成散热处理,避免较长时间散热,服务器还不能达到正常温度的工作环境,影响服务器的工作效率的情况。如果服务器在预设散热时长内完成散热处理,则关闭外置辅助换热单元,复位定时模块,并继续监测服务器的温度情况。如果服务器在预设散热时长内没有完成散热处理,服务器可以采取其他手段,如CPU降频直至服务器关机或启动紧急关机,保证服务器的稳定性。在散热处理的过程中,当检测到服务器的当前温度值没有达到对应的温度阈值范围时,只要在预设散热时长内,外置辅助换热单元能够进行持续散热处理。预设散热时长根据实现情况进行适应性设置,例如某个边缘区域温度过高,那么该边缘区域的散热时长比其他区域的散热时长更长,或者将高于温度阈值范围的当前温度值分为不同等级(如当前温度值高于温度阈值范围0‑5℃为第一等级,当前温度值低于温度阈值范围5‑10℃为第二等级等),根据不同等级设置不同的预设散热时长,使预设散热时长更有针对性,可以让各区域的温度均衡下降。
[0033] 作为可选的实施方式,启动定时模块,包括:通过定时模块对服务器的加热时长或散热时长进行计时处理。具体的,在启动异常保护机制时,开启定时模块,方便通过定时模块对区域加热模块的加热时长和外置辅助换热单元的散热时长进行计时处理,监测服务器是否能够在规定时长(即预设加热时长或预设散热时长)内完成温度调控,如果不能及时完成温度调控,方便服务器采取强制措施,如增加开启加热模组的数量、进行降频直至服务器关机、控制服务器紧急关机等,保证服务器的安全性。
[0034] 作为可选的实施方式,方法还包括:控制服务器发送预警信号,进行预警处理。具体的,通过判断冷却液的当前温度值是否处于冷却液温度阈值范围,和/或判断特殊区域的当前环境温度值是否处于对应区域的环境温度阈值范围,确定服务器的温度异常后,启动异常保护机制的同时,服务器能够发送预警信号,进行预警处理,用以提醒使用者,便于使用者能够及时处理异常问题,保证服务器运行的安全性。
[0035] 实施例二:如图3所示,一种浸没式液冷服务器的温度控制装置,包括:多个温度传感器,用于在服务器运行过程中,实时获取服务器内的当前温度值,当前温度值包括服务器内的冷却液的当前温度值和服务器内部的多个特殊区域的当前环境温度值,服务器为边缘一体机的浸没式液冷服务器,服务器内部的多个特殊区域包括顶部边缘区域、中部边缘区域和底部边缘区域。基板管理控制器BMC,用于基于服务器内的当前温度值,判断冷却液的当前温度值是否处于冷却液温度阈值范围,和/或判断每个特殊区域的当前环境温度值是否均处于对应区域的环境温度阈值范围;若否,则启动异常保护机制,以调整冷却液的当前温度值和/或特殊区域的当前环境温度值,直至当前温度值处于对应的温度阈值范围内或服务器关机。
[0036] 具体的,温度传感器的数量可以根据实际需求进行适应性设置,温度传感器的数量可选为三个,分别设置在服务器的顶部、中部和底部,能够用于实时监测服务器的顶部区域、中部区域和底部区域的当前环境温度值,以及服务器内的冷却液的当前温度值。多个温度传感器均与基板管理控制器BMC电连接,基板管理控制器BMC能够实时获取多个温度传感器监测到的当前温度值。基板管理控制器BMC获取到多个温度传感器监测到的当前温度值后,能够判断每个温度传感器对应的特殊区域的当前环境温度值是否达到对应的温度阈值范围,以及冷却液的当前温度值是否达到冷却液的温度阈值范围,从而确定服务器的温度是否异常。基板管理控制器BMC获取到的每个当前温度值均达到对应的温度阈值范围时,服务器的温度正常,基板管理控制器BMC可以继续通过多个温度传感器对服务器进行温度的实时监测,保证服务器工作的稳定性。基板管理控制器BMC获取到的多个当前温度值中至少一个当前温度值没有达到对应的温度阈值范围时,服务器的温度异常,基板管理控制器BMC可以启动异常保护机制,对服务器进行散热处理或加热处理,实现温度调控,保证服务器工作的稳定性和安全性。
[0037] 本发明的基板管理控制器BMC通过多个温度传感器对服务器进行温度的实时监测,在温度异常时,通过基板管理控制器BMC控制区域加热模块或外置辅助换热单元,实现对服务器的温度调控,保证服务器运行的稳定性。
[0038] 作为可选的实施方式,还包括:多个区域加热模块,用于在当前温度值小于对应的温度阈值范围的最小值时,对服务器进行局部加热处理或全局加热处理。具体的,区域加热模块的数量可选为三个,分别设置在服务器的顶部、中部和底部,在服务器的顶部、中部和底部均设置区域加热模块,能够保证区域加热模块在进行加热处理时,加热的范围能够覆盖整个浸没式液冷服务器,保证区域加热模块加热处理的均匀性和精确性。服务器中不同的特殊区域,根据实际需求设有对应的不同温度阈值范围,以保证服务器工作的稳定性。多个区域加热模块均与基板管理控制器BMC电连接,当服务器内冷却液的当前温度值过低和/或服务器内部的特殊区域的当前环境温度值过低(即服务器内冷却液的当前温度值和/或服务器内部的特殊区域的当前环境温度值小于对应的温度阈值范围的温度下限值)时,基板管理控制器BMC能够根据实际情况控制多个区域加热模块,对服务器进行局部加热处理或全局加热处理。
[0039] 更为具体的,当服务器内冷却液的当前温度值小于对应的温度阈值范围的最小值时,基板管理控制器BMC能够同时控制服务器顶部、中部和底部的区域加热模块启动,对服务器进行局部加热处理。当服务器内部的顶部边缘区域、中部边缘区域和底部边缘区域的当前环境温度值均小于对应的温度阈值范围的温度下限值时,基板管理控制器BMC能够同时控制服务器顶部、中部和底部的区域加热模块启动,对服务器进行全局加热处理。当服务器内部的顶部边缘区域的当前环境温度值小于对应的温度阈值范围的温度下限值时,基板管理控制器BMC能够同时控制服务器顶部和中部的区域加热模块启动,对服务器进行局部加热处理。当服务器内部的中部边缘区域的当前环境温度值小于对应的温度阈值范围的温度下限值时,基板管理控制器BMC能够同时控制服务器顶部、中部和底部的区域加热模块启动,对服务器进行全局加热处理。当服务器内部的底部边缘区域的当前环境温度值小于对应的温度阈值范围的温度下限值时,基板管理控制器BMC能够同时控制服务器中部和底部的区域加热模块启动,对服务器进行局部加热处理。服务器能够根据不同的特殊区域的当前环境温度值的情况,对不同的区域加热模块进行控制,实现不同的加热处理,以保证服务器工作的稳定性,上述举例只是其中的一部分加热处理方法,本装置还具有其他的加热处理方法。
[0040] 作为可选的实施方式,还包括:外置辅助换热单元,用于在当前温度值大于对应的温度阈值范围的最大值时,对服务器进行辅助加强散热处理。具体的,外置辅助换热单元通过PWM线缆与基板管理控制器BMC电连接,当服务器内冷却液的当前温度值过高和/或服务器内部的特殊区域的当前环境温度值过高(即服务器内冷却液的当前温度值和/或服务器内部的特殊区域的当前环境温度值大于对应的温度阈值范围的温度上限值)时,基板管理控制器BMC能够控制外置辅助换热单元启动,对服务器进行散热处理。外置辅助换热单元可选为风扇模组,能够加速冷却液和服务器内部的特殊区域散热。风扇模组可以采用吹风模式或抽风模式对服务器进行散热处理,同时风扇模组还能够与服务器上对应的通风孔相互配合,增加空气对流速率,迅速把服务器内的热量带走。风扇模组的数量可以根据实际需求进行适应性设置。
[0041] 实施例三:一种计算机设备,包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行程序时实现如上述实施例一的浸没式液冷服务器的温度控制方法步骤。
[0042] 本领域普通技术人员可以理解,实现上述各方法实施例的全部或部分特征/步骤可以通过方法、数据处理系统或计算机程序来实现,这些特征可不采用硬件的方式、全部采用软件的方式或者采用硬件和软件结合的方式来实现。前述的计算机程序可以存储于一种或多种计算机可读的存储介质中,存储介质上存储有计算机程序,计算机程序被(如处理器)执行时,执行包括上述的浸没式液冷服务器的温度控制方法步骤。
[0043] 前述的可以存储程序代码的存储介质包括:静硬态盘、固态硬盘、随机存取存储器(SRAM)、电可擦除可编程只读存储器(EEPROM)、可擦除可编程只读存储器(EPROM)、可编程只读存储器(PROM)、只读存储器(ROM)、光存储设备、磁存储设备、快闪存储器、磁盘或光盘和/或上述设备的组合,即可以由任何类型的易失性或非易失性存储设备或者它们的组合实现。
[0044] 以上所述仅为本发明的较佳实施例而已,本领域技术人员知悉,在不脱离本发明的精神和范围的情况下,可以对这些特征和实施例进行各种改变或等同替换。另外,在本发明的教导下,可以对这些特征和实施例进行修改以适应具体的情况及材料而不会脱离本发明的精神和范围。因此,本发明不受此处所公开的具体实施例的限制,所有落入本申请的权利要求范围内的实施例都属于本发明的保护范围。

当前第1页 第1页 第2页 第3页