首页 / 一种面向智算中心的模型训练算力资源自适应调度方法

一种面向智算中心的模型训练算力资源自适应调度方法实质审查 发明

技术领域

[0001] 本发明涉及一种面向智算中心的模型训练算力资源自适应调度方法和装置,是智能算力中心的算力资源在线自适应调度技术,属于算力资源分配技术领域。

相关背景技术

[0002] 随着深度神经网络,大语言模型等机器学习技术的广泛应用,人们对机器学习模型训练的需求急剧增加。这些大模型训练通常涉及到海量的数据和复杂的模型迭代,因而需要大量算力的支撑。随之而来的是,智能算力中心需要对算力资源进行更高效、更公平的调度,以满足日益增长且多变的机器学习模型训练需求。合理调配这些资源以满足更多用户的模型训练的需求,是当前智算中心面临的一大挑战。由此提出了对算力资源自适应调度的需求。
[0003] 传统的资源分配方法通常使用独占式或出价式策略,这能一定程度上满足特定场景的需求,但它们均存在明显的局限性。独占式资源分配允许某些大规模任务长时间占据大量资源,使得其他小规模但同样紧急的任务难以获得必要的计算资源。而基于出价的资源分配模式则可能导致在资源有限的情况下,低出价的任务频繁被终止,优先保证高出价任务的资源需求。这些方法固定且缺乏动态调整机制,不能自适应地针对任务的实际执行状态和资源的变动情况进行优化,从而限制了算力的整体利用效率和响应速度。

具体实施方式

[0041] 下面结合具体实施例,进一步阐明本发明,应理解这些实施例仅用于说明本发明而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。
[0042] 以公共智能算力中心为例。现有的智能算力中心面对着大量的算力需求申请,而智算中心往往采用独占式资源分配方式,在资源受限时一般按照提交顺序依次完成申请的学习任务,无法并行的进行多个学习任务的训练。然而真实机器学习训练过程中,很多任务的数据是有时效性的,如果继续采用先来后到顺序,往往就会导致的很多任务失败。
[0043] 本发明公开的面向智算中心的面向智算中心的模型训练算力资源自适应调度方法,可以有效地解决以上问题,从而可以在极大程度上提高智算中心的算力利用效率。接下来以智算中心应对多个机器学习模型训练任务为例详细说明本发明的具体实施方式。
[0044] 图1是本发明提出的智能算力资源在线自适应调度的工作流程图。首先,步骤1智算中心初始化一个包含多项机器学习任务的队列,将其内部计数器置为1,确定评估分配总轮数T。步骤3开启自适应调度算法的在线运行。步骤4资源预测器获取每项机器学习模型训练任务当前的训练进度,并对每一个任务进行算力资源需求的预测,以估算达成预期标准所需的资源量。步骤5资源平衡器基于预测的不确定性给出置信区间并对资源预测器的结果进行修正,抑制预测与实际分配之间的耦合误差。步骤6资源分配器以修正后的预测为基础,对各机器学习模型训练任务按优先级进行排序进行算力资源的具体分配。步骤7智算中心根据资源分配器的决策更新其资源分配状态,并针对每项学习任务执行相应的训练。
[0045] 图2是资源预测器的工作流程图。以某一调控时刻t为例。步骤41资源预测器为每一个机器学习模型训练任务 采集新的训练状态数据{sk,t,lk,t},其中sk,t为t时刻机器学习模型训练任务 已使用的算力资源,lk,t是相应的训练损失。步骤42根据新的数据以及过去所有的历史数据 进行负指数函数来拟合训练损失随算力资源增大下降曲线,对于任务 就是 其中ak,bk为待估计参数,s代表已使用资源数。将负指数函数转化为线性函数 其中 为线性化后的损失,
为线性化后的资源数, 为线性化后的待估参数。对待估计
参数θk进行最小二乘回归估计 其中rk,i代表第k个学习任务在第i
时刻的线性化后的损失ln lk(sk,i),Xk,i代表第k个学习任务在第i时刻线性化后的资源数[ln sk,i;1], 是协方差矩阵,λk是正则化系数。将线性函数参数
估计恢复为负指数函数参数 基于成功指标lk(s)≤∈k,计算成功还需
资源 其中∈k是任务 的预期成功标准。
[0046] 图4是资源分配器的工作流程图。以某一调控时刻t为例。步骤61资源调度器获取每一个学习任务资源预测置信区间下界 步骤62资源调度器为每一个机器学习训练任务计算出其可完成性指标 其中dk代表学习任务k的截止时间。步骤63资源调度器对每一个任务进行可完成性的排序, 越低的越优先,基于此排序,优先将资源分配给可完成性指标低的任务。步骤64按照次序设置当前轮的资源比例
其中Nt是t时刻拥有的总算力资源。
[0047] 图3是资源平衡器的工作流程图。以某一调控时刻t为例。步骤51资源平衡器获取对每一个学习任务的资源预测 我们为每一个预测设计置信区间并计算置信区间下界作为修正的资源预测,其中β是控制常数,bk代表任务k的开始时间,ηk,τ是时刻τ任务k获得的总资源比例。步骤52将 输出给资源分配器。
[0048] 显然,本领域的技术人员应该明白,上述的本发明实施例的面向智算中心的面向智算中心的模型训练算力资源自适应调度方法各步骤或面向智算中心的机器学习模型训练算力资源在线自适应调度装置各组件可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,并且在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明实施例不限制于任何特定的硬件和软件结合。

当前第1页 第1页 第2页 第3页