一种面向智算中心的模型训练算力资源自适应调度方法

一种面向智算中心的模型训练算力资源自适应调度方法实质审查发明

技术领域

[0001] 本发明涉及一种面向智算中心的模型训练算力资源自适应调度方法和装置，是智能算力中心的算力资源在线自适应调度技术，属于算力资源分配技术领域。

具体实施方式

[0041] 下面结合具体实施例，进一步阐明本发明，应理解这些实施例仅用于说明本发明而不用于限制本发明的范围，在阅读了本发明之后，本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。

[0042] 以公共智能算力中心为例。现有的智能算力中心面对着大量的算力需求申请，而智算中心往往采用独占式资源分配方式，在资源受限时一般按照提交顺序依次完成申请的学习任务，无法并行的进行多个学习任务的训练。然而真实机器学习训练过程中，很多任务的数据是有时效性的，如果继续采用先来后到顺序，往往就会导致的很多任务失败。

[0043] 本发明公开的面向智算中心的面向智算中心的模型训练算力资源自适应调度方法，可以有效地解决以上问题，从而可以在极大程度上提高智算中心的算力利用效率。接下来以智算中心应对多个机器学习模型训练任务为例详细说明本发明的具体实施方式。

[0044] 图1是本发明提出的智能算力资源在线自适应调度的工作流程图。首先，步骤1智算中心初始化一个包含多项机器学习任务的队列，将其内部计数器置为1，确定评估分配总轮数T。步骤3开启自适应调度算法的在线运行。步骤4资源预测器获取每项机器学习模型训练任务当前的训练进度，并对每一个任务进行算力资源需求的预测，以估算达成预期标准所需的资源量。步骤5资源平衡器基于预测的不确定性给出置信区间并对资源预测器的结果进行修正，抑制预测与实际分配之间的耦合误差。步骤6资源分配器以修正后的预测为基础，对各机器学习模型训练任务按优先级进行排序进行算力资源的具体分配。步骤7智算中心根据资源分配器的决策更新其资源分配状态，并针对每项学习任务执行相应的训练。

[0045] 图2是资源预测器的工作流程图。以某一调控时刻t为例。步骤41资源预测器为每一个机器学习模型训练任务采集新的训练状态数据{sk，t，lk，t}，其中sk，t为t时刻机器学习模型训练任务已使用的算力资源，lk，t是相应的训练损失。步骤42根据新的数据以及过去所有的历史数据进行负指数函数来拟合训练损失随算力资源增大下降曲线，对于任务就是其中ak，bk为待估计参数，s代表已使用资源数。将负指数函数转化为线性函数其中为线性化后的损失，
为线性化后的资源数，为线性化后的待估参数。对待估计
参数θk进行最小二乘回归估计其中rk，i代表第k个学习任务在第i
时刻的线性化后的损失ln lk(sk，i)，Xk，i代表第k个学习任务在第i时刻线性化后的资源数[ln sk，i；1]，是协方差矩阵，λk是正则化系数。将线性函数参数
估计恢复为负指数函数参数基于成功指标lk(s)≤∈k，计算成功还需
资源其中∈k是任务的预期成功标准。

[0046] 图4是资源分配器的工作流程图。以某一调控时刻t为例。步骤61资源调度器获取每一个学习任务资源预测置信区间下界步骤62资源调度器为每一个机器学习训练任务计算出其可完成性指标其中dk代表学习任务k的截止时间。步骤63资源调度器对每一个任务进行可完成性的排序，越低的越优先，基于此排序，优先将资源分配给可完成性指标低的任务。步骤64按照次序设置当前轮的资源比例
其中Nt是t时刻拥有的总算力资源。

[0047] 图3是资源平衡器的工作流程图。以某一调控时刻t为例。步骤51资源平衡器获取对每一个学习任务的资源预测我们为每一个预测设计置信区间并计算置信区间下界作为修正的资源预测，其中β是控制常数，bk代表任务k的开始时间，ηk,τ是时刻τ任务k获得的总资源比例。步骤52将输出给资源分配器。

[0048] 显然，本领域的技术人员应该明白，上述的本发明实施例的面向智算中心的面向智算中心的模型训练算力资源自适应调度方法各步骤或面向智算中心的机器学习模型训练算力资源在线自适应调度装置各组件可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，并且在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明实施例不限制于任何特定的硬件和软件结合。

查看完整全部详细技术资料

当前第1页第1页第2页第3页