|
@@ -123,13 +123,6 @@ func RunWaitingCluster() {
|
|
}
|
|
}
|
|
infra.GlobalLogger.Infof("下载算法 %v 成功。", firstTaskCache.AlgorithmObjectKey)
|
|
infra.GlobalLogger.Infof("下载算法 %v 成功。", firstTaskCache.AlgorithmObjectKey)
|
|
}
|
|
}
|
|
-
|
|
|
|
- err = domain.AddRunningCluster(firstTaskCache, gpuNode.Hostname)
|
|
|
|
- if err != nil {
|
|
|
|
- infra.GlobalLogger.Error(err)
|
|
|
|
- global.GpuNodeListMutex.Unlock()
|
|
|
|
- continue
|
|
|
|
- }
|
|
|
|
} else {
|
|
} else {
|
|
infra.GlobalLogger.Infof("集群没有剩余并行度。")
|
|
infra.GlobalLogger.Infof("集群没有剩余并行度。")
|
|
global.GpuNodeListMutex.Unlock()
|
|
global.GpuNodeListMutex.Unlock()
|
|
@@ -257,7 +250,14 @@ func RunWaitingCluster() {
|
|
infra.GlobalLogger.Errorf("启动pod成功,执行结果为 %v。", s2)
|
|
infra.GlobalLogger.Errorf("启动pod成功,执行结果为 %v。", s2)
|
|
// 收尾
|
|
// 收尾
|
|
{
|
|
{
|
|
- // --------------- 移除头元素
|
|
|
|
|
|
+ // --------------- 添加到运行队列
|
|
|
|
+ err = domain.AddRunningCluster(firstTaskCache, gpuNode.Hostname)
|
|
|
|
+ if err != nil {
|
|
|
|
+ infra.GlobalLogger.Error(err)
|
|
|
|
+ global.GpuNodeListMutex.Unlock()
|
|
|
|
+ continue
|
|
|
|
+ }
|
|
|
|
+ // --------------- 从等待队列中移除
|
|
_, err = infra.GlobalRedisClient.LPop(global.KeyTaskQueueWaitingCluster).Result()
|
|
_, err = infra.GlobalRedisClient.LPop(global.KeyTaskQueueWaitingCluster).Result()
|
|
if err != nil {
|
|
if err != nil {
|
|
infra.GlobalLogger.Error("取出集群等待队列中的头元素报错,错误信息为:", err)
|
|
infra.GlobalLogger.Error("取出集群等待队列中的头元素报错,错误信息为:", err)
|