GPU1 [Slurm] 노드 not responding 문제 팀에서 운영하던 GPU 클러스터에서 노드들이 간헐적으로 통신이 되지 않는 문제가 있었다. Idle*, drain*, down* 이런식으로 떠있는 노드들이 종종 발생하였고, 이로 인해 노드와 통신이 되지 않으면서 prolog error 및 학습이 종료되었다. prolog error는 job 종료하자마자 바로 학습을 재시작했을 때 발생하는 경우였는데, 이번에는 로그를 확인했을 때 노드와 connection이 맺어지지 않으면서 prolog 스크립트를 실행하지 못해서 발생하였다. 왜.. 커넥션이...되지 않았을까? ㅂㄷㅂㄷ.. Idle* drain* down* 이 뜨는 이유...* 이 뜨는 이유는 서버가 unreachable 상태일때 발생한다. * 상태에서 지속되면 노드가 drain상태가 된다. drain상태.. 2025. 2. 19. 이전 1 다음