본문 바로가기
  • AI 개발자가 될래요
Deep Learning

[Pytorch] 분산 훈련 명령어 / torch.distributed

by 꿀개 2023. 2. 14.
CUDA_VISIBLE_DEVICES=2,3 python -m torch.distributed.launch --nproc_per_node="2"  --master_port=25210 train.py

 

해석

CUDA_VISIBLE_DEVICES=2,3 ➡ GPU 2,3 번 사용

torch.distributed.launch ➡ 분산 처리 시작

--nproc_per_node="2" ➡ 노드 개수 2개 (gpu 사용 개수와 동일하게 설정)

--master_port=25210 ➡ 포트 번호(이미 사용중인 포트 번호 외에 모든 번호 사용 가능)

train.py ➡ 실행 파이썬 코드