-
Netdata를 이용하여 Nvidia GPU 성능 모니터링 하기오픈소스 2020. 4. 1. 10:24
머신러닝을 위해 사용 중인 nvidia DGX-1 서버를 사용하고 있습니다.
GPU 성능을 체크하기 위해 Netdata를 설치하였으며 nvidia-sim 플러그인을 활성화 했습니다.
watch 명령으를 통해 nvida-smi 명령어를 샐행해서 0.5초마다 갱신하면서 확인할 수 있습니다.
$ watch -d -n 0.5 nvidia-smi
1. Netdata설치
- 생략 -
2. Nvidia 플러그인 활성화
인터넷을 통해 설정파일을 찾아보았는데요. edit-config명령어를 통해 수정하라고 나옵니다.
cd /etc/netdata ./edit-config python.d.conf Remove the hash in this line: nvidia_smi = true Save the configuration file service netdata restart
edit-config를 어떻게 사용할지 몰라서 vim으로 다시 들어가서 확인해서 아래와 같이 작업했습니다.
## 설정파일 /etc/netdata/python.d.conf nvidia_smi: yes # 주석제거 /etc/netdata/python.d/nvidia_smi.conf 설정 추가 loop_mode : yes poll_seconds : 1
netdata를 제시작합니다.
service netdata restart
오른쪽 메뉴에 nvidia-smi 메뉴가 생겼습니다.
클릭을 하면 8개의 테슬라 GPU의 사용량을 확인 할 수 있습니다.
gpu0_pci_bandwidth
gpu0_gpu_utilization
gpu0_gpu_utilization
gpu0_encoder_utilization
gpu0_mem_usage
gpu0_temperature
gpu0_clocks
gpu0_power
gpu0_processes_mem'오픈소스' 카테고리의 다른 글
CnetOS7(Amazon Linux2) Docker Compose 설치 하기 (0) 2021.10.14 AWS EC2에 Nodejs 설치 (0) 2020.06.01 오픈소스 CMDB 프로그램 Ralph3 설치 (0) 2020.03.27 데이터 분석을 위해 elasticsearch + kibana 설치 (0) 2020.02.24 Zabbix poller processes more than 75% busy 문제 해결 (0) 2020.02.24