본문 바로가기
728x90

컴퓨터 & IT (Computer & IT)/Beowulf Cluster (Diskless Cluster)15

[Diskless Cluster] Slurm error - idle* status/ Zero Bytes were transmitted or received 한동안 한국에 있는 클러스터를 사용하지 않다가, 최근에 서버를 확인해보니 slurm이 정상적으로 작동을 하지 않음을 확인하였다. 우선, 문제 상황은 아래와 같다. 문제상황 마스터 서버에서 sinfo 명령어로 계산노드들의 상태들을 확인하였을 때, 계산노드들의 상태들이 아래처럼 idle*/down*/unk* 로 확인이 된다. PARTITION AVAIL TIMELIMIT NODES STATE NODELIST batch* up infinite 11 idle* node[01-11] batch* up infinite 1 idle master 위와 같이 idle* 상태가 나온다는 것은 계산노드와 마스터 서버가 정상적으로 통신이 안된다는 것을 의미한다. 해결방법 1. slurmctld 및 slurmd 재시작 - 마스.. 2022. 9. 2.
[Diskless Cluster] expect 및 rsync를 이용한 백업 연구실에 있는 데이터들을 synology를 이용하여 백업을 하였다. 이때, backup script file은 아래와 같다. #! /bin/bash expect 2021. 7. 10.
[Diskless Cluster] Reference Reference [1] https://m.cafe.daum.net/KingOfLinux/2LGG/138 [2] http://blog.syszone.co.kr/2608 [3] https://wiki.gentoo.org/wiki/Diskless_nodes/ko [4] https://www.hiroom2.com/2017/07/02/ubuntu-1604-pxeboot-thin-client-nfs-en/ [5] https://wiki.kldp.org/HOWTO/html/Parallel-Processing/Parallel-Processing-HOWTO.html [6] https://wiki.kldp.org/Translations/html/Cluster_QuickStart-KLDP/Cluster_QuickStart.. 2020. 6. 2.
[Diskless Cluster] 5. 기타 5.1. Diskless Cluster를 추가할 경우 Diskless Cluster의 장점은 COW와 다르게 계산노드들을 쉽게 추가 및 제거를 할 수 있다는 점이다. 이 장에서는 만약 당신이 추가적인 계산노드들을 증설할 경우 어떻게 해야할 지에 대해서 다룬다 5.1.1. 준비물 – 추가적인 계산노드들 (계산노드들의 PXE부팅 및 네트워크 카드의 맥주소를 알고 있다고 가정한다.) 5.1.2. 마스터 노드 - /etc/hosts 편집 새로 추가될 계산노드들에게 할당할 사설 IP와 호스트이름을 정해준다 $vim /etc/hosts 127.0.0.1localhost 127.0.1.1cmt-master 192.168.0.1master 192.168.0.2node01 … 192.168.0.9node08 192.16.. 2020. 6. 2.
[Diskless Cluster] 3.2 클러스터 운영과 관련된 필수 유틸리티들 - Torque/Slurm 우분투 16.04 LTS의 경우, Ubuntu repository에서 TORQUE/PBS를 설치할 수 있었다. 하지만, 18.04 이상의 버전부턴, 해당 버전에 대응되는 repository에서는 TORQUE가 없다. 물론, 이전 버전에 대응되는 repository에서 TORQUE를 설치할 수 있겠지만, 서로 다른 버전의 OS 간의 패키지 의존성등의 문제들을 감수해야한다. 다행이도 ubuntu에서 다른 무료 오픈 소스 PBS인 slurm을 사용할 수 있다. 여기서는 주로 slurm에 대해서 설명하며, torque 관련 정보가 필요한 사람을 위해서 이전에 정리한 내용들을 뒷부분에 정리했다. 0. Slurm이란? slurm은 TORQUE와 같은 PBS, 즉, Cluster에서 작업을 할당해주는 프로그램이다. .. 2020. 6. 2.
[Diskless Cluster] 3.1 클러스터 운영과 관련된 필수 유틸리티들 - Ganglia 3.1 Ganglia ▪ UC Berkerley의 millennium projects에서 개발 ▪ "SourceForge.net"을 통해 소스코드가 공개되어 자유롭게 사용할 수 있는 소프트웨어 ▪ 산 모니터링 시스템 또는 클러스터의 상태를 모니터링할 수 있는 소프트웨어 : 메모리, CPU, 디스크, 네트워크 사용량을 포함하여 약 200여개 이상의 메트릭 정보를 모니터링할 수 있음. 클러스터의 사용상태를 모니터해주는 도구로써, 클래스터 내의 노드들로부터 여러가지 성능지표들을 모니터링하여 종합관제할 수 있는 기능들을 제공한다. 3.1.0 기본적인 Ganglia의 구조 및 구성 요소 (a) Ganglia의 구조 (b) Ganglia의 구성 요소: Gmond, gmetad, ganglia web interfac.. 2020. 6. 2.
[Diskless Cluster] 2.2 계산 서버 – 계산서버의 네트워크 문제 2.2.1 Masquerade IP MASQUERADE는 리눅스의 NAT(Network Address Translation) 기능으로써, 내부망의 컴퓨터들이 마스터 서버를 통해서 외부망 인터넷에 접속할 수 있도록 하는 기능이다. 내부망에 속해있는 컴퓨터들이 생성된 모든 네트워크 요청은 Masquerade를 통해서 마스터 서버의 외부망으로 연결이 된다. ※ Masquerade 설정하는 방법 1) 우리는 iptables로 방화벽을 설정하기 때문에 만약, UFW방화벽이 켜져있다면, UFW를 끄도록 하자 $ ufw disable 2) IP Masquerade 적용 $ sudo iptables -t nat -A POSTROUTING -s 192.168.0.0/24 -o enp8s0 -j MASQUERADE - 적.. 2020. 6. 2.
[Diskless Cluster] 2.1 계산 서버 – 계산서버의 루트디렉토리 만들기 2.1 계산 서버 – 계산서버의 루트디렉토리 만들기 우분투에서 계산서버의 리눅스 이미지를 만드는 방법은 크게 3가지이다. [7]** - debootstrap으로 리눅스 이미지 생성 - 인스톨 CD등을 통해서 계산서버의 리눅스 설치 - 마스터 서버의 리눅스 이미지 복사 여기에서 우리는 마지막 방법을 사용하여 계산서버를 위한 루트 디렉토리를 만들 것이다. [2], [10] 번 출처에서도 동일한 방법으로 계산노드들을 위한 리눅스 이미지를 만들어 사용을 하였다. ** 출처는 Reference 페이지 참조바람 ※ 커널관련 문제 많은 레퍼런스에서 계산노드의 커널을 마스터 노드와 다르게 설정한다. 그 이유는, 마스터 노드에서 필요하지만 계산노드에는 필요하지 않는 기능들이 있기 때문에, 많은 경우 계산노드의 커널을 설.. 2020. 6. 2.
[Diskless Cluster] 1.3. 마스터 서버 – NFS 서버 설정 1.3. 마스터 서버 – NFS 서버 설정 Diskless cluster의 경우 자체적인 하드디스크가 없다. 따라서 NFS (Networking File System)를 이용하여, 마스터 서버에서 계산노드를 위해 만들어진 루트디렉토리를 “/”로 인식하게 만들어야 한다. 즉, NFS를 이용하여, /computation _node/nfsroot 디렉토리를 계산노드들의 “/”로 마운트 시킬 것이다. 이 장에서 해야할 것은 크게 2가지이다. • 마스터 서버에 nfs서버 설치 • 마스터 서버의 /etc/exports 파일 편집 1.3.1 마스터 서버 - nfs 서버 설치 [1] $ sudo apt-get install nfs-kernel-server -y $ sudo apt-get install nfs-commo.. 2020. 6. 2.
728x90