[AI/딥러닝] AI 컴퓨팅과 메모리 구조에 대한 설명

서버의 역활의 구분

1. 일반 서버/클라우드 서버: 데이터를 저장 및 입출력
a. 유튜브에서 영상을 보는 것, 구글 드라이브에서 특정 작업 파일을 불러오는 것 (즉, 서버 스토리지에 데이터를 저장 혹은 불러옴)
b. Hot Data/Cold Data:
- Hot data: 일반 서버 혹은 클라우드 서버에서 자주 쓰이는 데이터이고 Cache, Dram, SSD를 이용하여 저장
- Cold data: 덜 쓰이는 데이터이고 상대적으로 느린 저장장치 (자기테이프 등)을 이용

2. AI 서버: 일반 서버나 클라우드 서버에 비해 연산 (computing)을 주로 함
a. 특징 1: 일반 서버에서 사용하던 데이터 저장 장치가 크게 필요가 없게 됨
- AI 계산의 특성 상, 학습에서 발생하는 입출력은 주로 GPU와 메모리 간에 이루어짐
- 일반적인 스토리지는 Raw Data를 읽어오거나 계산이 완료된 Data를 저장하는 용도로 사용함
b. 특징 2: 머신러닝
- 빅데이터의 Raw data를 빠르게 분석하여 데이터 간의 의미를 찾은 후, 이를 통해 AI 모델을 만드는 것이 목적
- 이를 위해, 일반적인 저장장치가 아닌 GPU와 빠르게 데이터를 주고 받을 수 있는 HBM이 존재
c. 그에 따라,
- AI 업체들은 스토리지에 투자할 돈을 GPU 및 DRAM에 더 투자함
- AI 서버에서 스토리지의 원가 비중: 1%

AI 서버와 메모리

1. 과거: 과거의 경우, GPU가 CPU에 완전히 종속이 되어있었으며, CPU의 메인 메모리 (DDR)을 이용함.
2. 현재의 GPU:
(1) 다뤄야할 데이터의 양에 대해 CPU를 통한 DDR 메모리를 GPU가 사용하는 것이 비효율적이 됨에 따라, GPU 에 최근접으로 장착한 전용 메모리 (Near memory)로 GDDR이라는 새로운 메모리 규격을 만들어 사용하기 시작함. (알파고의 경우, GPU의 Near memory: GDDR5)
(2) 다뤄야 할 데이터의 양일 더 많아짐에 따라, GDDR도 필요한 컴퓨터 성능을 감당할 수 없음에 따라, HBM (High bandwidth memory)가 탄생하였다. HBM이란, DRAM을 여러층으로 쌓은 후, TSV 공정으로 각 DRAM을 수직으로 연결하여, 고용량, 고속도, 저전력을 같이 잡은 전용메모리로, 현재 GPU의 Near memory를 대체하고 있다.
3. 메모리의 중요성
- 현재의 텍스트 기반의 AI 모델이 이미지, 동영상, 실시간 렌더링으로 나아가게 되면, 그에 따라, 컴퓨팅 성능이 더 기하급수적으로 증가해야 하며, 이를 뒷받침해주기 위해, 메모리의 역활이 더욱 중요하게 될 것으로 예상
4. 메모리의 가격 및 현재 상황
a. 현재 메모리의 용량당 거의 가격이 4배 이상씩 차이가 나는 상황이며, 이로 인해, AI DRAM의 이익 모멘템이 강하게 발생하고 있음
- 하이닉스의 DRAM 매출의 약 25%가 AI DRAM으로 추정됨
b. 이후에도 고부가가치의 AI DRAM 매출 비중은 계속 올라갈 것으로 예측됨
c. 컴퓨팅 파워의 확대를 위해 GPU 당 탑재되는 HBM 용량이 폭팔적으로 크게 성장하고 있음
- NDIVIA A100 GPU: 16Gb DIE가 4개 부착된 HBM2E 칩이 5개 장착( HBM의 전체적인 용량: 40GB)
- NDIVIA H100 GPU: 16Gb DIE가 8개 부착된 칩이 5개 장착 (HBM의 전체적인 용량: 80GB)
- AMD MI300A: HBM의 총 용량: 128GB
- 26년 출시 예정인 차세대 HBM4 제품 (TSMC 2나노로 출시): GPU 당 약 432GB로 예상
d. 삼성의 경우:
- 21년도 로직 1개당 HBM 칩 4개를 패키징한 I-CUBE4를 개발 완료
- 26년부터 12개를 패키징한 I-CUBE12를 양산할 예정
5. 주요 구매처
a. HBM - NVIDIA, AMD
b. 128 GB 이상의 대용량 DRAM: NVIDIA, AMD, 혹은 CPU를 사서 AI 서버를 제작하는 빅테크들

CXL 및 SCM

1. AI 서버에서 스토리지의 문제점: 스토리지에서 데이터를 입출력을 하게 되면, "병목 구간 법칙"에 의해, 전체적인 컴퓨팅 성능이 크게 하락한다. 즉, 스토리지의 느린 데이터 입출력에 의해, 컴퓨팅 퍼포먼스가 상당히 크게 떨어진다.
2. SCM(Storage Class Memory)의 탄생: 느린 스토리지의 입출력 때문에, 메모리와 스토리지의 중간단계인 SCM이 탄생하며, 이로 논의가 되는 것이 CXL(compute eXpress Link)이다.
3. CXL이란?
- SSD처럼 PCle를 통해 채널의 갯수를 늘려서 서버 시스템에 더 많은 DRAM 모듈을 탑재할 수 있도록 하는 기술
- 전용 컨트롤러 탑재를 통해 대용량 DRAM 용량을 훨씬 효율적으로 사용할 수 있도록 함
- GPU가 CPU의 Main memory가 아닌 CXL의 메모리에 직접 접근하여 사용

결론

AI는 HPC 전용 초고속 메모리의 수요만을 증가시키는 것이 아닌, (1) 일반서버부터 어플레케이션 전반을, (2) HBM, DDR, GDDR, 등의 다양한 DRAM의 수요를 한단계 진일보할 것이라고 예측.

[1] https://www.fmkorea.com/6564604551

저작자표시 (새창열림)

'소프트웨어 (계산용 프로그램) > 딥러닝 공부' 카테고리의 다른 글

[딥러닝] CuDNN 및 Tensorflow 설치 (0)	2021.05.17

[AI/딥러닝] AI 컴퓨팅과 메모리 구조에 대한 설명

서버의 역활의 구분

AI 서버와 메모리

CXL 및 SCM

결론

'소프트웨어 (계산용 프로그램) > 딥러닝 공부' 카테고리의 다른 글

댓글

티스토리툴바

[AI/딥러닝] AI 컴퓨팅과 메모리 구조에 대한 설명

서버의 역활의 구분

AI 서버와 메모리

CXL 및 SCM

결론

'소프트웨어 (계산용 프로그램) > 딥러닝 공부' 카테고리의 다른 글

관련글

댓글

티스토리툴바