하드웨어 고급 #6 데이터센터 냉각과 랙 — 전기는 결국 열이 된다
하드웨어 고급 #5에서 데이터센터 전력의 흐름을 따라가며 한 가지 사실에 도달했습니다. 서버에 들어간 전력은 거의 전부 열이 되어 나옵니다. 1kW를 소비하는 서버는 1kW짜리 전기 히터이기도 합니다. 그래서 냉각은 전력의 거울입니다. 전력 설계가 같은 에너지를 어떻게 넣을지의 문제라면, 냉각 설계는 그 에너지를 어떻게 빼낼지의 문제이고, 둘의 용량은 결국 같은 숫자여야 합니다. 이번 글에서는 서버 한 대의 기류에서 출발해 랙, 열복도, 액체 냉각, 온도 운영 기준까지 열이 빠져나가는 길을 따라가겠습니다.
서버 냉각의 기본 — 앞에서 마시고 뒤로 뱉는다 #
랙마운트 서버의 기류는 한 방향입니다. 전면에서 차가운 공기를 빨아들이고, CPU와 메모리의 히트싱크를 통과시킨 뒤, 후면으로 뜨거운 공기를 뱉습니다. 전면 흡기, 후면 배기입니다. 단순해 보이지만 이 약속이 데이터센터 냉각 전체의 출발점입니다. 모든 장비가 같은 방향으로 분다는 전제가 있어야 뒤에 나올 열복도 설계가 성립하기 때문입니다.
서버실에 처음 들어간 사람이 놀라는 점은 소음입니다. 1U 서버가 유독 시끄러운 데에는 물리적인 이유가 있습니다. 높이 44mm 안에 들어가는 팬은 지름 40mm 수준의 소형뿐인데, 작은 팬으로 빽빽한 히트싱크를 뚫을 정압을 만들려면 1만 RPM이 넘는 회전수가 필요합니다. 데스크톱의 120mm 팬이 1,500RPM 안팎으로 도는 것과 비교하면, 1U 서버의 굉음은 고장이 아니라 설계의 결과입니다. 팬이 소비하는 전력도 무시할 수 없어서, 고밀도 서버에서는 전체 소비 전력의 10% 안팎이 팬 몫인 경우도 있습니다.
핫아일과 콜드아일 — 섞이면 효율이 무너진다 #
서버가 한 방향으로 분다면, 랙의 배치로 찬 공기와 더운 공기를 분리할 수 있습니다. 랙 열을 서로 마주 보게 세우는 방식입니다. 전면끼리 마주 본 통로에는 찬 공기만 공급되고(콜드아일), 후면끼리 마주 본 통로에는 더운 배기만 모입니다(핫아일).
핫아일(배기) 콜드아일(흡기) 핫아일(배기)
↑↑↑↑ ↓↓↓↓ ↑↑↑↑
[랙 후면] [랙 전면] [랙 후면]
[랙 ←열] [열→ 랙 ←열] [열→ 랙]이 분리가 깨지는 방식은 두 가지입니다.
- 재순환 — 핫아일의 뜨거운 배기가 랙 위나 옆을 돌아 콜드아일로 흘러들어, 서버가 더운 공기를 다시 마시는 경우입니다. 흡기 온도가 올라가 장비 과열로 직결됩니다.
- 바이패스 — 콜드아일의 찬 공기가 서버를 통과하지 않고 그대로 핫아일로 빠져나가는 경우입니다. 장비는 안전하지만 냉방 에너지를 허공에 버리는 셈입니다.
이 둘을 물리적으로 차단하는 것이 컨테인먼트입니다. 통로 끝에 문을 달고 위를 천장 패널로 덮어, 콜드아일이나 핫아일 한쪽을 아예 밀폐된 방으로 만듭니다. 찬 공기 쪽을 가두면 콜드아일 컨테인먼트, 더운 공기 쪽을 가두면 핫아일 컨테인먼트입니다. 어느 쪽이든 핵심은 같습니다. 찬 공기와 더운 공기가 서버의 내부 말고는 만날 길이 없게 만드는 것입니다.
기류의 디테일 — 블랭킹 패널과 케이블 #
컨테인먼트까지 했는데 특정 서버만 뜨겁다면, 범인은 대개 작은 틈입니다.
- 빈 U 슬롯 — 랙에 장비가 듬성듬성 꽂혀 있으면, 빈 칸이 핫아일에서 콜드아일로 통하는 구멍이 됩니다. 뒤쪽의 더운 공기가 빈 슬롯으로 역류해 바로 위 서버의 흡기로 들어갑니다. 빈 칸을 막는 블랭킹 패널은 몇천 원짜리 플라스틱 판이지만, 랙 안의 재순환을 끊는 가장 싼 부품입니다.
- 후면 케이블 뭉치 — 정리되지 않은 케이블 다발이 서버 후면을 덮으면 배기가 막혀 내부 온도가 올라가고, 팬은 더 빨리 돌며 전력을 더 씁니다.
- 바닥 타일의 위치 — 가압 마루(이중 바닥) 방식이라면 찬 공기는 타공 타일로 올라옵니다. 타공 타일이 콜드아일이 아닌 곳에 깔려 있으면 그만큼이 전부 바이패스입니다.
냉각 문제의 상당수는 냉동기 용량이 아니라 이런 기류 디테일에서 생깁니다. 공급하는 찬 공기의 총량은 충분한데 정작 서버 앞까지 도달하지 못하는 경우입니다.
랙 밀도 — 공랭의 한계선 #
랙 하나가 소비하는 전력, 즉 kW/rack이 냉각 방식을 결정합니다. 공기는 열용량이 작은 매체라서, 밀도가 올라갈수록 같은 열을 빼는 데 필요한 풍량이 가파르게 늘어납니다.
| 랙 밀도 | 냉각 방식 | 비고 |
|---|---|---|
| 〜10kW | 일반 공랭 | 전통적인 엔터프라이즈 상면의 기본값 |
| 10〜20kW | 공랭 + 컨테인먼트 | 기류 관리가 전제 조건 |
| 20〜40kW | 공랭의 한계 영역 | 리어도어 쿨러 등 보조 수단 필요 |
| 40kW〜 | 액체 냉각 | 공기만으로는 풍량과 팬 전력이 비현실적 |
이 표를 시험대에 올린 것이 AI 서버입니다. GPU 8장을 실은 서버 한 대가 10kW 안팎을 소비하므로, 몇 대만 쌓아도 랙이 공랭의 한계 영역에 들어갑니다. GB200 NVL72처럼 랙 하나가 100kW를 넘는 구성은 처음부터 액체 냉각을 전제로 설계됩니다. 액체 냉각이 새로운 기술이어서가 아니라, 밀도가 공기라는 매체의 물리적 한계를 넘었기 때문입니다.
액체 냉각 — D2C와 액침 #
물은 같은 부피의 공기보다 수천 배 많은 열을 운반합니다. 이 차이를 쓰는 방식이 크게 두 갈래입니다.
- D2C(다이렉트 투 칩) — CPU와 GPU 위에 히트싱크 대신 콜드 플레이트를 얹고, 그 안으로 냉각수를 흘립니다. 랙이나 열 단위에 설치된 CDU(냉각수 분배 장치)가 순환과 열교환을 맡습니다. 칩이 내는 열의 70〜80%를 액체가 가져가고, 메모리나 전원부 등 나머지는 여전히 공기가 맡는 하이브리드 구조입니다. 기존 상면에 단계적으로 도입할 수 있어 현재 AI 인프라의 주류입니다.
- 액침 냉각 — 서버 전체를 전기가 통하지 않는 냉각유에 담급니다. 팬이 아예 사라지고 모든 발열 부품이 액체에 직접 닿으므로 열 회수율이 가장 높습니다. 다만 전용 탱크와 유지보수 절차가 필요해, 서버를 꺼내는 일부터 기존 운영과는 다른 작업이 됩니다.
운영자 관점에서 액체 냉각은 배관, 누수 감지, 냉각수 수질 관리라는 새 운영 항목을 데이터센터에 들여오는 일이기도 합니다. 공랭 시절에는 없던 장애 시나리오가 생기는 만큼, 도입은 밀도가 강제할 때 그 필요한 범위에서 이루어지는 것이 보통입니다.
온도 기준 — 차갑게 식힐수록 좋은 게 아니다 #
서버실은 차가울수록 안전하다고 생각하기 쉽지만, 현대 데이터센터의 운영 기준은 반대 방향으로 움직여 왔습니다. ASHRAE의 권장 범위는 서버 흡기 기준 18〜27°C입니다. 20년 전의 냉장고 같은 서버실보다 한참 높은 온도입니다.
이유는 5편에서 본 PUE에 있습니다. 흡기 온도 기준을 1도 올리면 냉동기가 일해야 하는 시간이 줄고, 외기가 충분히 차가운 날에는 냉동기 없이 바깥 공기로 식히는 프리쿨링 운전이 가능해집니다. 냉각에 쓰는 전력이 줄면 같은 IT 부하에서 PUE가 내려갑니다. 필요 이상으로 차갑게 식히는 것은 안전 마진이 아니라 전기 요금입니다.
물론 공짜는 아닙니다. 흡기 온도를 올릴수록 냉각 장애가 났을 때 장비가 한계 온도에 도달하기까지의 여유 시간이 짧아집니다. 기준 온도는 결국 냉각 전력과 장애 시 버틸 시간 사이의 트레이드오프이고, ASHRAE 권장 범위는 그 균형점으로 업계가 합의한 구간입니다.
랙과 상면 — 무게, 동선, 손이 들어갈 공간 #
마지막으로 랙 자체의 설계 디테일입니다. 표준 19인치, 42U 랙이라는 규격은 같아도, 그 안을 무엇으로 채우느냐에 따라 상면 설계가 달라집니다.
- 무게 하중 — 서버를 꽉 채운 42U 랙은 1톤에 가깝거나 그 이상이 됩니다. 가압 마루의 단위 면적당 설계 하중을 넘기면 랙을 채울 수 없으므로, 고밀도 랙은 배치 전에 바닥 하중 검토가 먼저입니다. 액체 냉각 랙은 냉각수와 매니폴드 무게가 더해져 더 무겁습니다.
- 케이블 동선 — 전력 케이블과 네트워크 케이블은 경로를 분리하고, 서버를 레일로 당겨 꺼낼 때 끊기지 않도록 여유 길이(서비스 루프)를 둡니다. 배기를 막지 않는 정리가 곧 냉각 성능입니다.
- 유지보수 공간 — 서버는 전면 레일로 당겨서 꺼내므로, 랙 앞에는 장비 깊이만큼의 통로가 필요합니다. 후면에도 케이블과 PDU 작업을 위한 공간이 있어야 합니다. 통로 폭은 낭비가 아니라 장애 시 복구 속도를 결정하는 설계 요소입니다.
정리 #
이번 글에서 잡은 그림입니다.
- 서버에 들어간 전력은 거의 전부 열이 되므로, 냉각 용량은 전력 용량의 거울입니다. 출발점은 전면 흡기·후면 배기라는 기류의 약속입니다.
- 핫아일·콜드아일 분리와 컨테인먼트의 목적은 하나입니다. 찬 공기와 더운 공기가 서버 내부 말고는 만나지 못하게 하는 것입니다. 블랭킹 패널과 케이블 정리 같은 디테일이 그 분리를 완성합니다.
- 랙 밀도가 올라가면 공랭은 한계에 부딪히고, AI 서버의 밀도는 D2C와 액침이라는 액체 냉각으로의 전환을 강제하고 있습니다.
- 온도 기준은 차가울수록 좋은 것이 아니라 냉각 전력(PUE)과 장애 시 여유 시간의 트레이드오프이며, ASHRAE 권장 범위 18〜27°C가 그 합의점입니다.
- 무게 하중, 케이블 동선, 유지보수 공간 같은 랙·상면 디테일까지가 냉각 설계의 일부입니다.
다음 — 펌웨어·BMC와 수명주기 #
다음 글인 “하드웨어 고급 #7 펌웨어·BMC와 수명주기"는 시리즈의 마지막 편입니다. OS 아래에서 서버를 지키는 또 하나의 컴퓨터인 BMC, IPMI와 Redfish를 통한 원격 관리, 펌웨어 업데이트의 운영 절차, 그리고 도입부터 폐기까지 서버 한 대의 수명주기를 정리하며 시리즈를 닫겠습니다.