ハードウェア上級 #5 データセンターの電力 — サーバーをこれ以上挿せない本当の理由
ラックに空きが 5 スロット残っているのに、新規サーバーの搬入申請が却下されます。理由はスペース不足ではなく 電力キャパシティ不足 です。データセンターでサーバーをこれ以上挿せない理由は、たいていスロットではなく電気です。この場面を理解するには、サーバーに挿さった電源ケーブルの反対側の端、つまりサーバーが生きる電力環境を知る必要があります。
第 4 編まではサーバーの内側の話でした。CPU パイプライン、eBPF、メモリ、ZFS はすべてケースの蓋の下で起きることです。第 5 編から第 7 編まではサーバーの外に出ます。今回の記事は電気がサーバーまで届く道のりをたどり、第 6 編はその電気がすべて熱になって出ていった後の話である冷却を扱います。
サーバー 1 台の電力経路 — PSU 2 基と A/B フィード #
サーバーの背面を見ると、電源ユニット (PSU) がたいてい 2 基挿さっています。1+1 冗長構成です。PSU 1 基でサーバー全体の負荷をまかなえて、もう 1 基は同じ負荷を受ける準備をしたまま待機します。片方が故障すれば、無停止でもう片方が全負荷を引き継ぎます。
冗長化が意味を持つには、2 基の PSU が 互いに別の電源系統 につながっていなければなりません。そのためデータセンターは、ラックまで A フィードと B フィードという独立した 2 本の電源経路を引き込んでいます。PSU 1 は A フィードに、PSU 2 は B フィードに挿します。2 基の PSU を同じフィードの PDU に挿すと、PSU 故障は防げてもフィード障害には丸ごと落ちます。ケーブル作業で意外とよく起きるミスです。
ここから運用上の重要な含意がひとつ出てきます。正常時の A/B フィードはそれぞれ半分ずつ負荷を分け合いますが、片方のフィードが落ちれば残ったフィードが 100% を受けなければなりません。だから各フィードは 普段の使用率を半分以下に 保つ必要があります。フィード 1 本を 80% まで埋めて使っていたなら、その冗長化はすでに壊れているのです。
ラックの限界はスロットではなく kW — ラックの電力バジェット #
標準ラックは 42U、つまり 42 スロットです。1U サーバーなら 42 台挿せそうに見えますが、実際にはその前に電力の上限に先にぶつかります。伝統的なデータセンターのラックあたり供給電力は 5〜10kW 程度です。1 台 500W を使う 1U サーバーなら、6kW のラックでは 12 台で終わりです。残りの 30 スロットは空のまま残ります。
コロケーションの契約書を見ると、この構造がそのまま現れています。契約の単位が「ラック何本」ではなく ラックあたり何 kW です。同じラック 1 本でも 4kW 契約と 10kW 契約では値段が違います。データセンターにとって本当の原価は床面積ではなく、その電力を供給し、同じ量の熱を冷やし切る設備だからです。スペースは余っても電力は余りません。
だからサーバー搬入検討の最初の質問は「何 U 空いているか」ではなく「そのラックの電力バジェットが何 kW 残っているか」になります。記事冒頭の却下理由がまさにこれです。
PDU — ラック内の電源タップではなく計測機器 #
フィードから降りてきた電気をラックの中でサーバーたちに分配する機器が PDU (Power Distribution Unit) です。縦に長くコンセントが並んでいて電源タップのように見えますが、データセンター級の PDU は計測と制御が本業です。
- 計測型 (metered) — ラック全体またはアウトレットごとの電流・電力をリアルタイムに測定し、SNMP などで送出します。「このラックはいま何 kW 使っているか」という質問に答える機器です。
- 制御型 (switched) — アウトレット単位でリモートのオン/オフができます。ハングしたサーバーを、データセンターに行かずに電源レベルで再起動できます。
運用の観点では、PDU の計測は電力バジェット管理の目です。ラックに 6kW が割り当てられていて PDU が 5.2kW を指しているなら、残りのバジェットは 0.8kW で、500W のサーバー 1 台が入るか入らないかという状況です。この数字なしに銘板のスペックだけ足し合わせて計算すると、バジェットを大きく見誤ります。この問題は後述の落とし穴で改めて取り上げます。
UPS — 停電と発電機の間の橋 #
商用電源は途切れることがあり、発電機は始動に時間がかかります。その間の数秒から数分をバッテリーで埋める機器が UPS (無停電電源装置) です。UPS の役割は停電を長く耐えることではなく、発電機が負荷を受けるまでの橋 です。だからデータセンターの UPS のバッテリー容量もたいてい 5〜15 分ぶんです。
方式は大きく 2 つに分かれます。
| 方式 | 動作 | 切り替え時間 | 使われる場所 |
|---|---|---|---|
| ラインインタラクティブ | 普段は商用電源を通し、停電時にバッテリーへ切り替え | 数 ms の断 | オフィス、小規模サーバールーム |
| オンラインダブルコンバージョン | 常に AC→DC→AC と 2 回変換して供給 | 0 (切り替え自体がない) | データセンター |
オンラインダブルコンバージョンは、入ってきた電気を常に直流へ変えてから再び交流にして送り出します。負荷は常に UPS が作ったクリーンな電気だけを見るので、停電の瞬間にも切り替えという事象自体がありません。変換損失で効率はやや落ちますが、電圧の揺らぎやノイズまで濾し取ってくれるため、データセンターはこの方式を使います。
発電機と ATS — 数分後を引き受ける側 #
UPS が稼ぐ数分の間に起きることが発電機の起動です。データセンターの屋外や別フロアにあるディーゼル発電機が始動し、定格出力まで上がるのに、たいてい 10 秒から 1 分前後かかります。
商用電源と発電機の間の切り替えは ATS (Automatic Transfer Switch、自動切替スイッチ) が担います。ATS は商用電源の喪失を検知すると発電機に起動信号を送り、発電機の出力が安定したら負荷をそちらへ移します。商用電源が復旧したら元に戻すところまでが ATS の仕事です。
整理すると、停電シナリオの時間軸はこうです。停電発生、UPS が即座に (または無切替で) 負荷を受ける、ATS が発電機を起動、数十秒後に発電機が負荷を引き継ぎ、以後は燃料がある限り運転です。だからデータセンターの等級評価には、発電機の燃料保有時間や再給油契約まで含まれます。UPS のバッテリーがどれほど大きくても、発電機が立ち上がらなければ数分の猶予にすぎません。
PUE — 電気が IT に届くまでにかかる税金 #
データセンターの効率を語るときにもっともよく出てくる指標が PUE (Power Usage Effectiveness) です。定義は 1 行です。
PUE = 施設全体の電力 / IT 機器の電力サーバー・ストレージ・ネットワーク機器が 1MW を使うのに施設全体が 1.5MW を引き込んでいるなら、PUE は 1.5 です。差分の 0.5MW は IT 以外のところ、その中でも大部分を冷却が持っていきます。UPS の変換損失や照明も分子に入りますが、分子を膨らませる主犯は冷却設備です。理想値は 1.0 で、業界平均は 1.5 前後、ハイパースケール事業者は 1.1 程度まで下がっています。
運用者にとって PUE はコスト指標です。PUE 1.5 の施設でサーバーの電気代が 100 なら、実際に請求される電気は 150 に相当します。サーバー 1 台の電力を減らす仕事はそれ自体で終わらず、冷却の電力まで一緒に減らします。冷却がなぜそこまで数字を膨らませるのか、そしてどう減らしてきたのかは第 6 編の主題です。
GPU サーバーと電力密度 — ラックあたり数十 kW の時代 #
伝統的なラックが 5〜10kW で設計されていた時代の基準を、GPU サーバーが完全に壊しました。中級 #8 で見た 8-GPU 学習サーバーは、1 台で 10kW 前後を使います。伝統的なラックなら 1 台挿せば終わる量です。最新の GPU 統合ラックは、ラック 1 本が 100kW を超えることもあります。一般的なサーバーラック 10 本ぶんの電力が 1 本のラックに集まった計算です。
これが、AI データセンターの話が必ず電力の話に流れていく理由です。GPU を買う資金があっても、その GPU に食わせる電力と、同じ量の熱を冷やす設備がなければ挿す場所がありません。既存データセンターのスペースに GPU ラックを入れるなら受電容量の増設から始める必要があり、新築なら立地選定の段階で変電所と送電網の確保がサーバーの発注より先に来ます。電力密度が高くなると空気で冷やす方式自体が限界にぶつかりますが、この部分も第 6 編につなぎます。
よく出会う落とし穴 #
- 銘板の電力でバジェットを計算する — サーバーの銘板や PSU の定格 (例: 750W) は最大値基準で、実際の消費はそれよりかなり低いことが多いです。銘板の合算はバジェットを過大計上してラックを空けたままにさせ、逆に実測の平均だけ見るとピーク時にブレーカーが落ちます。基準は PDU 実測の ピーク値 です。
- 2 基の PSU を同じフィードに挿す — PSU の冗長化は生きていても、フィードの冗長化が死にます。ケーブル整理の後や機器移設の後に、意外とよく見つかる状態です。
- フィードの片方を半分以上埋める — A/B 構成の前提は、片方が全体を受けられることです。普段の使用率が 50% を超えるフィードは、障害時に過負荷へつながります。
- UPS のバッテリーを停電対策のすべてと考える — UPS は発電機までの橋です。発電機の起動試験と燃料管理が抜けた UPS は、数分間の保険にすぎません。
まとめ #
今回つかんだ絵です。
- サーバーの電源は PSU 1+1 冗長化 と A/B フィード で二重化され、その前提は各フィードの普段の負荷 50% 以下です。
- ラックの本当の限界はスロット数ではなく 電力バジェット です。コロケーション契約が kW 単位である理由です。
- PDU は計測と制御の機器で、その実測値が電力バジェット管理の根拠です。
- 停電対応は UPS が数分を稼ぎ、ATS が発電機へ渡す 時間軸で動きます。
- PUE は IT 電力に対する施設全体の電力の比率で、数字を膨らませる主犯は冷却です。
- GPU サーバーはラックあたりの電力を数十 kW 台へ引き上げ、AI インフラのボトルネックを電力と冷却に移しました。
次回 — データセンターの冷却とラック #
サーバーが受け取った電気は、仕事を終えればすべて熱になります。6kW のラックは 6kW のストーブでもあります。次の記事「ハードウェア上級 #6 データセンターの冷却とラック」では、その熱を外へ出す仕組みを扱います。コールドアイルとホットアイル、空冷の限界、そして GPU ラックが前倒しした液体冷却まで、今回の記事の PUE の分子を減らす戦いを追いかけます。