ハードウェア

ハードウェア上級 #7 ファームウェア・BMC・ライフサイクル — サーバーの中のもう 1 台のコンピュータ
読了 9分

ハードウェア上級 #7 ファームウェア・BMC・ライフサイクル — サーバーの中のもう 1 台のコンピュータ

メイン CPU と独立して常に動き続ける管理用コンピュータ BMC を扱います。リモートコンソールと電源制御、IPMI と Redfish、ファームウェアスタックとアップデート運用、SMART と ECC カウンタによる故障予測、管理ネットワークのセキュリティ、そして保証満了からディスク廃棄までのライフサイクルを整理し、ハードウェア上級シリーズを締めくくります。

ハードウェア上級 #6 データセンターの冷却とラック — 電気は結局熱になる
読了 8分

ハードウェア上級 #6 データセンターの冷却とラック — 電気は結局熱になる

サーバーに入った電力はほぼすべて熱になって出ていきます。前面吸気・背面排気という気流の基本から出発し、ホットアイル・コールドアイルのコンテインメント、ラック密度と空冷の限界、D2C・液浸といった液体冷却、ASHRAE の温度基準と PUE の関係まで、データセンター冷却の全体像を整理します。

ハードウェア上級 #5 データセンターの電力 — サーバーをこれ以上挿せない本当の理由
読了 9分

ハードウェア上級 #5 データセンターの電力 — サーバーをこれ以上挿せない本当の理由

ラックに空きスロットが残っていてもサーバーを挿せない理由は電力バジェットです。PSU の冗長化と A/B 電源フィード、ラック単位の kW 契約、PDU と UPS、発電機と ATS、PUE、そして GPU サーバーが押し上げた電力密度まで、サーバーが生きる電力環境を運用者の視点で整理します。

ハードウェア上級 #4 ZFS 深掘り — RAID とファイルシステムがひとつになるとき
読了 10分

ハードウェア上級 #4 ZFS 深掘り — RAID とファイルシステムがひとつになるとき

ZFS は RAID・ボリューム管理・ファイルシステムを 1 つの層に統合し、従来スタックの構造的な問題を解決しました。書き込みホールをなくす CoW、読み取りのたびに検証するチェックサムと自己修復、データだけをコピーして速い resilver、RAIDZ と ARC、スナップショットと send/recv、lz4 圧縮まで運用の観点で整理します。

ハードウェア上級 #3 メモリ深掘り — ページキャッシュ・THP・帯域幅
読了 10分

ハードウェア上級 #3 メモリ深掘り — ページキャッシュ・THP・帯域幅

ページキャッシュの読み取り・書き込みの経路から、THP が作る遅延スパイク、明示的 hugepages と TLB、swappiness の実際の実装と zswap、そしてコアが遊んでいても速くならないメモリ帯域幅のボトルネックまで、カーネルメモリメカニズムの内側を扱います。

ハードウェア上級 #2 eBPF 観測 — 平均が隠すテールを見る
読了 8分

ハードウェア上級 #2 eBPF 観測 — 平均が隠すテールを見る

eBPF はカーネル内で安全に実行される小さなプログラムでシステムイベントを直接トレースする技術です。biolatency と runqlat で平均指標が隠す遅延分布とテールを読む方法、BCC ツールの地図、運用時のオーバーヘッドの注意点まで整理します。

ハードウェア上級 #1 CPU マイクロアーキテクチャと perf — 同じ 100% が違う理由
読了 7分

ハードウェア上級 #1 CPU マイクロアーキテクチャと perf — 同じ 100% が違う理由

CPU 使用率が同じ 100% でも、コアがこなした仕事の量は違います。IPC とキャッシュミス、分岐予測ミスで使用率の裏のマイクロアーキテクチャを読み、perf stat の数字からメモリ待ちと演算の飽和を見分ける方法を扱います。

ハードウェア中級 #9 実践:遅くなったサーバーを診断する — シリーズのまとめ
読了 6分

ハードウェア中級 #9 実践:遅くなったサーバーを診断する — シリーズのまとめ

「サービスが遅い」という報告から出発し、4 つのリソースを順に絞り込んでいく診断ウォークスルーです。症状を定義し、リソースごとに点検し、仮説を確かめ、処方して再測定するところまで進みます。チューニングの原則とともにハードウェア中級シリーズを締めくくります。

ハードウェア中級 #8 GPU とアクセラレータ — AI 時代の 5 つ目のリソース
読了 6分

ハードウェア中級 #8 GPU とアクセラレータ — AI 時代の 5 つ目のリソース

AI ワークロードのボトルネックは 4 つのリソースの外にあります。GPU が CPU と違う働き方をする仕組み、モデルのサイズを決める VRAM と HBM、nvidia-smi の指標の読み方、そして GPU を分けて使うパススルー・vGPU・MIG まで、運用者の視点で整理します。

ハードウェア中級 #7 ストレージネットワーク — iSCSI・FC・NVMe-oF・マルチパス
読了 6分

ハードウェア中級 #7 ストレージネットワーク — iSCSI・FC・NVMe-oF・マルチパス

ディスクがサーバーの外へ出ると、ストレージはネットワークの問題になります。iSCSI と FC のトレードオフ、NVMe 時代の NVMe-oF、経路の冗長化を担うマルチパスの運用、そしてクラウドのブロックストレージとのつながりまで扱います。

ハードウェア中級 #6 RAID 運用の実際 — リビルド・スクラブ・バックアップ
読了 6分

ハードウェア中級 #6 RAID 運用の実際 — リビルド・スクラブ・バックアップ

RAID の本当の試験はディスクが死んだあとに始まります。リビルドがもっとも危険な時間である理由、URE と大容量ディスク時代の RAID5 の問題、ホットスペアとスクラブの役割、書き込みキャッシュとバッテリー、そして RAID がバックアップではない理由まで整理します。

ハードウェア中級 #5 ストレージ性能の実測 — fio・キュー深度・SSD の内部事情
読了 6分

ハードウェア中級 #5 ストレージ性能の実測 — fio・キュー深度・SSD の内部事情

カタログの IOPS は条件付きの数字です。fio で自分のワークロードの形どおりに測る方法、キュー深度とレイテンシのトレードオフ、そして書き込み増幅 (write amplification) や TRIM など、昨日と今日で SSD の性能を変える内部事情を扱います。