#インフラ
301 件の記事
ハードウェア上級 #7 ファームウェア・BMC・ライフサイクル — サーバーの中のもう 1 台のコンピュータ
メイン CPU と独立して常に動き続ける管理用コンピュータ BMC を扱います。リモートコンソールと電源制御、IPMI と Redfish、ファームウェアスタックとアップデート運用、SMART と ECC カウンタによる故障予測、管理ネットワークのセキュリティ、そして保証満了からディスク廃棄までのライフサイクルを整理し、ハードウェア上級シリーズを締めくくります。
ハードウェア上級 #6 データセンターの冷却とラック — 電気は結局熱になる
サーバーに入った電力はほぼすべて熱になって出ていきます。前面吸気・背面排気という気流の基本から出発し、ホットアイル・コールドアイルのコンテインメント、ラック密度と空冷の限界、D2C・液浸といった液体冷却、ASHRAE の温度基準と PUE の関係まで、データセンター冷却の全体像を整理します。
ハードウェア上級 #5 データセンターの電力 — サーバーをこれ以上挿せない本当の理由
ラックに空きスロットが残っていてもサーバーを挿せない理由は電力バジェットです。PSU の冗長化と A/B 電源フィード、ラック単位の kW 契約、PDU と UPS、発電機と ATS、PUE、そして GPU サーバーが押し上げた電力密度まで、サーバーが生きる電力環境を運用者の視点で整理します。
ハードウェア上級 #4 ZFS 深掘り — RAID とファイルシステムがひとつになるとき
ZFS は RAID・ボリューム管理・ファイルシステムを 1 つの層に統合し、従来スタックの構造的な問題を解決しました。書き込みホールをなくす CoW、読み取りのたびに検証するチェックサムと自己修復、データだけをコピーして速い resilver、RAIDZ と ARC、スナップショットと send/recv、lz4 圧縮まで運用の観点で整理します。
ハードウェア上級 #3 メモリ深掘り — ページキャッシュ・THP・帯域幅
ページキャッシュの読み取り・書き込みの経路から、THP が作る遅延スパイク、明示的 hugepages と TLB、swappiness の実際の実装と zswap、そしてコアが遊んでいても速くならないメモリ帯域幅のボトルネックまで、カーネルメモリメカニズムの内側を扱います。
ハードウェア上級 #2 eBPF 観測 — 平均が隠すテールを見る
eBPF はカーネル内で安全に実行される小さなプログラムでシステムイベントを直接トレースする技術です。biolatency と runqlat で平均指標が隠す遅延分布とテールを読む方法、BCC ツールの地図、運用時のオーバーヘッドの注意点まで整理します。
ハードウェア上級 #1 CPU マイクロアーキテクチャと perf — 同じ 100% が違う理由
CPU 使用率が同じ 100% でも、コアがこなした仕事の量は違います。IPC とキャッシュミス、分岐予測ミスで使用率の裏のマイクロアーキテクチャを読み、perf stat の数字からメモリ待ちと演算の飽和を見分ける方法を扱います。
ハードウェア中級 #9 実践:遅くなったサーバーを診断する — シリーズのまとめ
「サービスが遅い」という報告から出発し、4 つのリソースを順に絞り込んでいく診断ウォークスルーです。症状を定義し、リソースごとに点検し、仮説を確かめ、処方して再測定するところまで進みます。チューニングの原則とともにハードウェア中級シリーズを締めくくります。
ハードウェア中級 #8 GPU とアクセラレータ — AI 時代の 5 つ目のリソース
AI ワークロードのボトルネックは 4 つのリソースの外にあります。GPU が CPU と違う働き方をする仕組み、モデルのサイズを決める VRAM と HBM、nvidia-smi の指標の読み方、そして GPU を分けて使うパススルー・vGPU・MIG まで、運用者の視点で整理します。
AWS Certified CloudOps Engineer - Associate (SOA-C03) #15 フルスケール模擬試験 — 50 問 + 解説
SOA-C03 シリーズの最後の記事です。実際の試験のドメイン比重 (モニタリング 22% ・信頼性 22% ・デプロイ自動化 22% ・ネットワーキング 18% ・セキュリティ 16%) に合わせて 50 問を解き、各問の正解と解説で弱いドメインを見つけます。時間を計って解いたあと、不足している部分は該当ドメインの記事に戻って補強してください。
ハードウェア中級 #7 ストレージネットワーク — iSCSI・FC・NVMe-oF・マルチパス
ディスクがサーバーの外へ出ると、ストレージはネットワークの問題になります。iSCSI と FC のトレードオフ、NVMe 時代の NVMe-oF、経路の冗長化を担うマルチパスの運用、そしてクラウドのブロックストレージとのつながりまで扱います。