スクールオブウェブ 😉 net

プログラミングとインフラを学ぶ場所。

最新の記事

GHCR (GitHub Container Registry) とは — Docker Hub との違い、使い方、料金
読了 7分

GHCR (GitHub Container Registry) とは — Docker Hub との違い、使い方、料金

ghcr.io の正体から整理します。GHCR とは何か、Docker Hub と何が違うのか (pull 制限、権限モデル、料金)、PAT の発行から push/pull までの使い方、そして GitHub Actions 連携と運用のコツまで一本でまとめます。

LLM アプリ運用 #7 実践:ドキュメント Q&A ボットを本番へ
読了 5分

LLM アプリ運用 #7 実践:ドキュメント Q&A ボットを本番へ

シリーズの五つの軸を運用チェックリストにまとめ、ドキュメント Q&A ボットに適用します。計測、ルーティング、キャッシング、バッチ、信頼性、セキュリティを一つずつ有効にしながら、リクエストあたりのコストと安定性がどう変わるかを確かめ、四つのシリーズにわたる AI トラックを締めくくります。

LLM アプリ運用 #6 セキュリティ — プロンプトインジェクションとデータ境界
読了 6分

LLM アプリ運用 #6 セキュリティ — プロンプトインジェクションとデータ境界

プロンプトインジェクションは入力テキストでアプリの動作を変えようとする試みで、RAG とエージェントの時代には文書やツール結果を経由して入り込みます。単一の防御線ではなく何層もの防御、ツール権限の最小化、出力の検証、ロギングのデータ境界まで扱います。

LLM アプリ運用 #5 信頼性 — レートリミット・リトライ・フォールバック
読了 6分

LLM アプリ運用 #5 信頼性 — レートリミット・リトライ・フォールバック

429 と 529 は障害ではなく日常です。レートリミットの仕組み(RPM・トークン上限)、retry-after を尊重するリトライ、タイムアウトとストリーミング、それでもだめなときのフォールバック(モデル格下げ・キューイング・丁寧な失敗)まで、止まらない構造を作ります。

LLM アプリ運用 #4 バッチ処理 — 急がない仕事は半額で
読了 5分

LLM アプリ運用 #4 バッチ処理 — 急がない仕事は半額で

今すぐ答えが要らない作業まで、リアルタイム API に送っていないでしょうか。Batches API は大量のリクエストを非同期で処理する代わりに、すべてのトークンを 50% 割引します。バッチに向く作業の選び方、提出と回収、運用パターンまで扱います。

LLM アプリ運用 #3 プロンプトキャッシング実践
読了 6分

LLM アプリ運用 #3 プロンプトキャッシング実践

毎リクエスト繰り返されるシステムプロンプトとツール定義をキャッシュすれば、その区間の入力費用は10分の1になります。接頭辞一致という大原則、安定した接頭辞の設計、cache_control の配置、沈黙のキャッシュ無効化を探す監査まで扱います。

LLM アプリ運用 #2 コスト — トークン会計とモデルルーティング
読了 6分

LLM アプリ運用 #2 コスト — トークン会計とモデルルーティング

コスト削減の最大のレバーはモデル選択です。count_tokens による送信前の計測、出力のダイエット、作業の難易度別モデルルーティングの設計、effort の調整まで。品質を守りながらコストを下げる順序を扱います。

LLM アプリ運用 #1 デモと本番のあいだ — 運用の地図
読了 5分

LLM アプリ運用 #1 デモと本番のあいだ — 運用の地図

動く LLM アプリと運用できる LLM アプリは別物です。コスト・レイテンシ・信頼性・品質・セキュリティという五つの軸で運用の地図を描き、すべての出発点であるリクエスト単位の計測から作ります。