スクールオブウェブ 😉 net
プログラミングとインフラを学ぶ場所。
最新の記事
LLM アプリ運用 #7 実践:ドキュメント Q&A ボットを本番へ
シリーズの五つの軸を運用チェックリストにまとめ、ドキュメント Q&A ボットに適用します。計測、ルーティング、キャッシング、バッチ、信頼性、セキュリティを一つずつ有効にしながら、リクエストあたりのコストと安定性がどう変わるかを確かめ、四つのシリーズにわたる AI トラックを締めくくります。
LLM アプリ運用 #6 セキュリティ — プロンプトインジェクションとデータ境界
プロンプトインジェクションは入力テキストでアプリの動作を変えようとする試みで、RAG とエージェントの時代には文書やツール結果を経由して入り込みます。単一の防御線ではなく何層もの防御、ツール権限の最小化、出力の検証、ロギングのデータ境界まで扱います。
LLM アプリ運用 #5 信頼性 — レートリミット・リトライ・フォールバック
429 と 529 は障害ではなく日常です。レートリミットの仕組み(RPM・トークン上限)、retry-after を尊重するリトライ、タイムアウトとストリーミング、それでもだめなときのフォールバック(モデル格下げ・キューイング・丁寧な失敗)まで、止まらない構造を作ります。
LLM アプリ運用 #4 バッチ処理 — 急がない仕事は半額で
今すぐ答えが要らない作業まで、リアルタイム API に送っていないでしょうか。Batches API は大量のリクエストを非同期で処理する代わりに、すべてのトークンを 50% 割引します。バッチに向く作業の選び方、提出と回収、運用パターンまで扱います。
LLM アプリ運用 #3 プロンプトキャッシング実践
毎リクエスト繰り返されるシステムプロンプトとツール定義をキャッシュすれば、その区間の入力費用は10分の1になります。接頭辞一致という大原則、安定した接頭辞の設計、cache_control の配置、沈黙のキャッシュ無効化を探す監査まで扱います。
LLM アプリ運用 #2 コスト — トークン会計とモデルルーティング
コスト削減の最大のレバーはモデル選択です。count_tokens による送信前の計測、出力のダイエット、作業の難易度別モデルルーティングの設計、effort の調整まで。品質を守りながらコストを下げる順序を扱います。
LLM アプリ運用 #1 デモと本番のあいだ — 運用の地図
動く LLM アプリと運用できる LLM アプリは別物です。コスト・レイテンシ・信頼性・品質・セキュリティという五つの軸で運用の地図を描き、すべての出発点であるリクエスト単位の計測から作ります。