LLM アプリ開発

LLM アプリ運用 #7 実践:ドキュメント Q&A ボットを本番へ
読了 5分

LLM アプリ運用 #7 実践:ドキュメント Q&A ボットを本番へ

シリーズの五つの軸を運用チェックリストにまとめ、ドキュメント Q&A ボットに適用します。計測、ルーティング、キャッシング、バッチ、信頼性、セキュリティを一つずつ有効にしながら、リクエストあたりのコストと安定性がどう変わるかを確かめ、四つのシリーズにわたる AI トラックを締めくくります。

LLM アプリ運用 #6 セキュリティ — プロンプトインジェクションとデータ境界
読了 6分

LLM アプリ運用 #6 セキュリティ — プロンプトインジェクションとデータ境界

プロンプトインジェクションは入力テキストでアプリの動作を変えようとする試みで、RAG とエージェントの時代には文書やツール結果を経由して入り込みます。単一の防御線ではなく何層もの防御、ツール権限の最小化、出力の検証、ロギングのデータ境界まで扱います。

LLM アプリ運用 #5 信頼性 — レートリミット・リトライ・フォールバック
読了 6分

LLM アプリ運用 #5 信頼性 — レートリミット・リトライ・フォールバック

429 と 529 は障害ではなく日常です。レートリミットの仕組み(RPM・トークン上限)、retry-after を尊重するリトライ、タイムアウトとストリーミング、それでもだめなときのフォールバック(モデル格下げ・キューイング・丁寧な失敗)まで、止まらない構造を作ります。

LLM アプリ運用 #4 バッチ処理 — 急がない仕事は半額で
読了 5分

LLM アプリ運用 #4 バッチ処理 — 急がない仕事は半額で

今すぐ答えが要らない作業まで、リアルタイム API に送っていないでしょうか。Batches API は大量のリクエストを非同期で処理する代わりに、すべてのトークンを 50% 割引します。バッチに向く作業の選び方、提出と回収、運用パターンまで扱います。

LLM アプリ運用 #3 プロンプトキャッシング実践
読了 6分

LLM アプリ運用 #3 プロンプトキャッシング実践

毎リクエスト繰り返されるシステムプロンプトとツール定義をキャッシュすれば、その区間の入力費用は10分の1になります。接頭辞一致という大原則、安定した接頭辞の設計、cache_control の配置、沈黙のキャッシュ無効化を探す監査まで扱います。

LLM アプリ運用 #2 コスト — トークン会計とモデルルーティング
読了 6分

LLM アプリ運用 #2 コスト — トークン会計とモデルルーティング

コスト削減の最大のレバーはモデル選択です。count_tokens による送信前の計測、出力のダイエット、作業の難易度別モデルルーティングの設計、effort の調整まで。品質を守りながらコストを下げる順序を扱います。

LLM アプリ運用 #1 デモと本番のあいだ — 運用の地図
読了 5分

LLM アプリ運用 #1 デモと本番のあいだ — 運用の地図

動く LLM アプリと運用できる LLM アプリは別物です。コスト・レイテンシ・信頼性・品質・セキュリティという五つの軸で運用の地図を描き、すべての出発点であるリクエスト単位の計測から作ります。

RAG 上級講座 #7 実践プロジェクト:ドキュメント Q&A ボットのアップグレード
読了 5分

RAG 上級講座 #7 実践プロジェクト:ドキュメント Q&A ボットのアップグレード

LLM アプリ開発 第13回の社内文書 Q&A ボットを、このシリーズの手法で段階的にアップグレードします。ベースラインの測定からチャンキングの差し替え、ハイブリッド検索、リランキング、引用まで適用しながら、指標がどう動くかを確かめます。

RAG 上級講座 #6 RAG 評価パイプラインを作る
読了 6分

RAG 上級講座 #6 RAG 評価パイプラインを作る

第1回のベースラインを評価体系に育てます。検索は recall@k と MRR で、生成は LLM 判定者で採点し、ハルシネーション率まで一度に測る評価スクリプトを作って、すべての変更の回帰テストとして回します。

RAG 上級講座 #5 引用でハルシネーションを減らす
読了 5分

RAG 上級講座 #5 引用でハルシネーションを減らす

正解のチャンクを渡したのに答えが間違う生成の失敗を扱います。根拠の中だけで答えさせるプロンプト、「わからない」と答える権利、そして Claude の citations 機能で文ごとに出典を付ける方法まで実装します。

RAG 上級講座 #4 クエリ変換とリランキング
読了 5分

RAG 上級講座 #4 クエリ変換とリランキング

ユーザーの質問は検索に適した形ではありません。会話の文脈を反映するクエリリライティング、複数の角度から問うマルチクエリ、そして広く取ってきた候補を精密に絞り込むリランキングまで、検索の前段と後段を補強します。

RAG 上級講座 #3 ハイブリッド検索 — ベクトルとキーワードの組み合わせ
読了 5分

RAG 上級講座 #3 ハイブリッド検索 — ベクトルとキーワードの組み合わせ

意味検索は製品コードや固有名詞に弱く、キーワード検索は同義語に弱いです。BM25 キーワード検索を作り、RRF でベクトル検索と組み合わせて、互いの弱点を補い合うハイブリッド検索を実装します。