LLM アプリ開発

2026年7月1日水曜日読了 5分

LLM アプリ運用 #7 実践：ドキュメント Q&A ボットを本番へ

シリーズの五つの軸を運用チェックリストにまとめ、ドキュメント Q&A ボットに適用します。計測、ルーティング、キャッシング、バッチ、信頼性、セキュリティを一つずつ有効にしながら、リクエストあたりのコストと安定性がどう変わるかを確かめ、四つのシリーズにわたる AI トラックを締めくくります。

2026年6月30日火曜日読了 6分

プロンプトインジェクションは入力テキストでアプリの動作を変えようとする試みで、RAG とエージェントの時代には文書やツール結果を経由して入り込みます。単一の防御線ではなく何層もの防御、ツール権限の最小化、出力の検証、ロギングのデータ境界まで扱います。

2026年6月29日月曜日読了 6分

429 と 529 は障害ではなく日常です。レートリミットの仕組み（RPM・トークン上限）、retry-after を尊重するリトライ、タイムアウトとストリーミング、それでもだめなときのフォールバック（モデル格下げ・キューイング・丁寧な失敗）まで、止まらない構造を作ります。

2026年6月28日日曜日読了 5分

今すぐ答えが要らない作業まで、リアルタイム API に送っていないでしょうか。Batches API は大量のリクエストを非同期で処理する代わりに、すべてのトークンを 50% 割引します。バッチに向く作業の選び方、提出と回収、運用パターンまで扱います。

2026年6月27日土曜日読了 6分

毎リクエスト繰り返されるシステムプロンプトとツール定義をキャッシュすれば、その区間の入力費用は10分の1になります。接頭辞一致という大原則、安定した接頭辞の設計、cache_control の配置、沈黙のキャッシュ無効化を探す監査まで扱います。

2026年6月26日金曜日読了 6分

コスト削減の最大のレバーはモデル選択です。count_tokens による送信前の計測、出力のダイエット、作業の難易度別モデルルーティングの設計、effort の調整まで。品質を守りながらコストを下げる順序を扱います。

2026年6月25日木曜日読了 5分

動く LLM アプリと運用できる LLM アプリは別物です。コスト・レイテンシ・信頼性・品質・セキュリティという五つの軸で運用の地図を描き、すべての出発点であるリクエスト単位の計測から作ります。

2026年6月24日水曜日読了 5分

LLM アプリ開発第13回の社内文書 Q&A ボットを、このシリーズの手法で段階的にアップグレードします。ベースラインの測定からチャンキングの差し替え、ハイブリッド検索、リランキング、引用まで適用しながら、指標がどう動くかを確かめます。

2026年6月23日火曜日読了 6分

第1回のベースラインを評価体系に育てます。検索は recall@k と MRR で、生成は LLM 判定者で採点し、ハルシネーション率まで一度に測る評価スクリプトを作って、すべての変更の回帰テストとして回します。

2026年6月22日月曜日読了 5分

正解のチャンクを渡したのに答えが間違う生成の失敗を扱います。根拠の中だけで答えさせるプロンプト、「わからない」と答える権利、そして Claude の citations 機能で文ごとに出典を付ける方法まで実装します。

2026年6月21日日曜日読了 5分

ユーザーの質問は検索に適した形ではありません。会話の文脈を反映するクエリリライティング、複数の角度から問うマルチクエリ、そして広く取ってきた候補を精密に絞り込むリランキングまで、検索の前段と後段を補強します。

2026年6月20日土曜日読了 5分

意味検索は製品コードや固有名詞に弱く、キーワード検索は同義語に弱いです。BM25 キーワード検索を作り、RRF でベクトル検索と組み合わせて、互いの弱点を補い合うハイブリッド検索を実装します。