AI
LLM 앱 운영 #7 실전: 문서 Q&A 봇을 프로덕션으로
시리즈의 다섯 축을 운영 체크리스트로 묶어 문서 Q&A 봇에 적용합니다. 계측, 라우팅, 캐싱, 배칭, 신뢰성, 보안을 하나씩 켜며 요청당 비용과 안정성이 어떻게 달라지는지 확인하고, 네 시리즈에 걸친 AI 트랙을 마무리합니다.
LLM 앱 운영 #6 보안 — 프롬프트 인젝션과 데이터 경계
프롬프트 인젝션은 입력 텍스트로 앱의 동작을 바꾸려는 시도이고, RAG와 에이전트 시대에는 문서와 도구 결과를 타고 들어옵니다. 단일 방어선이 아닌 겹겹의 방어, 도구 권한 최소화, 출력 검증, 로깅의 데이터 경계까지 다룹니다.
LLM 앱 운영 #5 신뢰성 — 레이트리밋, 재시도, 폴백
429와 529는 장애가 아니라 일상입니다. 레이트리밋의 구조(RPM·토큰 한도), retry-after를 존중하는 재시도, 타임아웃과 스트리밍, 그리고 그래도 안 될 때의 폴백(모델 강등·큐잉·정중한 실패)까지 멈추지 않는 구조를 만듭니다.
LLM 앱 운영 #4 배칭 — 급하지 않은 작업은 반값에
당장 답이 필요 없는 작업까지 실시간 API로 보내고 있지 않은가요. Batches API는 대량 요청을 비동기로 처리하는 대신 모든 토큰을 50% 할인합니다. 배치에 맞는 작업 고르기, 제출과 수거, 운영 패턴까지 다룹니다.
LLM 앱 운영 #3 프롬프트 캐싱 실전
매 요청 반복되는 시스템 프롬프트와 도구 정의를 캐싱하면 그 구간의 입력 비용이 10분의 1이 됩니다. 접두사 일치라는 대원칙, 안정 접두사 설계, cache_control 배치, 침묵의 캐시 무효화를 찾는 감사까지 다룹니다.
LLM 앱 운영 #2 비용 — 토큰 회계와 모델 라우팅
비용 절감의 가장 큰 지렛대는 모델 선택입니다. count_tokens로 보내기 전에 재기, 출력 길이 다이어트, 작업 난이도별 모델 라우팅 설계, effort 조절까지. 품질을 지키면서 비용을 내리는 순서를 다룹니다.
LLM 앱 운영 #1 데모와 프로덕션 사이 — 운영의 지도
동작하는 LLM 앱과 운영할 수 있는 LLM 앱은 다릅니다. 비용, 지연, 신뢰성, 품질, 보안이라는 다섯 축으로 운영의 지도를 그리고, 모든 것의 출발점인 요청 단위 계측부터 만듭니다.
RAG 심화 #7 실전 프로젝트: 문서 Q&A 봇 업그레이드
LLM 앱 개발 실전 13편의 사내 문서 Q&A 봇을 시리즈의 기법으로 단계별로 업그레이드합니다. 기준선 측정부터 청킹 교체, 하이브리드 검색, 리랭킹, 인용까지 적용하며 지표가 어떻게 움직이는지 확인합니다.
RAG 심화 #6 RAG 평가 파이프라인 만들기
1편의 기준선을 평가 체계로 키웁니다. 검색은 recall@k와 MRR로, 생성은 LLM 판정자로 채점하고, 환각률까지 한 번에 재는 평가 스크립트를 만들어 모든 변경의 회귀 테스트로 돌립니다.
RAG 심화 #5 인용으로 환각 줄이기
정답 조각을 줬는데도 답이 틀리는 생성 실패를 다룹니다. 근거 안에서만 답하게 하는 프롬프트, 모른다고 답할 권리, 그리고 Claude의 citations 기능으로 문장마다 출처를 다는 방법까지 구현합니다.
RAG 심화 #4 쿼리 변환과 리랭킹
사용자의 질문은 검색에 좋은 형태가 아닙니다. 대화 맥락을 반영한 쿼리 리라이팅, 여러 각도로 묻는 멀티 쿼리, 그리고 넓게 가져온 후보를 정밀하게 추리는 리랭킹까지, 검색의 앞단과 뒷단을 보강합니다.
RAG 심화 #3 하이브리드 검색 — 벡터와 키워드 결합
의미 검색은 제품 코드와 고유 명사에 약하고, 키워드 검색은 동의어에 약합니다. BM25 키워드 검색을 만들고 RRF로 벡터 검색과 결합해서, 두 방식이 서로 부족한 부분을 보완하는 하이브리드 검색을 구현합니다.