AWS Certified Solutions Architect - Associate (SAA-C03) #7 Domain 2-2 회복력 있는 아키텍처: DR 패턴
#6에서 단일 리전 안의 고가용성을 잡았습니다. 이번에는 한 단계 더 큰 장애, 즉 리전 전체가 마비되는 재해에 대비하는 재해 복구(Disaster Recovery, DR) 전략을 다룹니다. DR 문항은 항상 “얼마나 빨리 복구해야 하고(RTO), 얼마만큼의 데이터 손실을 감수할 수 있는가(RPO)“와 “비용을 얼마나 쓸 것인가"의 줄다리기입니다.
RTO와 RPO #
이 두 지표를 헷갈리면 DR 문항을 거의 틀립니다.
| 지표 | 의미 | 질문 |
|---|---|---|
| RTO (Recovery Time Objective) | 복구까지 걸리는 시간 | “장애 후 몇 분/시간 안에 복구되어야 하는가” |
| RPO (Recovery Point Objective) | 감수 가능한 데이터 손실량 | “마지막 백업 이후 얼마만큼의 데이터를 잃어도 되는가” |
RTO는 시간 축, RPO는 데이터(시점) 축입니다. RPO가 5분이면 최대 5분치 데이터만 잃어야 하므로, 그만큼 자주 복제,백업해야 합니다. RTO가 짧을수록 미리 더 많은 자원을 준비해 둬야 합니다. 둘 다 작게 하려면 비용이 올라갑니다.
네 가지 DR 전략 #
AWS의 표준 DR 전략은 비용과 복구 속도의 트레이드오프에 따라 네 단계로 나뉩니다. 위에서 아래로 갈수록 비용은 오르고 RTO/RPO는 짧아집니다.
| 전략 | 평소 상태 | RTO/RPO | 비용 |
|---|---|---|---|
| Backup & Restore | 데이터만 백업 | 가장 김(시간 단위) | 가장 쌈 |
| Pilot Light | 핵심(DB)만 최소 가동 | 짧음(수십 분) | 낮음 |
| Warm Standby | 축소판 전체가 항상 가동 | 더 짧음(분 단위) | 중간 |
| Multi-Site Active/Active | 양쪽 풀 가동 | 거의 0 | 가장 비쌈 |
1) Backup & Restore #
데이터를 백업해 두고, 재해 시 백업으로부터 인프라를 새로 띄워 복구합니다. 평소에는 백업 스토리지 비용만 듭니다. 가장 저렴하지만 복구에 가장 오래 걸립니다. “비용을 최소화하고, 복구 시간이 길어도 괜찮다"는 단서면 이 전략입니다.
2) Pilot Light #
엔진의 점화용 불씨처럼, 핵심 요소(주로 데이터베이스)만 항상 복제해 켜 두고 나머지(애플리케이션 서버 등)는 꺼 둡니다. 재해 시 꺼 둔 부분을 빠르게 기동합니다. DB가 이미 최신이므로 Backup & Restore보다 RPO,RTO가 짧습니다.
3) Warm Standby #
축소된 규모의 전체 환경이 항상 돌아갑니다. 재해 시 그 환경을 프로덕션 규모로 **확장(scale up)**만 하면 됩니다. Pilot Light가 “핵심만 켜 두고 나머지는 꺼 둠"이라면, Warm Standby는 “전체를 작게라도 켜 둠"입니다. 그만큼 더 빠르고 더 비쌉니다.
4) Multi-Site Active/Active (Hot Standby) #
두 리전 모두에 프로덕션 규모가 동시에 가동되며 실제 트래픽을 나눠 받습니다. 한쪽 리전이 죽어도 다른 쪽이 즉시 전부 받으므로 RTO/RPO가 거의 0입니다. 가장 비싸지만 무중단에 가깝습니다.
교차 리전 구현 수단 #
DR 전략을 실제로 구성하는 AWS 기능들입니다.
- Route 53 Failover 라우팅. 헬스 체크로 주(primary) 리전 장애를 감지해 보조(secondary) 리전으로 DNS를 전환합니다. DR 자동 전환의 표준입니다.
- RDS 교차 리전 읽기 복제본. 다른 리전에 읽기 복제본을 두고, 재해 시 승격(promote)합니다.
- Aurora Global Database. 여러 리전에 1초 미만 지연으로 복제. 리전 장애 시 빠른 승격.
- DynamoDB 글로벌 테이블. 다중 리전 active/active 복제. Multi-Site 패턴에 적합.
- S3 교차 리전 복제(CRR). 객체를 다른 리전 버킷으로 자동 복제.
“리전 장애 시 자동으로 다른 리전으로 전환"이라는 요구사항이면 Route 53 Failover + 교차 리전 복제의 조합이 답입니다.
시험 출제 패턴 #
- “비용 최소, 복구 시간이 길어도 됨.” → Backup & Restore
- “DB는 항상 복제, 앱 서버는 재해 시 기동.” → Pilot Light
- “축소판 전체가 떠 있고 재해 시 확장.” → Warm Standby
- “거의 무중단, 비용 무관, RTO/RPO≈0.” → Multi-Site Active/Active
- “리전 장애 시 자동 DNS 전환.” → Route 53 Failover 라우팅
- “다중 리전 active/active DB.” → DynamoDB 글로벌 테이블 / Aurora Global
- “RTO와 RPO 중 데이터 손실량은?” → RPO
자주 만나는 함정 #
1) RTO와 RPO를 바꿔 생각 #
RTO는 시간, RPO는 **데이터 손실(시점)**입니다. “최대 몇 분치 데이터를 잃어도 되는가"는 RPO입니다.
2) Pilot Light와 Warm Standby 혼동 #
Pilot Light는 핵심(DB)만 켜 두고 나머지는 꺼 둡니다. Warm Standby는 전체를 축소 규모로 항상 켜 둡니다.
3) 모든 시스템에 Multi-Site를 권한다 #
Multi-Site는 가장 비쌉니다. 요구사항이 “비용 최소"나 “복구 시간 여유 있음"이면 과한 설계입니다. RTO/RPO 요구에 맞는 최소 비용 전략을 골라야 합니다.
4) Route 53 없이 자동 전환을 기대 #
교차 리전 자동 장애 전환은 보통 Route 53 헬스 체크 + Failover 라우팅이 담당합니다.
정리 #
이번 글에서 잡은 것:
- RTO=복구 시간, RPO=데이터 손실량. 둘 다 작게 하면 비용 상승
- 네 전략. Backup & Restore(저렴,느림) → Pilot Light(핵심만) → Warm Standby(축소판 전체) → Multi-Site(풀 가동,무중단)
- 요구된 RTO/RPO에 맞는 최소 비용 전략을 선택하는 것이 정답의 핵심
- 교차 리전. Route 53 Failover + RDS 교차 복제 / Aurora Global / DynamoDB 글로벌 테이블 / S3 CRR
다음: Domain 2-3 백업 전략 #
DR 전략의 토대는 결국 믿을 수 있는 백업입니다. 회복력 도메인의 마지막으로 백업을 다룹니다.
#8 Domain 2-3 백업 전략에서는 EBS 스냅샷(증분,교차 리전 복사)과 Data Lifecycle Manager, RDS 자동 백업과 시점 복구(PITR), 그리고 여러 서비스의 백업을 중앙에서 관리하는 AWS Backup과 불변 백업(Vault Lock)까지 정리하겠습니다.