AWS Certified Solutions Architect - Associate (SAA-C03) #7 Domain 2-2 회복력 있는 아키텍처: DR 패턴

5 분 소요

#6에서 단일 리전 안의 고가용성을 잡았습니다. 이번에는 한 단계 더 큰 장애, 즉 리전 전체가 마비되는 재해에 대비하는 재해 복구(Disaster Recovery, DR) 전략을 다룹니다. DR 문항은 항상 “얼마나 빨리 복구해야 하고(RTO), 얼마만큼의 데이터 손실을 감수할 수 있는가(RPO)“와 “비용을 얼마나 쓸 것인가"의 줄다리기입니다.

RTO와 RPO #

이 두 지표를 헷갈리면 DR 문항을 거의 틀립니다.

지표의미질문
RTO (Recovery Time Objective)복구까지 걸리는 시간“장애 후 몇 분/시간 안에 복구되어야 하는가”
RPO (Recovery Point Objective)감수 가능한 데이터 손실량“마지막 백업 이후 얼마만큼의 데이터를 잃어도 되는가”

RTO는 시간 축, RPO는 데이터(시점) 축입니다. RPO가 5분이면 최대 5분치 데이터만 잃어야 하므로, 그만큼 자주 복제,백업해야 합니다. RTO가 짧을수록 미리 더 많은 자원을 준비해 둬야 합니다. 둘 다 작게 하려면 비용이 올라갑니다.

네 가지 DR 전략 #

AWS의 표준 DR 전략은 비용과 복구 속도의 트레이드오프에 따라 네 단계로 나뉩니다. 위에서 아래로 갈수록 비용은 오르고 RTO/RPO는 짧아집니다.

전략평소 상태RTO/RPO비용
Backup & Restore데이터만 백업가장 김(시간 단위)가장 쌈
Pilot Light핵심(DB)만 최소 가동짧음(수십 분)낮음
Warm Standby축소판 전체가 항상 가동더 짧음(분 단위)중간
Multi-Site Active/Active양쪽 풀 가동거의 0가장 비쌈

1) Backup & Restore #

데이터를 백업해 두고, 재해 시 백업으로부터 인프라를 새로 띄워 복구합니다. 평소에는 백업 스토리지 비용만 듭니다. 가장 저렴하지만 복구에 가장 오래 걸립니다. “비용을 최소화하고, 복구 시간이 길어도 괜찮다"는 단서면 이 전략입니다.

2) Pilot Light #

엔진의 점화용 불씨처럼, 핵심 요소(주로 데이터베이스)만 항상 복제해 켜 두고 나머지(애플리케이션 서버 등)는 꺼 둡니다. 재해 시 꺼 둔 부분을 빠르게 기동합니다. DB가 이미 최신이므로 Backup & Restore보다 RPO,RTO가 짧습니다.

3) Warm Standby #

축소된 규모의 전체 환경이 항상 돌아갑니다. 재해 시 그 환경을 프로덕션 규모로 **확장(scale up)**만 하면 됩니다. Pilot Light가 “핵심만 켜 두고 나머지는 꺼 둠"이라면, Warm Standby는 “전체를 작게라도 켜 둠"입니다. 그만큼 더 빠르고 더 비쌉니다.

4) Multi-Site Active/Active (Hot Standby) #

두 리전 모두에 프로덕션 규모가 동시에 가동되며 실제 트래픽을 나눠 받습니다. 한쪽 리전이 죽어도 다른 쪽이 즉시 전부 받으므로 RTO/RPO가 거의 0입니다. 가장 비싸지만 무중단에 가깝습니다.

교차 리전 구현 수단 #

DR 전략을 실제로 구성하는 AWS 기능들입니다.

  • Route 53 Failover 라우팅. 헬스 체크로 주(primary) 리전 장애를 감지해 보조(secondary) 리전으로 DNS를 전환합니다. DR 자동 전환의 표준입니다.
  • RDS 교차 리전 읽기 복제본. 다른 리전에 읽기 복제본을 두고, 재해 시 승격(promote)합니다.
  • Aurora Global Database. 여러 리전에 1초 미만 지연으로 복제. 리전 장애 시 빠른 승격.
  • DynamoDB 글로벌 테이블. 다중 리전 active/active 복제. Multi-Site 패턴에 적합.
  • S3 교차 리전 복제(CRR). 객체를 다른 리전 버킷으로 자동 복제.

“리전 장애 시 자동으로 다른 리전으로 전환"이라는 요구사항이면 Route 53 Failover + 교차 리전 복제의 조합이 답입니다.

시험 출제 패턴 #

  • 비용 최소, 복구 시간이 길어도 됨.” → Backup & Restore
  • DB는 항상 복제, 앱 서버는 재해 시 기동.” → Pilot Light
  • 축소판 전체가 떠 있고 재해 시 확장.” → Warm Standby
  • 거의 무중단, 비용 무관, RTO/RPO≈0.” → Multi-Site Active/Active
  • “리전 장애 시 자동 DNS 전환.” → Route 53 Failover 라우팅
  • “다중 리전 active/active DB.” → DynamoDB 글로벌 테이블 / Aurora Global
  • “RTO와 RPO 중 데이터 손실량은?” → RPO

자주 만나는 함정 #

1) RTO와 RPO를 바꿔 생각 #

RTO는 시간, RPO는 **데이터 손실(시점)**입니다. “최대 몇 분치 데이터를 잃어도 되는가"는 RPO입니다.

2) Pilot Light와 Warm Standby 혼동 #

Pilot Light는 핵심(DB)만 켜 두고 나머지는 꺼 둡니다. Warm Standby는 전체를 축소 규모로 항상 켜 둡니다.

3) 모든 시스템에 Multi-Site를 권한다 #

Multi-Site는 가장 비쌉니다. 요구사항이 “비용 최소"나 “복구 시간 여유 있음"이면 과한 설계입니다. RTO/RPO 요구에 맞는 최소 비용 전략을 골라야 합니다.

4) Route 53 없이 자동 전환을 기대 #

교차 리전 자동 장애 전환은 보통 Route 53 헬스 체크 + Failover 라우팅이 담당합니다.

정리 #

이번 글에서 잡은 것:

  • RTO=복구 시간, RPO=데이터 손실량. 둘 다 작게 하면 비용 상승
  • 네 전략. Backup & Restore(저렴,느림) → Pilot Light(핵심만) → Warm Standby(축소판 전체) → Multi-Site(풀 가동,무중단)
  • 요구된 RTO/RPO에 맞는 최소 비용 전략을 선택하는 것이 정답의 핵심
  • 교차 리전. Route 53 Failover + RDS 교차 복제 / Aurora Global / DynamoDB 글로벌 테이블 / S3 CRR

다음: Domain 2-3 백업 전략 #

DR 전략의 토대는 결국 믿을 수 있는 백업입니다. 회복력 도메인의 마지막으로 백업을 다룹니다.

#8 Domain 2-3 백업 전략에서는 EBS 스냅샷(증분,교차 리전 복사)과 Data Lifecycle Manager, RDS 자동 백업과 시점 복구(PITR), 그리고 여러 서비스의 백업을 중앙에서 관리하는 AWS Backup과 불변 백업(Vault Lock)까지 정리하겠습니다.

X