본문 바로가기
B2B IT 보안

클라우드 DR 실전 아키텍처: AWS와 Azure로 구현하는 완벽한 재해복구

by 에디터 노드 2026. 6. 15.
728x90

📢 [연재 가이드] 엔터프라이즈 클라우드 생존 가이드: 완벽한 DR 전략

▷ 1편: 비즈니스 연속성을 위한 RPO·RTO 설정과 클라우드 DR의 필요성

▶ 2편: AWS / Azure 환경을 활용한 재해복구 아키텍처 설계법 (현재 글)

▷ 3편: 기업용 랜섬웨어 방어: 불변성 백업(Immutable Backup) 구축 가이드 (완료)

▷ 4편: DR 모의훈련(Drill) 가이드와 장애 전환(Failover) 성공 사례 (예정)

지난 1편에서는 비즈니스 연속성을 지키기 위한 재해복구(DR)의 필요성과 핵심 지표인 RPO(목표 복구 시점) 및 RTO(목표 복구 시간)에 대해 알아보았습니다. 이론적으로 우리 기업에 맞는 RPO와 RTO를 산정했다면, 이제는 이를 실제 클라우드 환경에 구현해야 할 차례입니다.

글로벌 클라우드 시장을 양분하고 있는 AWS(Amazon Web Services)Microsoft Azure는 엔터프라이즈급 기업들이 온프레미스나 타 클라우드 환경에 위치한 주 시스템의 장애에 대비할 수 있도록 강력하고 다양한 DR 서비스와 아키텍처 레퍼런스를 제공하고 있습니다.

오늘은 인프라 엔지니어와 IT 아키텍트의 관점에서, 예산과 복구 목표에 맞춰 선택할 수 있는 대표적인 DR 아키텍처 전략(Pilot Light, Warm Standby)을 AWS와 Azure의 실제 서비스 컴포넌트를 활용해 어떻게 설계하는지 상세히 분석해 보겠습니다.


💡 [핵심 요약]

  • Pilot Light (파일럿 라이트): 평상시에는 데이터베이스(DB)만 클라우드에 지속적으로 동기화하고, 웹/WAS 등 컴퓨팅 자원은 꺼두는 방식입니다. 장애 발생 시 인스턴스를 부팅하고 트래픽을 라우팅하므로 비용이 저렴하지만 RTO가 수십 분 소요됩니다.
  • Warm Standby (웜 스탠바이): 주 환경의 '축소판'을 클라우드에 항상 켜두는 방식입니다. 장애 발생 시 즉각적으로 트래픽을 우회(Failover)하고 오토 스케일링을 통해 리소스를 확장하므로 RTO가 매우 짧습니다.
  • 핵심 서비스: AWS 환경에서는 Amazon Route 53, AWS DRS(Elastic Disaster Recovery)를 주로 활용하며, Azure 환경에서는 Azure Traffic Manager, Azure Site Recovery(ASR)를 핵심 축으로 아키텍처를 구성합니다.

1. AWS 환경의 재해복구 아키텍처 설계

AWS는 전 세계에 분산된 리전(Region)과 가용 영역(AZ)을 바탕으로 뛰어난 회복 탄력성을 제공합니다. 온프레미스 메인 센터의 재해를 AWS 리전으로 복구하거나, AWS 특정 리전의 장애를 다른 AWS 리전으로 복구하는 크로스 리전(Cross-Region) DR 모두 설계 가능합니다.

⚙️ 전략 A: 파일럿 라이트 (Pilot Light) in AWS

핵심 데이터만 살려두고 인프라 뼈대만 갖춰두는 가장 가성비 좋은 방식입니다.

  • 데이터베이스 동기화: 주 센터의 메인 DB 데이터를 AWS의 Amazon RDSAurora의 '읽기 전용 복제본(Read Replica)' 또는 스탠바이 인스턴스로 지속적으로 복제합니다.
  • 컴퓨팅 리소스: 웹 서버(EC2)는 Amazon Machine Image (AMI) 형태로 저장만 해두고 인스턴스를 실행하지 않습니다.
  • 네트워크 라우팅: Amazon Route 53 (DNS 서비스)에 상태 검사(Health Check)를 설정해 둡니다.
  • 장애 발생 시 흐름 (Failover): 1. 주 센터 장애를 Route 53이 감지합니다.
    1. AWS 환경에서 AMI를 기반으로 EC2 인스턴스를 실행(Spin-up)합니다.
    2. RDS의 읽기 전용 복제본을 마스터 DB로 승격(Promote)시킵니다.
    3. Route 53이 사용자 트래픽을 새로 켜진 AWS 인프라로 우회시킵니다.

⚙️ 전략 B: 웜 스탠바이 (Warm Standby) in AWS

RTO를 수 분 이내로 단축해야 하는 비즈니스 크리티컬 애플리케이션에 적합합니다.

  • 아키텍처 구성: 주 센터와 동일한 구성이지만 크기만 줄인(예: 주 센터가 서버 10대라면 DR 센터는 최소 사양 2대) 인프라를 AWS에 상시 구동합니다.
  • 오토 스케일링 활용: 트래픽이 평소에는 주 센터로 100% 향하지만, 장애 발생 시 Amazon Route 53이 트래픽을 AWS의 Elastic Load Balancing (ELB)으로 100% 넘깁니다.
  • 장애 발생 시 흐름: 트래픽이 유입되면 Amazon EC2 Auto Scaling 그룹이 트리거되어 축소되어 있던 2대의 서버가 순식간에 10대로 확장(Scale-out)되며 정상적인 서비스를 제공합니다. DB 승격 절차는 파일럿 라이트와 동일합니다.

🚀 차세대 솔루션: AWS DRS (Elastic Disaster Recovery)

최근 AWS는 복잡한 스크립트 작성 없이 DR 환경을 자동화하는 AWS DRS 서비스를 강력히 밀고 있습니다. 주 센터의 서버에 에이전트를 설치하면, OS 단위의 블록 수준 데이터를 AWS의 저렴한 스테이징 영역(Staging Area)에 지속적으로 복제합니다. 장애 선포 버튼을 누르면 단 몇 분 만에 완벽한 구성의 EC2 인스턴스를 자동으로 생성해주어 실무자의 관리 부담을 획기적으로 줄여줍니다.


2. Microsoft Azure 환경의 재해복구 아키텍처 설계

엔터프라이즈 시장에서 특히 Windows Server와 MS-SQL 기반 시스템을 다수 운영하는 기업이라면 Azure를 타겟으로 한 재해복구가 기술적 정합성 면에서 유리합니다.

⚙️ 핵심 서비스: Azure Site Recovery (ASR)

Azure DR 아키텍처의 알파와 오메가는 Azure Site Recovery (ASR)입니다. AWS DRS와 유사하게 온프레미스 가상 머신(VMware, Hyper-V)이나 물리적 서버, 심지어 타사 클라우드(AWS EC2)의 워크로드까지 Azure 리전으로 지속적으로 복제하고 관리하는 BCDR(비즈니스 연속성 및 재해 복구) 전용 서비스입니다.

  • 파일럿 라이트 구현 (ASR 활용): ASR을 사용하면 평상시에는 데이터만 스토리지에 동기화되므로 컴퓨팅(VM) 요금이 발생하지 않습니다. 장애가 발생하면 ASR 복구 계획(Recovery Plan)이 실행되어 사전에 정의된 순서대로 VM들이 부팅됩니다.
  • DB 동기화: Azure SQL Database의 활성 지역 복제(Active Geo-Replication) 기능이나 SQL Server Always On 가용성 그룹을 사용하여 RPO 0에 가까운 데이터 보호가 가능합니다.

⚙️ 트래픽 라우팅: Azure Traffic Manager

AWS에 Route 53이 있다면 Azure에는 Azure Traffic Manager가 있습니다. DNS 기반 트래픽 로드 밸런서로, 전 세계 사용자 트래픽을 최적의 엔드포인트로 라우팅합니다.

  • 장애 조치(Failover) 라우팅: 주 지역(Primary Region)과 보조 지역(Secondary/DR Region)을 설정해 둡니다. Traffic Manager가 지속적으로 주 지역의 헬스 체크를 수행하다가 응답이 없으면 즉각적으로 DNS 레코드를 업데이트하여 대기 중인 보조 지역(Azure DR 환경)으로 트래픽을 자동 전환합니다.

3. 아키텍처 설계 시 반드시 고려해야 할 실무 체크포인트

클라우드 벤더가 제공하는 훌륭한 툴이 있더라도, 완벽한 재해복구를 위해서는 아키텍처 설계 단계에서 다음 사항을 반드시 검토해야 합니다.

  1. 라이선스(License) 이동성: 온프레미스에서 사용 중인 상용 SW(오라클 DB, 각종 미들웨어 솔루션 등) 라이선스를 클라우드 DR 환경으로 가져갈 수 있는지(BYOL: Bring Your Own License) 파악해야 합니다. 장애 시 급하게 켰는데 라이선스 인증 실패로 서비스가 안 올라오는 경우가 허다합니다.
  2. 네트워크 대역폭과 VPN/Direct Connect: 대용량의 데이터를 끊임없이 클라우드로 복제하려면 충분한 네트워크 대역폭이 필수입니다. 퍼블릭 인터넷 망을 쓰면 보안 위험과 속도 지연이 발생하므로, AWS Direct ConnectAzure ExpressRoute 같은 전용선 도입을 예산에 포함해야 합니다.
  3. 의존성(Dependency) 매핑: 웹 서버가 켜지기 전에 DB 서버가 먼저 켜져야 하고, WAS 서버가 켜져야 하는 '부팅 순서'가 존재합니다. AWS DRS나 Azure ASR의 복구 계획(Recovery Plan) 설정 시 이 의존성을 정확히 스크립팅해 두어야 패닉 상태를 막을 수 있습니다.

4. 결론 및 다음 편 예고

AWS와 Azure 모두 유연하고 강력한 클라우드 DR 도구를 제공하지만, "어떤 클라우드가 더 좋다"기보다는 현재 우리 회사의 레거시 인프라 구성, 사용 중인 OS 및 DB의 종류, 그리고 IT 팀의 클라우드 숙련도에 따라 적합한 CSP(Cloud Service Provider)를 선택해야 합니다. Pilot Light로 시작하여 점진적으로 Warm Standby로 고도화하는 것이 엔터프라이즈 기업의 일반적이고 안전한 도입 방식입니다.

지금까지 시스템 장애와 재난에 대비한 인프라 관점의 DR 아키텍처를 알아보았습니다. 하지만 최근 기업의 존폐를 위협하는 가장 큰 적은 물리적 재난이 아닌 '랜섬웨어(Ransomware)'입니다.

다음 [3편]에서는 해커가 관리자 권한을 탈취하더라도 절대 데이터를 지우거나 암호화할 수 없는 궁극의 방어 기술, 불변성 백업(Immutable Backup)의 원리와 구축 가이드에 대해 깊이 있게 파헤쳐 보겠습니다.


자주 묻는 질문 (Q&A)

Q1. 클라우드 간 DR (Multi-Cloud DR)도 가능한가요? (예: AWS를 메인으로, Azure를 DR로)
A1. 기술적으로는 가능하며 벤더 종속성(Lock-in)을 피하기 위해 시도하는 기업도 있습니다. 하지만 두 클라우드 간의 아키텍처 철학, 네트워크 구조, IAM(권한 관리) 체계가 달라 운영 복잡도가 극도로 높아지고 네트워크 데이터 전송 비용(Egress Fee)이 이중으로 발생할 수 있어 고도의 숙련된 인력이 없는 한 권장하지 않습니다.

Q2. DR 환경으로 Failover(장애 전환) 후, 원래 메인 센터가 복구되면 어떻게 돌아오나요?
A2. 이를 페일백(Failback)이라고 부릅니다. 클라우드 DR에서 운영되는 동안 새롭게 생성된 최신 데이터를 다시 복구된 메인 센터로 역방향 동기화한 뒤, 트래픽을 다시 메인 센터로 돌리는 섬세한 작업입니다. AWS DRS나 Azure ASR 모두 페일백 기능을 지원하지만, 페일오버보다 훨씬 까다롭기 때문에 반드시 모의훈련 단계에서 점검해야 합니다.

Q3. 파일럿 라이트 방식에서 인스턴스 스핀업 시 OS 부팅 외에 데이터 로딩 시간도 RTO에 포함해야 하나요?
A3. 매우 정확한 지적입니다. OS만 켜졌다고 서비스가 되는 것이 아닙니다. 애플리케이션 초기화, 캐시 데이터 워밍업(Warming-up), DNS 전파 시간까지 모두 RTO에 포함하여 계산해야 실질적인 비즈니스 복구 시간을 보장할 수 있습니다.


728x90
반응형