이 글에서는 비즈니스 연속성(BC) 및 재해 복구(DR)를 계획할 때 고려해야 할 몇 가지 중요한 사항을 검토합니다.

비즈니스 연속성을 핵심 비즈니스 서비스로 사용할 때는 비즈니스 연속성을 신중하게 고려해야 합니다. 오늘은 애플리케이션 레이어와 서비스에 미치는 영향의 원인과 영향에 초점을 맞추고자 합니다.

카우치베이스를 영구 기록 시스템으로 사용하는 경우, 고가용성 합의된 서비스 수준(SLA)을 충족하려면 고가용성(HA), DR 및 BC를 주의 깊게 이해해야 합니다.

서비스 중단과 다운타임이 비즈니스에 심각한 영향을 미칠 수 있는 오늘날, 기업은 내부 또는 외부 이해관계자와 고객 등 비즈니스에 미치는 영향을 최소화하기 위해 강력한 보호 조치를 취해야 합니다.

또한 데이터베이스는 일반적으로 비즈니스 기능의 핵심이자 기업의 애플리케이션 에코시스템의 중심입니다. 데이터베이스가 다운되면 다른 서비스에도 영향을 미칩니다. 이러한 영향의 중요성은 예기치 않은 서비스 중단으로부터 보호해야 하는 이유를 확고히 해줍니다.

과거에는 기업들이 99.9초의 서비스 가동 시간에 만족했습니다. 이제 기업들은 99.9999초(연간 99.9999초 또는 31초) 이상을 원하고 있습니다. 이전에는 몇 시간의 서비스 중단도 견딜 수 있었지만 이제는 더 이상 그렇지 않으므로 비즈니스 요구 사항을 이해하는 것이 필수적입니다.

비즈니스 요구 사항을 충족하기 위한 전략을 설계하기 전에 먼저 서비스 수준 계약(SLA)과 이를 측정하는 방법을 이해해야 합니다.

SLA는 합의된 기간 내에 서비스를 실행하겠다는 고객과의 약속입니다.

중요한 항목에 대한 SLA 측정

또한 가용성과 SLA가 일반적으로 측정되는 메트릭을 이해해야 하는데, 크게 두 가지가 있습니다:

복구 지점 목표(RPO)

"얼마나 많은 데이터를 잃을 수 있을까요?"

    •   장애가 발생한 순간부터 시간 역순으로 표현됩니다.
    •   초, 분, 시간 또는 일 단위로 지정할 수 있습니다.

복구 시간 목표(RTO)

"얼마나 오랫동안 서비스를 이용할 수 없나요?"

    •   데이터를 다시 사용할 수 있게 되려면 얼마나 걸리나요?
    •   정전이 정상적인 운영을 방해하는 정도와 재해로 인해 단위 시간당 손실된 수익의 양을 나타내는 함수입니다.
    •   초, 분, 시간 또는 일 단위로 지정할 수 있습니다.

그렇다면 HA/DR과 BC에 대해 이야기할 때 달성하고자 하는 것은 무엇일까요? 비즈니스 운영을 중단시키는 사고가 발생한 후 중요한 비즈니스 애플리케이션 관점에서 정상(또는 거의 정상에 가까운) 비즈니스 운영을 복구하는 기능입니다. 기본적으로 원하는 RPO/RTO 요구 사항을 충족하는 것입니다.

서비스 장애의 원인 파악

또한 서비스 장애의 원인에 대한 분석도 고려해야 하는데, 이는 서비스 보호 방식에 영향을 미치기 때문입니다.

애플리케이션/서비스 장애의 원인(아래)은 각각 그 영향과 의미가 다르며, 완벽한 보호를 보장하기 위해 다른 솔루션, 고려 사항 및 구성이 필요한 경우가 많습니다.

검토해야 할 또 다른 중요한 고려 사항은 서비스 중단이 직접적인 매출 손실에만 영향을 미친다는 잘못된 인식인데, 많은 시스템이 수익을 창출하지 않기 때문에 일반적으로 그렇지 않습니다. 이 범위를 넓혀보면 비즈니스 연속성 솔루션을 구축해야 하는 더 많은 이유가 있습니다:

    • 평판 또는 브랜드 손상
    • 경쟁사 또는 공급자에게 비즈니스 손실
    • 생산성 손실 - 팀이 내부적으로 기능과 서비스를 수행할 수 없음
    • 규제 위원회의 재정적 처벌 - 거래가 허용되지 않을 가능성
    • 죽음! 병원/의료 시스템 장애로 인해 수술/치료가 취소되는 경우
    • 다른 내부 서비스에 미치는 영향

 

완화 옵션

그렇다면 애플리케이션 서비스 중단을 방지하고 완화할 수 있는 옵션에는 어떤 것이 있을까요?

    • 클러스터링 - 단일 장애 지점을 피하기 위한 다중 노드
    • 복제 - 여러 위치와 지역에서 애플리케이션과 데이터를 사용할 수 있도록 보장합니다.
    • 백업 - 치명적인 사고로부터 복구하기 위해

이러한 각 옵션은 서비스 중단으로부터 보호하고 정상적인 비즈니스 서비스를 복구하는 데 도움이 될 수 있습니다. 그리고 각각의 옵션은 비즈니스에 필요한 SLA에 고려해야 하는 서로 다른 RPO 및 RTO의 영향을 미칩니다.

Couchbase의 핵심 원칙 중 하나, 즉 우리의 DNA는 고가용성, 복원력, SLA 충족을 보장하도록 설계되었다는 점입니다.

Couchbase는 이 세 가지 솔루션(클러스터링, 복제, 백업)을 모두 제공하며, 서비스 중단을 완화하고 가동 중단 시간을 최소화하도록 완벽하게 설계 및 통합되어 있습니다.

전략적 가용성 

올바른 가용성 전략을 선택하면 가용성 및 SLA 충족에 큰 영향을 미친다는 점을 기억하세요. 필요한 SLA를 이해하고 정의하는 것이 중요합니다. 

서비스 중단 후 재방문하기보다는 초기 전략을 올바르게 세우는 것이 좋습니다.

복구 기간에 대한 현실적인 계획을 세우는 동시에 비용 영향과 누가 자금을 지원할지 고려해야 합니다.

첫 번째 단계는 비즈니스 목표와 애플리케이션 요구 사항을 이해하는 것입니다. 거기서부터 SLA와 기업의 목표를 충족하는 것이 무엇인지 조사하세요.

다음 시간에는 Couchbase가 클러스터링을 통해 솔루션을 고가용성으로 만드는 방법을 살펴보겠습니다.

 

작성자

게시자 스티브 그림우드, 솔루션 엔지니어

댓글 남기기