vSAN은 호스트 장애, 스토리지 디바이스 장애, 네트워크 파티션 등 무수히 많은 잠재적 장애에 대응할 수 있도록 데이터를 복원력 있는 방식으로 저장합니다. 장애가 식별되면 복원력이 낮은 데이터를 자동으로 재구성하거나 다시 동기화하여 규정된 수준의 복원력을 회복할 수 있도록 합니다.

수년에 걸쳐 VMware는 이 데이터를 더 빠르고 효율적으로, 그리고 최소한의 침습적인 방식으로 재동기화하는 몇 가지 메커니즘을 개발해 왔습니다. 그러나 이러한 개선 사항으로는 OSA(Original Storage Architecture)의 한 가지 특징인 스토리지 디바이스 장애 처리를 해결할 수 없었습니다: 바로 상대적으로 큰 영향 범위입니다.

vSAN ESA의 여러 설계 목표 중 하나는 스토리지 디바이스 장애 또는 유지 보수 이벤트 발생 시 데이터와 리소스에 미치는 영향의 범위를 줄이는 것이었습니다. 스토리지 디바이스의 장애 또는 유지 보수 영역을 최소화하면 영향을 받는 데이터의 양이 줄어들 뿐만 아니라 규정된 수준의 복원력을 회복하는 데 소비되는 데이터, 시간 및 리소스의 양도 줄어듭니다.

하지만 이러한 개선은 피할 수 없는 질문으로 이어집니다. ESA가 기존 스토리지 아키텍처에 비해 스토리지 디바이스 장애를 얼마나 더 잘 처리할 수 있을까요? ESA가 이러한 개선을 달성하는 방법을 살펴보고, 몇 가지 간단한 예를 통해 ESA가 OSA에 비해 어느 정도 개선된 기능을 제공하는지 이해해 보겠습니다.

장애의 경계 축소

vSAN의 첫 번째 버전부터 디스크 그룹이라는 개념이 OSA에서 vSAN 클러스터에 스토리지 리소스를 제공하는 데 사용되었습니다. 호스트의 각 디스크 그룹은 하나의 고성능 캐싱/버퍼링 디바이스와 하나 이상의 가치 기반 용량 디바이스로 구성되어 성능과 용량을 혼합하여 제공합니다. 모든 I/O는 디스크 그룹의 용량 디바이스에 저장되기 전에 캐싱/버퍼링 디바이스를 통해 퍼널링됩니다.

고성능 NVMe 스토리지 디바이스와 ESA의 아키텍처적 차이점을 결합한 덕분에 VMware는 디스크 그룹의 한계와 복잡성을 없앨 수 있었습니다. 따라서 디스크 그룹에 몇 개의 디바이스를 포함할지, 어떤 디바이스를 캐싱으로 사용할지, 용량에 따라 어떤 디바이스를 사용할지 더 이상 결정할 필요가 없으므로 ESA를 훨씬 더 쉽게 구성하고 운영할 수 있습니다. 원하는 디바이스를 vSAN ESA와 함께 사용하도록 요청하기만 하면 나머지는 자동으로 처리됩니다.

그러나 ESA가 클레임된 스토리지 디바이스를 사용하는 방식에는 더 중요한 또 다른 특성이 있습니다. vSAN ESA에서 클레임된 모든 스토리지 디바이스는 서로 독립적으로 유지됩니다. 용량 디바이스가 캐싱 디바이스, 때로는 디스크 그룹의 다른 디바이스에 종속되는 디스크 그룹과 달리, vSAN ESA에서 사용하는 NVMe 기반 스토리지 디바이스는 데이터와 메타데이터를 서로 독립적으로 저장합니다. 즉, 호스트의 스토리지 디바이스 간에 종속성이 없습니다.

ESA에서 사용하는 접근 방식은 유지 관리 활동과 개별 스토리지 디바이스의 장애 시나리오 모두에 대한 영향 범위를 축소합니다. 아래 예시는 ESA 클러스터와 비교하여 OSA 클러스터에서 개별 장치 장애가 얼마나 효과적으로 개선되는지 보여줍니다. 이는 이론적인 계산이며, 명확성을 위해 반올림된 숫자를 사용하여 비교를 단순화했습니다. 이 계산은 다음을 가정합니다:

  • OSA 클러스터와 ESA 클러스터의 호스트는 가능한 한 유사한 하드웨어를 사용합니다.
  • 각 디바이스의 평균 용량 소비량은 약 50%입니다.
  • 두 환경 모두 클러스터에 최소 7개의 호스트가 있는 RAID-6 삭제 코딩으로 데이터를 저장합니다. (규정된 수준의 복원력을 회복할 수 있는 충분한 용량 및/또는 장애 도메인을 보장합니다).
  • OSA의 용량 장치는 호스트의 각 디스크 그룹에 6개의 용량 장치를 사용하여 구성되며, 예제에 따라 총 2개의 디스크 그룹 또는 4개의 디스크 그룹으로 구성됩니다.
  • OSA는 디스크 그룹당 캐싱/버퍼링 장치 역할을 하는 추가 장치를 사용합니다.
  • OSA 호스트에서 장치에 장애가 발생하면 캐싱/버퍼링 장치에 장애가 발생합니다. OSA에서 중복 제거 및 압축 서비스가 활성화된 경우 용량 장치에 장애가 발생해도 비슷한 결과가 발생합니다.
  • ESA 클러스터의 I/O 처리의 유효 성능은 OSA 클러스터 호스트 성능의 2배입니다. 사용된 예시를 감안할 때 이는 보수적인 추정치입니다.
  • 네트워킹은 두 환경 모두에서 병목 현상이 발생하지 않습니다.
  • 계산의 명확성과 단순성을 위해 다른 변수는 생략했습니다.

호스트당 12개의 스토리지 디바이스 사용 예시

그림 2에 표시된 예제에서 OSA 클러스터와 ESA 클러스터의 호스트는 용량을 위해 8TB 스토리지 디바이스 12개를 사용하여 호스트당 약 96TB의 원시 용량을 제공합니다. 용량의 50%를 사용한다고 가정하면 각 클러스터의 각 호스트에 약 48TB의 데이터가 저장되어 있습니다.

vSAN OSA 호스트: 이 예시에서 OSA를 실행하는 클러스터 내의 호스트에서 스토리지 디바이스에 장애가 발생한 경우, 캐싱/버퍼링 디바이스가 전체 디스크 그룹을 제거하므로 영향을 받는 호스트 용량의 비율은 50%이고, 영향 영역은 24TB의 데이터가 됩니다. 데이터는 계속 사용할 수 있지만 규정된 수준의 복원력을 회복하려면 클러스터의 다른 곳에서 24TB를 다시 동기화해야 합니다.

vSAN ESA 호스트: 이 예시에서는 vSAN이 주장하는 모든 스토리지 디바이스에 장애가 발생할 수 있으며, 그 영향 영역은 4TB의 데이터에 불과합니다. 이는 규정된 수준의 복원력을 회복하기 위해 다시 동기화해야 하는 데이터의 양이 83% 감소한 것입니다. 이는 그 자체로도 엄청난 절감 효과입니다. 그러나 ESA가 OSA에 비해 2배의 성능 우위를 가지고 있다고 가정하면, 규정된 수준의 복원력을 회복하는 데 걸리는 시간이 약 92% 단축됩니다. 즉, 스토리지 디바이스에 유사한 장애가 발생했을 때 규정된 수준의 복원력을 회복하는 데 걸리는 시간이 OSA에 비해 ESA에서 약 1/10로 줄어듭니다.

호스트당 24개의 스토리지 디바이스 사용 예시

그림 3에 표시된 예제에서 OSA 클러스터와 ESA 클러스터의 호스트는 용량에 8TB 스토리지 디바이스 24개를 사용하며, 호스트당 약 192TB의 원시 용량을 제공합니다. 용량의 50%를 사용한다고 가정하면 각 클러스터의 각 호스트에 약 96TB의 데이터가 저장되어 있습니다.

vSAN OSA 호스트: 이전 예와 달리 디스크 그룹이 2개가 아닌 4개가 사용되므로 영향을 받는 호스트 용량의 비율은 50%에서 25%로 감소합니다. 그러나 영향 영역은 여전히 24TB의 데이터이며 규정된 수준의 복원력을 회복하려면 클러스터의 다른 곳에서 다시 동기화해야 합니다.

vSAN ESA 호스트: 이 예에서는 청구된 모든 스토리지 디바이스에 장애가 발생할 수 있으며, 영향 영역은 4TB의 데이터에 불과합니다. 첫 번째 예와 마찬가지로 규정된 수준의 복원력을 회복하기 위해 다시 동기화해야 하는 데이터의 양이 83% 감소합니다. 첫 번째 예와 마찬가지로, 재동기화해야 하는 데이터의 양이 83% 감소하고 규정된 수준의 복원력을 회복하는 데 걸리는 시간이 약 92% 단축됩니다.

따라서 호스트 구성 및 기타 변수에 따라 결과 개선 사항이 변경될 수 있지만 vSAN의 ESA는 훨씬 더 효율적이고 영향이 적은 방식으로 디바이스 장애 또는 유지 관리 활동을 수용할 수 있습니다.

요약

가장 빠른 재동기화는 발생하지 않는 동기화입니다. 개별 스토리지 디바이스 장애가 디바이스 자체에만 미치는 영향을 최소화하도록 설계된 vSAN ESA의 설계는 모든 새로운 클러스터 새로 고침에 vSAN ESA를 사용해야 하는 또 다른 이유입니다.

출처 : https://core.vmware.com/blog/impact-storage-device-failure-vsan-esa-versus-osa

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다

You May Also Like

vSAN 7 업데이트 2의 새로운 기능

30,000명 이상의 고객이 있는 vSAN은 계속해서 혁신을 거듭하고 있다. 고객의 효율성, 성능 또는 복원력을 저하시키지 않고 역동적인 비즈니스…

Multitenancy in vSAN

소개 서비스 제공업체 또는 둘 이상의 고객 또는 테넌트에게 리소스를 제공하는 조직은 데이터센터 설계 및 운영의 일반적인 관심사를…