클라우드 데이터 웨어하우징이란 무엇이며 어떻게 작동하나요?
클라우드 데이터 웨어하우스는 데이터 처리, 대조, 통합, 정리, 로드, 보고 등 기존 데이터 웨어하우스에서 가능한 모든 기능을 수행하지만 퍼블릭 클라우드 환경 내에서 수행합니다. 주요 예로는 Microsoft Azure SQL Data Warehouse, Amazon Redshift, Teradata Vantage, Google Cloud의 BigQuery 및 Snowflake Cloud Data Platform이 있습니다.
온프레미스 데이터 웨어하우스와 마찬가지로 클라우드에 배포된 엔터프라이즈 데이터 웨어하우스는 일반적으로 정형 및 반정형 데이터에 중점을 둔 관계형 데이터베이스입니다. 이것은 다양한 고객 관계 관리(CRM), 전사적 자원 관리(ERP) 및 POS 애플리케이션과 유사한 유형입니다. 한편 비정형 데이터는 일반적으로 클라우드 기반일 수도 있는 데이터 레이크 프레임워크를 사용하여 집계됩니다.
가장 세분화된 수준에서 창고에 저장된 대부분의 데이터는 사실, 측정값 또는 차원으로 특정할 수 있습니다.
- 사실: 특정 이벤트 또는 거래와 연결된 데이터 포인트(예: "연봉 $48,000에서 월급 $4,000를 수령한 John Smith").
- 측정값: 사실과 연결된 정확한 수치 - 위의 예에 따라 측정값 중 하나는 "월급: $4,000"입니다.
- 차원: "직원 이름: John Smith", "급여 지급일: 11월 15일 및 11월 30일"과 같이 보다 구조화된 컨텍스트 정보를 사용하여 사실과 측정치를 분류합니다.
클라우드 데이터베이스는 다양성으로 구별되며, 따라서 다차원적인 경우가 많습니다. 최신 클라우드 데이터베이스는 단일 장소에서 현재 및 과거 빅 데이터의 다양한 차원을 쉽게 관리할 수 있을 뿐만 아니라 서버리스 아키텍처에서 작동할 수 있으므로 기업의 데이터 관리 책임을 최소화합니다. 또한 클라우드 데이터베이스는 두 개 이상의 물리적 서버가 사용되는 클러스터 및 노드 접근 방식을 사용할 수 있습니다.
기존 데이터 웨어하우징 및 클라우드 데이터 웨어하우징 비교
클라우드가 아닌 온프레미스에 위치한다는 점 외에도 기존 엔터프라이즈 데이터 웨어하우스 도구와 클라우드 공급자가 관리하는 웨어하우스 간의 가장 기본적인 차이점은 아키텍처 및 모델링에서 찾을 수 있습니다.
기존 웨어하우스 아키텍처 유형
기존
데이터 웨어하우스 솔루션은 계층별로 구분됩니다.
- 하단: 데이터베이스 서버가 위치한 곳으로, 많은 원본 소스에서 데이터를 수집합니다.
- 중간: OLAP(온라인 분석 처리) 서버가 여기에 있으며 데이터를 관계형 또는 다차원적으로 변환합니다.
- 상단: 보고 및 데이터 분석 도구가 있는 곳으로 세 계층 중 가장 상위 계층입니다.
기존 데이터 웨어하우징에서 볼 수 있는 모델은 다음과 같습니다:
- 가상: 가상 웨어하우스는 동시에 쿼리할 수 있는 별도의 데이터베이스 세트로, 단일 데이터 웨어하우스와 유사해 보입니다.
- 엔터프라이즈: 이 스타일의 기존 데이터 웨어하우스는 비즈니스의 모든 부서에서 데이터를 집계합니다.
- 데이터 마트: 이 모델에서 웨어하우스는 각 부서가 조직 내의 한 부서에 중점을 두는 구성 요소로 분할됩니다. 예를 들어, 한 데이터 마트는 기업 소스의 마케팅 관련 데이터만 수집하는 반면 다른 데이터 마트는 판매 관련 데이터만 수집합니다.
클라우드 데이터 웨어하우스 아키텍처
클라우드 데이터 웨어하우스 서비스 유형은 일반적으로 클러스터 기반 아키텍처 또는 서버리스 아키텍처로 분류할 수 있습니다.
- 클러스터 기반: 결합된 여러 서버 노드를 통해 각각 고유한 컴퓨팅, 스토리지 및 RAM 리소스가 있는 퍼블릭 또는 하이브리드 클라우드 배포 환경 내에서 이 데이터 웨어하우스를 호스팅합니다. 리드 노드는 쿼리 사용을 처리 및 실행하여 결과를 생성하는 컴퓨팅 노드에 할당합니다.
- 서버리스: 이 아키텍처 스타일의 데이터베이스 클러스터는 클라우드 서비스 공급자가 완전히 관리하며 다양한 클라이언트에 분산됩니다.
위에 자세히 설명된 두 클라우드 데이터 웨어하우스 유형 모두 매우 빠른 쿼리 응답을 제공합니다. 이 둘의 주요 차이점은 관리입니다. 기업은 클러스터 기반 웨어하우징을 어느 정도 감독해야 하며 공급자에게 데이터 트래픽을 기반으로 노드를 추가하거나 줄이도록 요청해야 합니다. 서버리스 사용자는 공급자가 쿼리 속도를 최대화하기 위해 필요한 리소스를 동적으로 할당할 것으로 예상합니다.
분석을 위해 클라우드 데이터 웨어하우징을 사용하는 이점
기가바이트(그리고 궁극적으로 테라바이트)에 달하는 모든 데이터를 수집하고 대조하는 것은 단순히 저장이나 운영에 관한 것이 아닙니다. 데이터를 통해 전환할 수 있는 통찰력은 성장과 수익을 주도하는 전략 개발의 토대가 될 수 있으며 분석 도구를 통해 이를 실현할 수 있습니다.
클라우드 솔루션을 통해 호스팅되는 데이터 웨어하우스에서 데이터 분석 및 보고를 실행하는 것은 온프레미스 웨어하우스에서 동일한 작업을 실행하는 것과는 상당히 다릅니다. 실질적으로, 이것은 틀림없이 현재 기업 전반에서 가장 흥미로운 클라우드 컴퓨팅 트렌드 중 하나입니다.
단일 퍼블릭 클라우드에서 작업하든, 다중 클라우드 솔루션을 사용하든, 온프레미스 데이터 인프라에 연결된 하이브리드 클라우드 배포를 운영하든 상관없이 클라우드 데이터 웨어하우스는 기업의 변화하는 운선순위와 관련하여 분석 워크로드가 확장 및 축소됨에 따라 더 크고 비용 효율적인 확장성과 탄력성을 제공합니다. 쿼리는 하드웨어 오버헤드가 없기 때문에 더 낮은 전체 비용으로 온프레미스 웨어하우스에서 실행하는 것보다 더 빠르게 실행됩니다.
클라우드에 적합한 데이터 분석 엔진을 사용하면 SQL, Python, SAS 및 R과 같이 익숙한 프로그래밍 언어를 사용하여 상황에 맞는 정교한 알고리즘을 만들고 구현할 수 있는 유연성을 조직에 제공할 수 있습니다. 이러한 맥락에서 확장 가능한 분석은 최첨단 머신 러닝 프로세스, 클러스터링 및 세분화, 감정 구문 분석, 텍스트 추출, 그래프 그리기, 지리 공간 또는 시계열 분석을 수행합니다.
또한 클라우드에서 데이터 웨어하우스 분석을 실행하면 Amazon EBS, S3, SageMaker, Glue 및 Lambda는 물론 Azure Blob Storage, Data Factory, ML Studio 및 PowerBI와 같은 수많은 데이터 관리 서비스와 통합할 수 있습니다.
클라우드 기반 데이터 웨어하우스를 선택하고 배포하는 방법
먼저 클러스터 기반 또는 서버리스 웨어하우스 아키텍처가 조직의 클라우드 배포에 적합한지 고려해야 합니다.
클러스터형 웨어하우스는 가격 예측이 더 용이하고 더 직접적으로 감독이 가능하지만 후자의 이점을 얻기 위해 탄력성, 용량 및 클러스터 상태를 관리하는 데 더 많은 시간과 리소스를 사용해야 합니다. 대조적으로 서버리스 모델은 CSP에서 완전히 감독하고 탄력성은 자동으로 조정되지만 쿼리당 또는 사용률을 기준으로 비용을 지불하므로 예측에 어려움이 있습니다.
실제로 가격은 모델에 관계없이 클라우드 데이터 웨어하우스를 선택할 때 가장 복잡한 측면일 수 있습니다. 탄력성이 강력한 클라우드 플랫폼의 가장 큰 장점 중 하나이지만 데이터 워크로드가 안정적일 때 비용 효율성이 떨어질 수 있습니다. 또한 클라우드 외부로 데이터를 이동할 때 발생하는 워크플로와 관련된 비용은 물론, 복잡한 예산 책정 및 비용 제어를 모니터링을 하여 통제 불능 상태가 되지 않도록 하는 것이 중요합니다.
마지막으로 클라우드 기반 웨어하우스를 구현하면 초기에 예상보다 성능이 느릴 수 있으며 사용자는 이러한 초기 문제를 수용하기 위해 관행을 조정해야 합니다.
클라우드 데이터 웨어하우스를 최대한 활용하기 위한 핵심은 테라데이타 Vantage와 같은 민첩하고 확장 가능하며 가격 유연성이 있는 연결된 멀티 클라우드 데이터 플랫폼과 함께 클라우드 데이터 웨어하우스를 사용하는 것입니다. Vantage는 주요 클라우드 제공업체의 상호 보완적인 데이터 도구와 호환되며 사용량을 기준으로 가격이 책정됩니다. 또한 플랫폼은 모든 클라우드 환경 또는 온프레미스에서 원활하게 작동하며 필요에 따라 물리적 데이터 인프라에서 클라우드로, 심지어 멀티 클라우드 모델의 클라우드 공급자 간에도 데이터와 애플리케이션을 유연하게 이동할 수 있습니다.
Vantage에 대해 자세히 알아보기