데이터 마트란?

데이터 마트는 제한된 사용자 그룹에 서비스를 제공하는 데이터 웨어하우스 논리 모델의 주제 지향적인 한 부분입니다. 많은 데이터 마트는 데이터 웨어하우스의 전체 테이블에서 데이터 하위 집합만 필요로합니다. 예를 들어, 마트에는 판매 거래, 제품 및 재고 기록만 있을 수 있습니다. 대부분의 데이터 마트에는 4,000개가 아닌 5~20개의 테이블만 존재합니다.
 
데이터 마트 팩트 테이블
데이터 마트의 테이블 수는 데이터베이스 크기와 관련이 없습니다. 예를 들어, 팩트 테이블이라고 불리는 기본 테이블이 통신 회사의 100테라바이트에 달하는 통화 세부 정보 기록일 수 있습니다. 데이터 마트 자체는 그 크기가 거대할 수 있지만 데이터 웨어하우스에서 사용할 수 있는 모든 데이터의 선택의 폭은 좁습니다.

데이터 마트는 종종 비정규화되어 데이터를 정렬하고 결과 테이블을 집계하여, 데이터 요약만 캡처하고 세부 데이터를 버리는 경우가 많습니다. 일부 데이터 마트는 매주 또는 매월 완전히 다시 로드됩니다. 보고서에서 지난 30일 간의 거래 내역만 볼 수 있도록 모든 데이터를 삭제하고 새로 고치는 것은 비교적 쉽습니다.
 
데이터 마트와 스타 스키마
데이터 마트와 스타 스키마는 불가분의 관계에 있습니다. 5개의 스프레드시트에 있는 데이터 행과 열을 상상해 보십시오. 스프레드시트 중 4개는 팩트 테이블이라고 하는 가장 큰 시트와 일치하는 키 필드를 통해 연결됩니다. 팩트 테이블이 스프레드시트에 맞지 않는 5천만 개의 레코드로 데이터 마트 테이블에 저장되어 있다고 상상해 보십시오. 대부분의 데이터 마트에는 이 스타 스키마 디자인에 5~10개의 테이블이 있으며, 스타 암(star arms)에 있는 작은 테이블을 차원 테이블이라고 합니다.
 
데이터 마트와 스노플레이크 스키마
차원 테이블은 중요한 정보가 있는 작은 테이블입니다. 팩트 테이블은 수십억 개의 레코드와 같은 대량의 데이터가 저장되는 곳이며, 실제 고객 이름 및 주소 필드를 얻기 위해 고객 테이블과 조인할 수 있습니다. 스타 스키마의 변형인 스노플레이크 스키마에는 키 필드로 서로 연결된 여러 개의 팩트 테이블이 있습니다. 각 팩트 테이블에는 4~5개의 차원 테이블만 있습니다. 테이블 및 관계 집합의 다이어그램은 스노플레이크와 비슷하지만 여전히 데이터 마트입니다.
 
데이터 마트와 데이터 웨어하우스의 차이점은 무엇인가요?
데이터 마트와 데이터 웨어하우스의 차이점은 데이터베이스 크기가 아닌 스키마 복잡성으로 구분되는 주제 영역 및 통합과 관련되어 있습니다. 모든 데이터가 웨어하우스에 있기 때문에 데이터 마트보다 데이터 웨어하우스에서 100배 더 정교한 질문을 할 수 있습니다.
 
데이터 웨어하우스에는 많은 "퍼즐 조각"이 있으며 통합된 모든 테이블은 주제 영역으로 그룹화되어 있습니다. 데이터 웨어하우스는 클 필요가 없습니다. 저장 공간이 5TB여도 괜찮습니다. 또는 수백 테라바이트의 레코드가 있을 수도 있습니다. 데이터 마트에 3개의 거대한 테이블을 저장하는 것이 대안이 될 수 있습니다.
 
데이터 마트 및 로딩, 데이터 이동
데이터 통합을 위한 많은 훌륭한 도구와 데이터를 보관할 수 있는 많은 훌륭한 관계형 데이터베이스, 그리고 데이터 분석에 사용되는 수십 가지의 훌륭한 도구가 있습니다. 다행히도 비즈니스 인텔리전스(BI) 도구로 데이터를 이동하는 것은 노동이 많지 필요하지 않으며 많은 데이터가 전송되지도 않습니다. 보고서 또는 대시보드에 표시하기 위해 소량의 데이터가 BI 도구로 전송됩니다.

실질적 비용은 데이터를 이동하고 다른 목적을 위해 변환하는데서 발생합니다. 데이터 추출 및 변환에는 비용이 많이 들고 그 속도가 종종 느립니다. 통합 단계는 노동 및 컴퓨팅 처리 측면에서 아주 고되지만, 비즈니스 사용자에게 손상, 불완전, 또는 부정확한 데이터를 제공하는 것 외에는 대안이 없습니다. 분명히 말하자면, 비즈니스 사용자가 데이터 웨어하우스 또는 데이터 마트를 포기하게 만드는 가장 빠른 방법은 더티하고 불완전한 데이터를 제공하는 것입니다. 데이터를 신뢰할 수 없다면 사용자들은 스프레드시트로 되돌아갈 것입니다. 이는 데이터 웨어하우스의 데이터가 매우 중요한 이유와 조직 전체에서 데이터 마트의 확산이 실제로 비즈니스의 실제 현황을 파악하는 데 있어 위험한 이유를 설명합니다.