데이터 레이크란?

데이터 레이크와 데이터 웨어하우스는 모두 디자인 패턴이지만 이 둘은 정반대입니다. 데이터 웨어하우스는 높은 동시성으로 품질, 일관성, 재사용 및 성능 향상을 위해 데이터를 구조화하고 패키징합니다. 데이터 레이크는 새로운 형태의 분석 민첩성을 제공하면서 원래의 원시 데이터 정확도 및 장기 저장에 중점을 둔 디자인 패턴으로 웨어하우스를 보완합니다.

데이터 레이크의 가치

데이터 레이크는 폭발적인 데이터 볼륨을 경제적으로 활용하고 가치를 창출해야 하는 요구 사항을 충족합니다. 웹, 모바일, 연결된 장치와 같은 새로운 소스의 이 "어두운" 데이터는 과거에는 종종 버려졌지만, 귀중한 통찰력이 포함되어 있습니다. 방대한 볼륨과 새로운 형태의 애널리틱스데이터를 관리하고 가치를 도출하는 새로운 방법을 요구합니다.

데이터 레이크는 모든 형태의 원시 데이터를 대규모로 캡처, 정제 및 탐색하는 장기 데이터 컨테이너 모음입니다. 데이터 마트, 데이터 웨어하우스 및 추천 엔진을 포함하여 여러 다운스트림 시설에서 활용할 수 있는 저비용 기술을 통해 사용이 가능합니다.

빅 데이터 트렌드 이전에는 데이터 통합이 지속성 있는 정보(예: 데이터베이스)를 표준화하여 가치를 창출했습니다. 하지만 이것만으로는 더 이상 기업의 모든 데이터를 관리하기에 충분하지 않고, 모든 데이터를 구조화하려고 시도하면 가치가 떨어지게 됩니다. 그렇기 때문에 어두운 데이터는 데이터베이스에서 거의 캡처되지 않지만, 데이터 과학자들은 어두운 데이터를 파헤쳐 반복할 가치가 있는 몇 가지 사실을 찾는 경우가 많습니다.
 

데이터 레이크 및 새로운 형태의 분석

Spark 및 기타 혁신과 같은 기술은 절차적 프로그래밍 언어의 병렬화를 가능하게 하며 이를 통해 완전히 새로운 유형의 애널리틱스가 가능하게 되었습니다. 이러한 새로운 형태의 애널리틱스는 대규모로 효율적으로 처리됩니다. 예를 들어 그래프, 텍스트, 머신 러닝 알고리즘을 통해 해답을 얻고, 해당 답변을 다음 데이터와 비교하는 식으로 최종 출력에 도달할 때까지 계속됩니다.
 

데이터 레이크 및 기업 메모리 보존

장기간 사용하지 않은 데이터를 보관하면 데이터 웨어하우스의 저장 공간을 절약할 수 있습니다. 데이터 레이크 디자인 패턴이 등장하기 전까지 고성능 데이터 웨어하우스나 오프라인 테이프 백업 외, 자주 사용하지 않는 데이터를 저장할 수 있는 곳이 없었습니다. 사용자는 가상 쿼리 도구를 사용하여 단일 쿼리를 통해 액세스 빈도와 관계 없이 데이터 웨어하우스의 모든 데이터에 쉽게 액세스할 수 있습니다.
 

데이터 레이크 및 데이터 통합

업계는 데이터 변환 비용을 최대한 절약하는 방법에 대해 완전히 이해했습니다. 데이터 레이크는 기존 ETL(추출, 변환, 로드) 서버보다 저렴한 비용으로 더 큰 확장성을 제공하기 때문에 기업들은 그들의 데이터 통합 아키텍처를 재검토할 수 밖에 없습니다. 최신 모범 사례를 수용하는 조직은 각각 고유한 기능과 경제성을 가지고 있기 때문에 데이터 레이크, 데이터 웨어하우스 및 ETL 서버 전반에 걸쳐 수백 개의 데이터 통합 작업을 재조정하고 있습니다.
 

데이터 레이크의 일반적인 함정

표면적으로는 데이터 레이크가 방대한 양의 정형비정형 데이터를 관리하고 활용할 수 있는 방법을 제공하는 것처럼 간단해 보입니다. 그러나 이는 보이는 것처럼 단순하지 않으며 실패한 데이터 레이크 프로젝트는 여러 종류의 산업 및 조직에서 흔히 찾을 수 있습니다. 데이터 레이크 프로젝트 초기에는 모범 사례가 아직 없었기 때문에 어려움이 많았습니다. 지금은 견고한 디자인의 부재가 데이터 레이크의 완전한 가치를 제공하는 것을 막는 주된 이유입니다.

데이터 사일로 및 클러스터 확산: 데이터 레이크는 진입 장벽이 낮고 클라우드에서 임시로 전환이 가능하다고 알려져 있습니다. 이로 인해 조정되지 않은 두 개의 데이터 레이크에서 데이터 중복, 불일치 및 동기화 문제가 발생합니다.
 
데이터 액세스에 대한 상충되는 목표: 보안 조치의 엄격성과 민첩한 액세스 간 균형을 유지하는 것이 중요합니다. 계획 및 절차는 모든 이해 관계자의 목적에 맞게 설정되어야 합니다.
 
제한된 도구: 많은 공급업체는 Hadoop 또는 클라우드 객체 스토어에 연결해야 한다고 주장하지만, 여기에는 긴밀한 통합이 부족하고 이러한 제품의 대부분은 데이터 레이크가 아닌 데이터 웨어하우스용으로 구축되어 있습니다.
 
최종 사용자 채택 부족: 사용자는 프리미엄 코딩 기술이 필요하고 데이터라는 건초 더미에서 필요한 바늘(해답)을 찾지 못하기 때문에 데이터 레이크에서 답변을 얻는 것이 너무 복잡하다고 생각합니다.
  

데이터 레이크 디자인 패턴

데이터 레이크 디자인 패턴은 성공적인 구현을 이끄는 일련의 워크로드와 기대치를 제공합니다. 데이터 레이크 기술과 경험이 성숙해짐에 따라 선도적인 공급업체가 구현을 위한 합의 및 모범 사례를 갖출 수 있도록 아키텍처 및 해당 요구 사항이 진화했습니다. 기술도 중요하지만 기술로부터 독립된 디자인 패턴이 가장 중요합니다. 데이터 레이크는 여러 기술을 기반으로 구축될 수 있습니다. Hadoop Distributed File System (HDFS)은 대부분의 사람들이 가장 먼저 떠올리는 것이지만 필수적이지는 않습니다.