Data Stroage의 진화
Data Storages
빅데이터 시대가 되어가면서 데이터저장소에 대한 다양한 개념과 용어가 사용되고있다. 이번에는 데이터 저장소의 종류와 특징 및 사용 사례 등에 대해 알아본다.
데이터 웨어하우스(Data Warehouse)
데이터웨어하우스 개념
데이터 웨어하우스(Data Warehouse)는 업무 시스템에서 추출한 대량의 데이터를 중앙 집중식으로 저장하고, 분석을 위한 환경을 제공한한다. 데이터 웨어하우스는 일반적으로 대규모의 데이터를 저장하며, OLAP(Online Analytical Processing) 등을 통해 데이터를 분석하고, 시각화하고, 보고서를 작성하는 등의 비즈니스 인텔리전스(Business Intelligence) 분석을 수행한다. 일반적으로로 은행에서는 고객 정보, 계좌 정보, 거래 정보 등 대량의 데이터를 데이터 웨어하우스에 저장하고 있다. 그리고 데이터 웨어하우스에 저장된 데이터를 활용하여, 고객 행동 분석, 상품 추천, 신규 상품 개발 등의 다양한 비즈니스 의사결정을 수행한다.
데이터웨어하우스 구축 절차
- 요구사항 분석
데이터 웨어하우스를 구축하기 전, 비즈니스 전반의 다양한 요구사항 조사와 분석을 통해 어떤 데이터를 수집하고 저장해야 하는지 결정한다. - 데이터 모델링 데이터 모델링은 데이터 웨어하우스에 저장할 데이터를 정의하는 과정이다. 이 단계에서는 데이터 구조를 설계하고, 스키마를 정의하며, 데이터베이스의 테이블과 컬럼을 설계하게된다. 스키마에는 간단하고 이해하기 쉬워 가장 많이 사용되는 스타 스키마(Star Schema), 스타 스키마를 확장한 형태의 스노우플레이크 스키마(Snowflake Schema), 간헐적 스키마(Fact Constellation Schema) 등이 있다. 이러한 스키마들은 각각의 장단점이 있어 스키마의 선택은 데이터 웨어하우스에서 분석하고자 하는 데이터의 특성과 비즈니스 요구사항에 따라 달라질 수 있다.
- ETL(Extract, Transform, Load) 설계 및 구현
ETL 프로세스 설계는 데이터 웨어하우스를 구축하는데 매우 중요한 단계로 이 단계에서는 데이터를 추출, 변환한 후 데이터 웨어하우스에 로드한다. - 데이터 웨어하우스 구현
데이터 웨어하우스를 구축하는 단계이다. 이 단계에서는 데이터 모델링과 ETL 설계를 기반으로 데이터 웨어하우스를 실제로 구축하게된다. - 데이터 검증 및 품질 관리 데이터 웨어하우스에 저장된 데이터는 정확하고 일관성이 있어야 하며 이를 보증하기 위해 검증 및 품질 관리를 수행한다. 데이터 검증은 데이터의 유효성, 일관성, 완전성 등을 검증하고, 품질 관리는 데이터 품질을 유지하기 위한 방법과 규칙을 정의하는 과정이다.
- 데이터 웨어하우스 운영 이 데이터웨어하우스 운영 단계에서는 데이터 웨어하우스를 유지보수하고, 데이터를 주기적으로 갱신하며, 보안 및 접근 제어 등의 업무를 수행하게된다.
데이터마트(Data Mart)
데이터 마트는 데이터 웨어하우스와 비슷하지만, 특정 부서나 사용자의 요구에 맞게 설계된 저장소이다. 데이터 마트는 데이터 웨어하우스와 연계되어 사용되며, 데이터 웨어하우스에서 필요한 일부 데이터만 추출하여 저장하게 된다. 이러한 데이터 마트는 보다 쉬운 데이터 검색 및 분석이 가능하여, 부서나 사용자별로 필요한 데이터를 빠르게 검색하고 분석할 수 있는 장점이 있다. 예를 들어, 판매 부서에서 특정 제품 카테고리의 판매 동향 분석이 필요한 경우, 데이터 웨어하우스에서 모든 판매 데이터를 검색하는 것은 비효율적일 수 밖에 없다. 이러한 경우, 판매 부서에서는 제품 카테고리의 판매 동향과 관련된 일부 데이터만 추출하여 데이터 마트를 구축, 저장하고, 이를 활용하여 보다 빠르고 정확한 분석을 수행할 수 있다. 데이터 레이크는 데이터 분석 및 머신러닝 등의 작업을 위한 중요한 데이터 플랫폼으로 각광받고 있으며, 대규모 데이터를 처리하고 분석하는 데 필수적인 기술 중 하나이다.
데이터마트 활용성 제고방안
- 데이터 품질 관리 및 주기적 데이터 갱신
데이터 마트에 저장된 데이터는 정확하고 일관성이 있어야 한다. 따라서, 데이터 품질 관리와 주기적인 갱신은 필수적이 요소인다. 데이터 검증과 품질 관리를 위한 규칙과 방법을 정의하고, 주기적인 데이터 갱신을 통해 데이터를 최신화하여야 활용성을 높이고 구축효과를 기대할 수 있다. - 사용자 교육지원
데이터 마트를 효과적으로 활용하기 위해서는 사용자들에게 반드시 데이터 마트에 대한 교육을 실시해야 한다. 교육을 통해 사용자들이 데이터 마트를 적극적으로 활용하게되고 데이터 마트를 통한 의사결정 문화가 정착될 수 있다. - 데이터 마트 성능 최적화
데이터 마트는 대량의 데이터를 다루기 때문에, 성능의 최적화가 중요하다. 적절한 인덱싱, 파티셔닝, 쿼리 튜닝 등 성능 최적화를 통해 사용자들의 참여도를 향상 시키수 있다.
데이터 레이크(Data Lake)
데이터 레이크는 데이터 분석 및 머신러닝 등의 작업을 위한 중요한 데이터 플랫폼으로 각광받고 있으며, 대규모 데이터를 처리하고 분석하는 데 필수적인 기술 중 하나이다. 데이터 웨어하우스가 정형 데이터를 저장하는 반면, 데이터 레이크는 정형 데이터 뿐만 아니라 각종 비정형 데이터 까지 저장할 수 있는 중앙 집중식 리포지토리이다. 데이터 레이크는 대용량의 데이터를 저장하고 분석하는 데 특화되어 있다. 데이터 레이크는 데이터 웨어하우스보다 더 많은 스토리지 옵션을 제공하고, 더 복잡하며, 다양한 사용 사례를 지원한다.
데이터 레이크의 특징
데이터 레이크는 다음과 같은 특징을 갖고 있다.
- 데이터 유형과 복잡도의 다양성
데이터 레이크는 비정형 데이터와 정형 데이터를 모두 수용할 수 있으며, 이를 통해 다양한 유형의 데이터를 분석할 수 있다. - 데이터 볼륨의 확장성
데이터 레이크는 수천 테라바이트에서 수십 페타바이트에 이르는 대규모의 데이터를 저장할 수 있다. - 저비용의 스토리지
데이터 레이크는 일반적으로 저비용의 스토리지 기술을 사용하여 대규모의 데이터를 저장한다. 이를 통해 데이터 레이크를 구축하는 비용을 줄일 수 있다. - 빠른 데이터 접근과 처리 속도
데이터 레이크는 분산 데이터 처리 기술을 사용하여 데이터를 빠르게 접근하고 처리할 수 있어 데이터 분석과 머신러닝 작업의 속도를 높일 수 있다. - 데이터의 가용성 및 보안성
데이터 레이크는 데이터의 가용성과 보안성을 보장하기 위한 다양한 보안 및 접근 제어 기능을 제공하고있다.
데이터 레이크하우스(Data LakeHouse)
데이터 레이크하우스(Data Lakehouse)는 데이터 레이크(Data Lake)와 데이터 웨어하우스(Data Warehouse)의 특징과 장점을 결합한 개념이다. 데이터 레이크하우스는 대규모 데이터를 저장하고 분석하는 데 사용되며, 데이터 레이크와 데이터 웨어하우스의 장점을 모두 갖추고 있다.
데이터 레이크하우스 특징
- 비정형 데이터와 정형 데이터 모두 지원
데이터 레이크하우스는 비정형 데이터와 정형 데이터 모두를 지원하여 다다양한 유형의 데이터를 저장하고 분석할 수 있다. - Schema on Read와 Schema on Write 모두 지원
데이터 레이크하우스는 스키마 온 리드와 스키마 온 라이트 모두를 지원하며, 데이터를 저장할 때 스키마를 미리 정의하지 않아도 되므로 유연성이 높아진다. - 높은 확장성과 처리 성능
데이터 레이크하우스는 대규모 데이터를 처리할 수 있으며, 분산 데이터 처리 기술을 사용하여 데이터를 빠르게 처리할 수 있는 특징이있다.
데이터 레이크하우스는 데이터 레이크와 데이터 웨어하우스의 장점을 모두 갖추고 대규모 데이터를 저장하고 분석하는 데 필요한 유연성과 효율성을 제공한다. 가장 최근에 등장한 데이터 레이크하우스는 빅데이터 분석을 위한 중요한 데이터 플랫폼 중 하나로 자리잡을 전망이다.
데이터 댐(Data Dam)
데이터 댐은 앞에서 살펴본 데이터 웨어하우스나 데이터마트 데이터레이크 등과는 다르게 다소 정치적인 용어에 가깝다. 데이터 댐이란 용어는 문재인 정부에서 한국형 디지털 뉴딜의 일환으로 추진된 프로젝트에서 기원한다. 정부에서 필요한 기술에 대한 예산과 연구를 지원하고 정부 데이터를 제공하는 등 정책을 통해서 데이터를 활용하는 기업 생태계를 조성하고 활성화하여 일자리 창출과 부가가치를 생산하겠다는 정책 의지에서 출발된 개념이 데이터 댐이다. 윤석열 정부가 들어서면서 데이터 댐이란 용어보다 데이터레이크란 용어가 자주 사용되는 것을 보면, 데이터 댐이란 용어가 기술적으로 자리잡힌 개념의 용어는 아닌것이 확실해 보인다.