왜 Data Lake 인가요즘 데이터가 쏟아지는 시대다.정형 데이터뿐만 아니라 로그, 이미지, 파일 같은 비정형 데이터까지 이 모든 데이터를 미리 구조화해서 저장하는 것은 비효율적이니일단 데이터를 원본 그대로 저장하고, 필요할 때 목적에 맞게 가공해서 사용하는 방식이다. 데이터를 어떻게 수집할까1) 배치 수집: 일정 시간 마다 데이터를 모아서 저장ETL 도구를 사용한다. (Airflow, Spark, Azure Data Factory)2) 실시간 수집: 데이터가 발생하는 즉시 저장메시지 큐나 스트리밍 플랫폼을 사용한다. (Kafka)3) 파일 업로드 방식: 사용자가 직접 파일을 업로드 데이터는 어떻게 보관할까Data Lake는 보통 Object Storage 기반으로 저장한다.보관 방식의 특징1) 원본 ..
Iceberg?Netflix에서 개발한 오픈소스 테이블 포맷데이터레이크 위에서 마치 관계형 데이터베이스처럼 데이터의 일관성을 유지하고, SQL 쿼리를 실행하며, 트랜잭션을 지원하도록 돕는 계층Iceberg의 논리적 구조 (계층 구조)아이스버그는 크게 데이터 계층과 메타데이터 계층으로 나뉜다.• 데이터 파일(Data Files): 실제 데이터가 저장되는 Parquet 파일들• 매니페스트 파일(Manifest Files): 데이터 파일들의 목록과 통계(최대/최소값 등)를 포함하여 쿼리 최적화를 돕는다.• 매니페스트 리스트(Manifest List): 여러 번의 인제스트(Ingest)로 생성된 매니페스트 파일들을 모아 관리• 메타데이터 파일(Metadata File): 테이블의 스냅샷(Snapshot) 정보를..
데이터 리니지(Data Lineage)란?데이터가 어디서 생성되어(Source) → 어떤 과정을 거쳐 변환되고 → 어디로 이동하여(Target) → 어떻게 활용되는지를시간의 흐름과 변환 과정까지 포함해 추적·시각화한 정보입니다.한 줄로 정의하면데이터의 출처부터 최종 사용까지의 전체 흐름과 변환 이력을 보여주는 것⸻데이터 리니지가 왜 중요한가?1. 데이터 신뢰성 확보 • 리포트·지표의 숫자가 어떤 원천 데이터에서 왔는지 설명 가능 • “이 데이터는 믿을 수 있는가?”에 답할 수 있음2. 영향도 분석(Impact Analysis) • 컬럼 하나 변경 시→ 어떤 테이블, 리포트, 모델에 영향을 주는지 즉시 파악3. 장애·오류 원인 추적 • 잘못된 데이터 발생 시→ 어느 단계에서 오류가 생겼는지 빠르게 역추적4..