티스토리 뷰


데이터 리니지(Data Lineage)란?

데이터가 어디서 생성되어(Source) → 어떤 과정을 거쳐 변환되고 → 어디로 이동하여(Target) → 어떻게 활용되는지를
시간의 흐름과 변환 과정까지 포함해 추적·시각화한 정보입니다.

한 줄로 정의하면

데이터의 출처부터 최종 사용까지의 전체 흐름과 변환 이력을 보여주는 것



데이터 리니지가 왜 중요한가?


1. 데이터 신뢰성 확보
• 리포트·지표의 숫자가 어떤 원천 데이터에서 왔는지 설명 가능
• “이 데이터는 믿을 수 있는가?”에 답할 수 있음

2. 영향도 분석(Impact Analysis)
• 컬럼 하나 변경 시
→ 어떤 테이블, 리포트, 모델에 영향을 주는지 즉시 파악

3. 장애·오류 원인 추적
• 잘못된 데이터 발생 시
→ 어느 단계에서 오류가 생겼는지 빠르게 역추적

4. 규제·감사 대응
• 개인정보·민감 데이터가
→ 어디서 생성되고 어디로 흘러가는지 명확히 증빙

5. 데이터 거버넌스의 핵심 요소
• 데이터 오너십, 품질 관리, 표준 관리의 기반 정보
• 거버넌스를 “문서”가 아닌 “시스템”으로 만듦



데이터 리니지의 범위


데이터 리니지는 어디까지 추적하느냐에 따라 활용도가 크게 달라집니다.

1. 시스템 레벨 리니지
• DB → DWH → BI
• 시스템 간 데이터 이동 흐름 파악

2. 테이블 레벨 리니지
• source_table → target_table
• 테이블 간 의존성 분석

3. 컬럼 레벨 리니지 (가장 중요)
• A.col1 → B.col3
• SUM, JOIN, FILTER, CASE 등 변환 로직 포함
• 실제 영향도 분석에 필수

4. 파이프라인 레벨 리니지
• ETL / ELT / Spark / dbt / Airflow
• 작업(Job) 단위 흐름 추적



데이터 리니지 개념 예시


아래는 가장 단순한 리니지 흐름 예시입니다.

[원천 DB]
  주문.amount
      │
      ▼ (ETL: SUM, GROUP BY)
[DW]
  daily_sales.total_amount
      │
      ▼
[BI 리포트]
  일별 매출

이 흐름이 보이면,
• “일별 매출 수치가 왜 바뀌었는지”
• “원천 주문 데이터 변경 영향이 어디까지 미치는지”
를 즉시 설명할 수 있습니다.



데이터 리니지와 헷갈리기 쉬운 개념들


구분                설명
Metadata 데이터에 대한 설명 정보 (이름, 타입, 설명 등)
Lineage         데이터의 흐름과 변환 경로
Catalog         메타데이터를 검색·탐색하는 UI
Observability 데이터 품질, 신선도, 이상 탐지

👉 리니지는 메타데이터의 한 종류이자, 데이터 거버넌스의 핵심 기능입니다.



데이터 리니지는 어떻게 수집할까?


1. 자동 수집
• SQL 파싱 (Query Log 기반)
• ETL 도구 연계
(Airflow, dbt, Spark 등)

2. 반자동 / 수동 수집
• 배치 스크립트, 파이프라인 정의 기반
• 자동 수집이 어려운 복잡한 로직 보완용

대표적인 데이터 리니지 도구
• OpenMetadata
• Apache Atlas
• Collibra
• Microsoft Purview (Azure Purview)



실무에서 꼭 알아야 할 핵심 포인트

• 컬럼 레벨 리니지가 있어야 ‘진짜’ 쓸모가 있다
• SQL 중심 조직일수록 Query Log 기반 자동 리니지가 중요
• 리니지는 단순한 “그림”이 아니라
변경 대응·의사결정을 위한 도구


'Data Lake' 카테고리의 다른 글

Data Lake 이해하기  (0) 2026.02.12
Apache Iceberg 이해하기  (0) 2026.02.10
댓글
공지사항
최근에 올라온 글
최근에 달린 댓글
Total
Today
Yesterday
링크
«   2026/04   »
1 2 3 4
5 6 7 8 9 10 11
12 13 14 15 16 17 18
19 20 21 22 23 24 25
26 27 28 29 30
글 보관함