왜 Data Lake 인가요즘 데이터가 쏟아지는 시대다.정형 데이터뿐만 아니라 로그, 이미지, 파일 같은 비정형 데이터까지 이 모든 데이터를 미리 구조화해서 저장하는 것은 비효율적이니일단 데이터를 원본 그대로 저장하고, 필요할 때 목적에 맞게 가공해서 사용하는 방식이다. 데이터를 어떻게 수집할까1) 배치 수집: 일정 시간 마다 데이터를 모아서 저장ETL 도구를 사용한다. (Airflow, Spark, Azure Data Factory)2) 실시간 수집: 데이터가 발생하는 즉시 저장메시지 큐나 스트리밍 플랫폼을 사용한다. (Kafka)3) 파일 업로드 방식: 사용자가 직접 파일을 업로드 데이터는 어떻게 보관할까Data Lake는 보통 Object Storage 기반으로 저장한다.보관 방식의 특징1) 원본 ..
Data Lake
2026. 2. 12. 00:28