Label Studio라는 데이터 라벨링 솔루션에 대해 찾아보려고 컴퓨터를 켰다.AWS에는 이미 서비스가 있구나. Amazon SageMaker Ground Truth 와우먼저 데이터 라벨링의 개념부터 이해하고자 정리해 본 내용 데이터 라벨링이란 | Data Labeling데이터 라벨링은 머신러닝 모델이 데이터를 학습할 수 있도록원천 데이터(텍스트, 이미지, 오디오, 비디오 등)에 의미 있는 태그나 라벨을 붙이는 과정 작동 원리 | How it works가공되지 않은 원천 데이터(Raw data) 그 자체로는 AI에게 아무런 쓸모가 없습니다.AI는 사진을 볼 때 형체나 색깔을 이해하는 것이 아니라, 수만 개의 숫자 격자로만 인식하기 때문입니다.이때 사람(또는 반자동 도구)이 데이터를 하나하나 검토하면서,..
아래 원문을 읽고 이해해보는 Gemini Embedding 2 그리고 멀티모달 임베딩원문: https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-embedding-2/ Gemini Embedding 2: Our first natively multimodal embedding modelAn overview of Gemini Embedding 2, our first fully multimodal embedding model that maps text, images, video, audio and documents into a single space.blog.google Gemini Embedding 2: Our firs..
WBS 작성하다가 순삭된 하루어떻게 해야 하는지 돌아보면서 작성해보는 글 프로젝트가 일정 지연되는 이유 중 상당수는 WBS가 모호하게 작성되었기 때문이다.“기능 개발”, “테스트”, “개선” 같은 Task는 일정도 산정하기 어렵고 완료 여부도 불명확하다. 요구사항을 정의하여 방향을 정하고, Task를 통해 책임과 결과를 명확히 한다. Task 작성 원칙1. 동사 + 산출물 구조"무엇을 만들어 낸다."로 작성- ex. 요구사항 정의서 작성 2. 모호한 표현 대신 무엇을 어떻게 하는지 명확히 표현- ex. JWT 토큰 만료 알림 기능 설계 3. 단위는 관리 가능한 수준으로- 1~5일 단위 작업- 담당자 1명이 책임 질 수 있는 작업 좋은 WBS Task의 기준- 완료 기준이 명확하다.- 산출물이 존재한다.-..
왜 Data Lake 인가요즘 데이터가 쏟아지는 시대다.정형 데이터뿐만 아니라 로그, 이미지, 파일 같은 비정형 데이터까지 이 모든 데이터를 미리 구조화해서 저장하는 것은 비효율적이니일단 데이터를 원본 그대로 저장하고, 필요할 때 목적에 맞게 가공해서 사용하는 방식이다. 데이터를 어떻게 수집할까1) 배치 수집: 일정 시간 마다 데이터를 모아서 저장ETL 도구를 사용한다. (Airflow, Spark, Azure Data Factory)2) 실시간 수집: 데이터가 발생하는 즉시 저장메시지 큐나 스트리밍 플랫폼을 사용한다. (Kafka)3) 파일 업로드 방식: 사용자가 직접 파일을 업로드 데이터는 어떻게 보관할까Data Lake는 보통 Object Storage 기반으로 저장한다.보관 방식의 특징1) 원본 ..
Iceberg?Netflix에서 개발한 오픈소스 테이블 포맷데이터레이크 위에서 마치 관계형 데이터베이스처럼 데이터의 일관성을 유지하고, SQL 쿼리를 실행하며, 트랜잭션을 지원하도록 돕는 계층Iceberg의 논리적 구조 (계층 구조)아이스버그는 크게 데이터 계층과 메타데이터 계층으로 나뉜다.• 데이터 파일(Data Files): 실제 데이터가 저장되는 Parquet 파일들• 매니페스트 파일(Manifest Files): 데이터 파일들의 목록과 통계(최대/최소값 등)를 포함하여 쿼리 최적화를 돕는다.• 매니페스트 리스트(Manifest List): 여러 번의 인제스트(Ingest)로 생성된 매니페스트 파일들을 모아 관리• 메타데이터 파일(Metadata File): 테이블의 스냅샷(Snapshot) 정보를..
새로운 업무로 투입 되었다. 오픈한지 3개월 된 시스템인데 개선사항이 쏟아지고,Frontend 개발자, Backend 개발자 그리고 유관 시스템 담당자, 현업, 동료들 이름도 아직 혼란스러운 상황 인수인계 내용, 회의 일정 및 회의록을 노트에 빼곡히 기록했는데,그 다음 날 출근하면 기억이 하나도 안나고요. 무언가 쏟아진 일감을 정리 할 체계가 필요해 보였다. 출근 길에 찾아본 업무일지 관련 컨텐츠요즘은 노션 템플릿을 활용해서 업무 일지를 작성하는 일잘러가 많아 보였다. (많은 컨텐츠를 본 건 아니지만 '제인킴' 노션 사용법 영상 추천!!) 사무실은 노션 사용 불가이므로, 어떤 컨텐츠로 업무 일지를 관리하는지를 참고하는 용도로 보았다. 그날 할 일을 중요도와 함께 다이어리에 정리급하게 적어야 하는 사..
데이터 리니지(Data Lineage)란?데이터가 어디서 생성되어(Source) → 어떤 과정을 거쳐 변환되고 → 어디로 이동하여(Target) → 어떻게 활용되는지를시간의 흐름과 변환 과정까지 포함해 추적·시각화한 정보입니다.한 줄로 정의하면데이터의 출처부터 최종 사용까지의 전체 흐름과 변환 이력을 보여주는 것⸻데이터 리니지가 왜 중요한가?1. 데이터 신뢰성 확보 • 리포트·지표의 숫자가 어떤 원천 데이터에서 왔는지 설명 가능 • “이 데이터는 믿을 수 있는가?”에 답할 수 있음2. 영향도 분석(Impact Analysis) • 컬럼 하나 변경 시→ 어떤 테이블, 리포트, 모델에 영향을 주는지 즉시 파악3. 장애·오류 원인 추적 • 잘못된 데이터 발생 시→ 어느 단계에서 오류가 생겼는지 빠르게 역추적4..
Azure API Management에서 Azure OpenAI를 API로 등록하는 방법Azure OpenAI서비스를 Azure API Management에 등록하면, 효율적으로 OpenAI API를 관리하고 보호할 수 있다.1. 사전 준비아래 사항은 준비되어 있는 환경에서의 가이드- APIM 생성- Open AI 리소스 생성 2. Azure OpenAI API 를 APIM API로 등록하기>API 추가: 'API' 메뉴에서 '+ API 추가'를 클릭합니다.Azure 리소스에서 만들기: 'Azure OpenAI Service'를 선택합니다.기본 사항 설정:Azure OpenAI 리소스 선택API 버전 선택 : 자동으로 선택 된다.표시 이름 및 설명 추가Base URL 설정 (예: https://jbtes..
Azure DevOps Pipeline 자동화로 반복 업무 개선하기반복 업무의 문제점소프트웨어 개발 과정에서 자주 반복되는 작업 중 하나는 브랜치 생성 후 변경된 소스를 개발 환경에 배포하고, 검증 후 main 브랜치에 병합하여 운영 환경에 배포하는 일입니다.이 과정에서 가장 번거로운 부분은 소스 코드 수정 후 매번 파이프라인을 수동으로 실행해야 한다는 점이었습니다. 이러한 반복적인 작업을 줄이기 위해 Azure DevOps Pipeline의 trigger 설정을 활용하여 자동화를 구현했습니다.자동화 목표특정 브랜치(dev/0313)에 커밋하면 자동으로 개발 환경에 배포하도록 설정dev 브랜치 하위의 모든 브랜치에서도 자동으로 배포하도록 구성기존 문제점초기 파이프라인 설정은 다음과 같았습니다:trigge..
질문에 답을 찾는 자료 찾기 참고자료.https://www.youtube.com/watch?v=SHB-qKxjooMhttps://azure.microsoft.com/ko-kr/pricing/details/cognitive-services/openai-service/ Azure OpenAI 서비스 - 가격 책정 | Microsoft AzureAzure Open AI Service 가격 책정 정보입니다. 무료 Azure 계정으로 인기 서비스를 사용해 보고 선불 비용 없이 종량제로 결제하세요.azure.microsoft.com Azure OpenAI 서비스는 고객이 GenAI 애플리케이션을 구축할 수 있도록 다양한 배포(Deployment) 옵션을 제공합니다. 주요 배포 옵션은 Standard, Batch,..