일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |
- 플랫폼
- 추천시스템
- 메타버스
- transformer
- HTTP
- AWS
- 미국석사
- 머신러닝 파이프라인
- BERT이해
- nlp
- 중국플랫폼
- BERT
- 머신러닝
- RecSys
- COFIBA
- 자연어처리
- 네트워크
- llm
- chatGPT
- 언어모델
- MSCS
- MLOps
- 클라우드자격증
- TFX
- 클라우드
- Collaborative Filtering Bandit
- BANDiT
- aws자격증
- MAB
- docker
- Today
- Total
목록MLOps (7)
Julie의 Tech 블로그
본 글은 MLOps에서 가장 꽃이라고 할 수 있는 단계, 모델 학습에 대해 살펴볼 것이다. 지난 글까지는 데이터를 수집 및 검증, 전처리 단계까지 살펴보았었다. 본격적으로 시작하기에 앞서, 이 글은 머신러닝 모델 학습에 관한 설명글이 아니며, 모델 학습과정을 MLOps 서비스를 통해 자동화할 수 있는 방법에 대해 다룰 것이다. 앞서 살펴본 데이터 수집, 검증, 전처리 단계를 통해 모델 학습에 필요한 형태로 데이터가 변형되어 준비되어있다고 생각하자. 그리고 우리는 모델이 이미 사전에 정의되어 구현된 상태로 설명을 시작할 것이다. 아래는 예시 코드인데, 예시는 Keras를 사용하여 텍스트를 처리하는 모델이고, Tensorflow Hub에 등록된 기학습된 모델에서 Transfer Learning하여 구현하..
본 글은 MLOps의 데이터 전처리 단계인 Preprocessing 과정에 대해 다뤄볼 것이다. 이전에는 데이터의 수집, 수집된 데이터의 정합성 검증 과정까지 다루었다면, 이제 본격적으로 데이터를 주입하여 모델에 input하기 전까지의 과정을 다루게 되는 것이다. 글을 시작하기에 앞서 본 글은 Tensorflow TFX 라이브러리를 기반으로 설명을 하고 있는데, MLOps의 프레임워크 서비스로 꼭 모든 파이프라인 단계를 빌딩해야한다는 것은 아니다. 기존에 numpy 나 pandas로 전처리를 하고 있었다면, 그로 충분히 사용할 수도 있다. Why Data Preprocessing? 우리가 흔히 수집하는 데이터는 모델이 인식할 수 있는 포맷대로 수집되지 않는다. 예를 들어 모델의 정답지로 사용하는 ..
이번 편은 지난 편에 이어 머신러닝 파이프라인 단계 중 하나인 Data Validation(검증) 과 관련된 기술들에 대해 소개해볼 것이다. 지난번의 Data Ingestion 단계가 이루어지면, 인풋으로 들어온 데이터가 올바른지에 대해 검증하는 단계이다. 모델로 학습하기 이전에 이상치가 있는지, 데이터 범위에 맞게 분포가 형성되어있는지 등을 확인하게 된다. Data Validation 단계에서는 아래 세 가지를 중점적으로 살펴보게 된다: 1. Data Anomaly 확인 2. Data Schema 변경건 확인 3. 이전 버전의 데이터와 주요 통계치가 유사한 수준에 있는지 이 세가지 포인트에 있어서 차이가 크게 발생하거나 문제가 있을 경우 워크플로우를 중단하여 운영자가 점검할 수 있도록 해준다. ..
이번 글부터는 머신러닝 파이프라인 단계별로 좀 더 상세하게 살펴볼 것이다. 일단 가장 첫 단추라고 할 수 있는 데이터 Ingestion 부터 알아보도록 하자. TFX 는 데이터를 파일 혹은 어느 서비스 형태로 파이프라인에 삽입할 수 있도록 Component를 제공한다. 그 중 하나가 TFRecord , 즉 사이즈가 큰 데이터를 스트리밍하는 용도로 최적화된 경량화된 format 이다. TFRecord 파일은 여러개의 tf.Example 레코드로 구성되어 있는데, 각 레코드는 하나 이상의 feature 로 구성되어있다. feature는 데이터에서 컬럼에 대응하는 단위로 생각하면 된다. 이 레코드들이 바이너리 형식의 TFRecord로 저장되게 된다. 따라서 큰 데이터를 write하거나 다운로드할 때 최적화..
$ pip install tfx import tensorflow_data_validation as tfdv import tesnorflow_transform as tft import tensorflow_transform.beam as tft_beam from tfx.components import ExampleValidator from tfx.components import Evaluator from tfx.components import Transform 본 글은 이전 시리즈에 이어 머신러닝 파이프라인 설계시 사용되는 주요 프레임워크, 툴들에 대해 개괄적으로 다뤄볼 것이다. 우선 파이프라인 설계시 사용되는 TFX와 Orchestration 툴 Apache Beam에 대해 알아보자. Introduct..
본 시리즈는 최종적으로 Kubeflow를 활용하여 머신러닝 모델 자동화를 이룰 수 있도록 파이프라인을 설계하는 방법에 대해 다룰 것이다. 머신러닝 파이프라인은 모델의 life cycle 전체를 자동화할 수 있다는 점에서 매우 매력적인 도구이다. 새로운 학습 데이터가 인입될 때, 데이터 가공, 모델 학습, 분석, 그리고 배포까지 전체 워크플로우가 돌게 되어있다. 이 과정에서 데이터 분석가나 엔지니어가 개입하여 새롭게 처리하거나 작업해야할 공수가 상당히 줄어든다. 이번 개요 편에서는 머신러닝 파이프라인을 설계함으로써 어떤 이득을 얻을 수 있는지를 간단히 살펴보자. 달리 보면 머신러닝 파이프라인을 설계해야하는 이유, 필요성으로도 볼 수 있다. * 분석가는 새로운 모델 개발에 집중할 수 있다. 기존에 존..