일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 | 29 |
30 | 31 |
- 플랫폼
- RecSys
- BANDiT
- BERT
- HTTP
- 미국석사
- TFX
- llm
- MSCS
- AWS
- 머신러닝 파이프라인
- COFIBA
- chatGPT
- MLOps
- 클라우드자격증
- MAB
- 추천시스템
- 네트워크
- 언어모델
- docker
- 자연어처리
- transformer
- Collaborative Filtering Bandit
- aws자격증
- 머신러닝
- 중국플랫폼
- 메타버스
- 클라우드
- BERT이해
- nlp
- Today
- Total
목록Tech (120)
Julie의 Tech 블로그

본 글에서는 추천 시스템 문제 중 하나인 One-class 협업필터링에 대해 정의를 짚고, 그를 해결하기 위한 알고리즘들을 간단하게 소개해볼 것이다. One-class Collaborative Filtering이란 One-class collaborative filtering의 문제정의에 대해 살펴보자. Input은 사용자의 implicit한 피드백을 받고, output으로는 사용자의 top N 상품을 추천하는 것이다. 여기서 implicit한 피드백이라는 것은, 명확한 피드백이 아니라는 것인데, 즉 rating과 같이 직접적으로 유저가 선호를 매긴 것이 아니라는 것이다. rating은 통상 1부터 5점까지 scaled된 점수를 매기게 되지만, implicit 피드백은 구매 이력이라던지, 브라우징 이력..

이번 편은 지난 편에 이어 머신러닝 파이프라인 단계 중 하나인 Data Validation(검증) 과 관련된 기술들에 대해 소개해볼 것이다. 지난번의 Data Ingestion 단계가 이루어지면, 인풋으로 들어온 데이터가 올바른지에 대해 검증하는 단계이다. 모델로 학습하기 이전에 이상치가 있는지, 데이터 범위에 맞게 분포가 형성되어있는지 등을 확인하게 된다. Data Validation 단계에서는 아래 세 가지를 중점적으로 살펴보게 된다: 1. Data Anomaly 확인 2. Data Schema 변경건 확인 3. 이전 버전의 데이터와 주요 통계치가 유사한 수준에 있는지 이 세가지 포인트에 있어서 차이가 크게 발생하거나 문제가 있을 경우 워크플로우를 중단하여 운영자가 점검할 수 있도록 해준다. ..

본 시리즈는 추천 시스템에 대해, 특히 Collaborative Filteirng 방식에 대해 좀 더 깊이 있게 다뤄볼 것이다. 이번 글은 첫 편인 만큼 추천 시스템과 그와 관련된 기본적인 개념/툴들에 대해 개괄적으로 훑어볼 것이다. 데이터 마이닝 (요즈음은 데이터 사이언스라고 더 불리는 듯 함) 은 데이터를 모아 분석한 이후 정보를 추출하는 기술이다. 정보란 좀 더 유의미(useful)하고 일반적이지 않은(non-trivial) 데이터를 의미한다. 데이터 마이닝 기술에는 여러 가지 토픽들이 있다. - 분류(Classification) - 군집화(Clustering) - 이상탐지(Outlier Detection) - 연관분석(Association Rules) 이러한 데이터 마이닝 기술은 추천 시스..

이번 글부터는 머신러닝 파이프라인 단계별로 좀 더 상세하게 살펴볼 것이다. 일단 가장 첫 단추라고 할 수 있는 데이터 Ingestion 부터 알아보도록 하자. TFX 는 데이터를 파일 혹은 어느 서비스 형태로 파이프라인에 삽입할 수 있도록 Component를 제공한다. 그 중 하나가 TFRecord , 즉 사이즈가 큰 데이터를 스트리밍하는 용도로 최적화된 경량화된 format 이다. TFRecord 파일은 여러개의 tf.Example 레코드로 구성되어 있는데, 각 레코드는 하나 이상의 feature 로 구성되어있다. feature는 데이터에서 컬럼에 대응하는 단위로 생각하면 된다. 이 레코드들이 바이너리 형식의 TFRecord로 저장되게 된다. 따라서 큰 데이터를 write하거나 다운로드할 때 최적화..

$ pip install tfx import tensorflow_data_validation as tfdv import tesnorflow_transform as tft import tensorflow_transform.beam as tft_beam from tfx.components import ExampleValidator from tfx.components import Evaluator from tfx.components import Transform 본 글은 이전 시리즈에 이어 머신러닝 파이프라인 설계시 사용되는 주요 프레임워크, 툴들에 대해 개괄적으로 다뤄볼 것이다. 우선 파이프라인 설계시 사용되는 TFX와 Orchestration 툴 Apache Beam에 대해 알아보자. Introduct..

본 시리즈는 최종적으로 Kubeflow를 활용하여 머신러닝 모델 자동화를 이룰 수 있도록 파이프라인을 설계하는 방법에 대해 다룰 것이다. 머신러닝 파이프라인은 모델의 life cycle 전체를 자동화할 수 있다는 점에서 매우 매력적인 도구이다. 새로운 학습 데이터가 인입될 때, 데이터 가공, 모델 학습, 분석, 그리고 배포까지 전체 워크플로우가 돌게 되어있다. 이 과정에서 데이터 분석가나 엔지니어가 개입하여 새롭게 처리하거나 작업해야할 공수가 상당히 줄어든다. 이번 개요 편에서는 머신러닝 파이프라인을 설계함으로써 어떤 이득을 얻을 수 있는지를 간단히 살펴보자. 달리 보면 머신러닝 파이프라인을 설계해야하는 이유, 필요성으로도 볼 수 있다. * 분석가는 새로운 모델 개발에 집중할 수 있다. 기존에 존..