일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |
- COFIBA
- AWS
- chatGPT
- 머신러닝
- 중국플랫폼
- BERT
- 플랫폼
- TFX
- MSCS
- Collaborative Filtering Bandit
- docker
- 클라우드자격증
- 네트워크
- BERT이해
- 언어모델
- HTTP
- llm
- 메타버스
- nlp
- BANDiT
- aws자격증
- MLOps
- 클라우드
- 자연어처리
- 머신러닝 파이프라인
- transformer
- 추천시스템
- MAB
- RecSys
- 미국석사
- Today
- Total
목록분류 전체보기 (150)
Julie의 Tech 블로그
본 글에서는 추천 시스템 문제 중 하나인 One-class 협업필터링에 대해 정의를 짚고, 그를 해결하기 위한 알고리즘들을 간단하게 소개해볼 것이다. One-class Collaborative Filtering이란 One-class collaborative filtering의 문제정의에 대해 살펴보자. Input은 사용자의 implicit한 피드백을 받고, output으로는 사용자의 top N 상품을 추천하는 것이다. 여기서 implicit한 피드백이라는 것은, 명확한 피드백이 아니라는 것인데, 즉 rating과 같이 직접적으로 유저가 선호를 매긴 것이 아니라는 것이다. rating은 통상 1부터 5점까지 scaled된 점수를 매기게 되지만, implicit 피드백은 구매 이력이라던지, 브라우징 이력..
지금껏 중국 플랫폼 사례들을 살펴보았는데, 본 글은 국내 플랫폼 사례들을 다뤄볼 것이다. 이제 플랫폼 시리즈도 어느정도 마무리되어간다. 요즈음 플랫폼 관련된 국내외 규제들이 핫이슈인데, 우리나라도 최근 네이버와 카카오를 중심으로 찬바람이 불기 시작했다. 국내 이커머스 시장에서는 중국이나 미국처럼만큼의 독점적인 지위를 가진 플랫폼을 찾아 보기가 어렵다. 물론 요즈음 쿠팡이 굉장히 선두권을 쥐고 있지만, 네이버, 위메프, 당근마켓 등 충분히 경쟁력 있는 시장들도 어느 정도 비중을 차지하고 있다. 그 이유를 저자는 '교차 네트워크 효과가 발휘되지 못해서'라고 이야기한다. 국내는 네이버가 이커머스 몰에서 중요한 위치를 차지하고 있는데, 네이버는 사실 이커머스 플랫폼 공급자도 아니고, 소비자도 아니다. 한..
이번 편은 지난 편에 이어 머신러닝 파이프라인 단계 중 하나인 Data Validation(검증) 과 관련된 기술들에 대해 소개해볼 것이다. 지난번의 Data Ingestion 단계가 이루어지면, 인풋으로 들어온 데이터가 올바른지에 대해 검증하는 단계이다. 모델로 학습하기 이전에 이상치가 있는지, 데이터 범위에 맞게 분포가 형성되어있는지 등을 확인하게 된다. Data Validation 단계에서는 아래 세 가지를 중점적으로 살펴보게 된다: 1. Data Anomaly 확인 2. Data Schema 변경건 확인 3. 이전 버전의 데이터와 주요 통계치가 유사한 수준에 있는지 이 세가지 포인트에 있어서 차이가 크게 발생하거나 문제가 있을 경우 워크플로우를 중단하여 운영자가 점검할 수 있도록 해준다. ..
본 시리즈는 추천 시스템에 대해, 특히 Collaborative Filteirng 방식에 대해 좀 더 깊이 있게 다뤄볼 것이다. 이번 글은 첫 편인 만큼 추천 시스템과 그와 관련된 기본적인 개념/툴들에 대해 개괄적으로 훑어볼 것이다. 데이터 마이닝 (요즈음은 데이터 사이언스라고 더 불리는 듯 함) 은 데이터를 모아 분석한 이후 정보를 추출하는 기술이다. 정보란 좀 더 유의미(useful)하고 일반적이지 않은(non-trivial) 데이터를 의미한다. 데이터 마이닝 기술에는 여러 가지 토픽들이 있다. - 분류(Classification) - 군집화(Clustering) - 이상탐지(Outlier Detection) - 연관분석(Association Rules) 이러한 데이터 마이닝 기술은 추천 시스..
우리나라의 싸이월드는 열풍이 대단했다. 과거엔 너도나도 할 것 없이 도토리라는 디지털 화폐로 미니홈피를 꾸미기 시작했다. 하지만 싸이월드는 "사이좋은 사람들"이라는 캐치프라이즈처럼 SNS에 머물렀다. 플랫폼을 발전하지 못했고, SNS로 머물렀던 싸이월드가 쇠락길을 걷게 된 것은 시간이 흘러 오프라인 관계가 변했기 때문이다. 사람들이 점점 나이가 들면서 관계가 변하고, 기존의 관계를 정리하게 되면서 더 이상 싸이월드를 찾지 않게 되었다. 중국의 위챗은 싸이월드와 달리 폐쇄형 커뮤니티 서비스가 오픈된 플랫폼으로 다시 탄생할 수 있었다. 어떻게 그럴 수 있었을까? 알리바바와 다르게 텐센트는 굉장히 폐쇄적인 서비스 QQ를 운영했다. QQ는 그 내부 안에서 모든 것이 다 해결되었으며, 다른 누구에게도 시장..
이번 글부터는 머신러닝 파이프라인 단계별로 좀 더 상세하게 살펴볼 것이다. 일단 가장 첫 단추라고 할 수 있는 데이터 Ingestion 부터 알아보도록 하자. TFX 는 데이터를 파일 혹은 어느 서비스 형태로 파이프라인에 삽입할 수 있도록 Component를 제공한다. 그 중 하나가 TFRecord , 즉 사이즈가 큰 데이터를 스트리밍하는 용도로 최적화된 경량화된 format 이다. TFRecord 파일은 여러개의 tf.Example 레코드로 구성되어 있는데, 각 레코드는 하나 이상의 feature 로 구성되어있다. feature는 데이터에서 컬럼에 대응하는 단위로 생각하면 된다. 이 레코드들이 바이너리 형식의 TFRecord로 저장되게 된다. 따라서 큰 데이터를 write하거나 다운로드할 때 최적화..