일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
Tags
- TFX
- 머신러닝
- 중국플랫폼
- 머신러닝 파이프라인
- BERT
- 클라우드
- transformer
- HTTP
- aws자격증
- llm
- MLOps
- nlp
- COFIBA
- 추천시스템
- 언어모델
- chatGPT
- MSCS
- 자연어처리
- 미국석사
- AWS
- docker
- Collaborative Filtering Bandit
- BERT이해
- 클라우드자격증
- 메타버스
- 플랫폼
- BANDiT
- RecSys
- MAB
- 네트워크
Archives
- Today
- Total
목록precision (1)
Julie의 Tech 블로그
불균형(imbalanced) 데이터 모델링은 ROC curve를 사용을 추천하지 않는 이유
이번 글은 모델링 영역 중에서도 모델 성능 고도화를 위한 일종의 팁 같은 글이 될 것 같다. 우리는 데이터 과제를 하다 보면 불균형 데이터셋을 접할 일이 굉장히 많다. 여기서 말하는 불균형이란, 클래스 비중이 다르다는 것이다. 예를 들어 이진 분류 문제일 경우 0인 클래스와 1인 클래스를 분류하게 되는데, 일반적으로 우리가 추론하고자 하는 타겟 클래스인 1 클래스는 0 클래스에 비해 데이터 수가 적다. 단순히 생각하면 모델은 학습 데이터량이 많을 수록 좋은데, 데이터가 적은 경우 우리가 원하고자 하는 정답을 모델이 찾기 어려워지는 것이다. 모델이 Anomaly Detection과 같이 이상치를 분류하는 거라면 상황은 더 심각해진다. 모델을 설계하다보면 늘 '샘플링'의 고민을 마주하게 된다. 학습데..
Tech/ML, DL
2022. 6. 24. 20:57