일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |
- 자연어처리
- 머신러닝
- MLOps
- nlp
- 클라우드자격증
- llm
- 네트워크
- transformer
- 머신러닝 파이프라인
- BERT
- 추천시스템
- RecSys
- HTTP
- MSCS
- 미국석사
- chatGPT
- TFX
- 클라우드
- BERT이해
- BANDiT
- 플랫폼
- AWS
- Collaborative Filtering Bandit
- docker
- 메타버스
- aws자격증
- 중국플랫폼
- MAB
- COFIBA
- 언어모델
- Today
- Total
목록머신러닝 (5)
Julie의 Tech 블로그
우리가 머신러닝 모델을 설계하는 것은 결국 관측 가능한 범위에서 샘플링된 데이터를 활용하여 알고 싶은 데이터의 특성 혹은 분포를 예측하는 모델을 디자인하는 과정이다. 이 역시 통계학에서처럼 사람이 세상의 모든 데이터와 그 분포에 대해 알 수 없듯이, 모델도 제한된 범위에서의 데이터로 최대한 일반성을 지닐 수 있도록 설계한다. Inductive bias는 모델의 아키텍쳐를 설계할 때/이해할 때 중요하게 고려해야하는 개념이라고 생각한다. Inductive bias란 모델이 학습하지 않은 데이터에 대해 추론할 때 참고하는 어떠한 가정/편향이다. 예를 들어 내가 고양이와 생선 이미지로만 이미지 인식 모델을 학습시켰는데, 전혀 다른 개체의 이미지에 대해 모델에게 라벨링을 하라고 한다면 모델이 기존에 고양이와 ..
우리는 생각보다 빈번히 특정 데이터가 이상 데이터인지를 판단해야한다. 이러한 경우에는 분류 모델로도 접근할 수 있지만, 이상탐지 모델이 더 적합할 때가 있다. 이상탐지 모델은 흔히 공정 과정에서 생산되는 이미지 데이터에 적용하는 경우가 많다. 실제로 대표적인 이상탐지 모델들은 딥러닝계열 모델들이다. 그외엔 시계열 데이터에 적용되는 모델들이 있다. 시계열 데이터도 공정과 같은 일정한 프로세스에서 생산된 데이터를 시간 기반으로 놓고 어떤 부분에서 특이 패턴이 나타나는지를 탐지한다. 좀 더 리서치를 해보면 이 외에도 더 많은 분야에서 이상탐지 모델들을 활용하곤 한다. 실제로 카드사에서도 고객들의 카드결제 내역을 바탕으로 이상탐지를 판단할 때가 있다고 한다. 전통적인 이상감지 방법은 세 가지가 있다...
요즘 흔하게 많이 사용되는 Catboost 모델에 대해서 정리하려고 한다. Catboost는 이름에서도 유추할 수 있듯 boosting 앙상블 기법을 사용하는 모델 중 하나이다. 논문에서는 이렇게 Catboost를 소개한다고 한다. "CatBoost is a high-performance open source library for gradient boosting on decision trees." 이전에 앙상블과 Gradient Boosting 모델에 대해 정리한 글이 있는데 알고 읽으면 좀 더 도움이 된다. https://blog.naver.com/ilovelatale/222320553535 Boosting vs Bagging 다시 간단하게 정리하자면 앙상블의 기법 중에서는 Boosting과 Bag..
이번 글부터는 머신러닝 파이프라인 단계별로 좀 더 상세하게 살펴볼 것이다. 일단 가장 첫 단추라고 할 수 있는 데이터 Ingestion 부터 알아보도록 하자. TFX 는 데이터를 파일 혹은 어느 서비스 형태로 파이프라인에 삽입할 수 있도록 Component를 제공한다. 그 중 하나가 TFRecord , 즉 사이즈가 큰 데이터를 스트리밍하는 용도로 최적화된 경량화된 format 이다. TFRecord 파일은 여러개의 tf.Example 레코드로 구성되어 있는데, 각 레코드는 하나 이상의 feature 로 구성되어있다. feature는 데이터에서 컬럼에 대응하는 단위로 생각하면 된다. 이 레코드들이 바이너리 형식의 TFRecord로 저장되게 된다. 따라서 큰 데이터를 write하거나 다운로드할 때 최적화..
이번 글에는 지금까지 경진대회에 참가해보면서 이리저리 리서치하고 써봤던 EDA 테크닉을 몇 개 정리하려고 한다. EDA의 결과에 따라 어떤 feature를 사용할 것인지, 어떤 종류의 모델이 적합한지에 대해 파악할 수 있기 때문에 EDA는 무척 중요한 프로세스다. 필자는 대부분 예측(Prediction) 문제를 다루는 대회를 경험해봐서, 예측 모델을 빌딩하는 것을 베이스에 두고 글을 써내려갈 것이다. 여느 대회에 참여하게 되면 가장 먼저 학습데이터를 다운받는 것부터 시작한다. 데이터 명세서까지 제공해주는 친절한 대회라면, 그 명세서를 옆에 두고 데이터를 개괄적으로 둘러보기 시작할 것이다. 이를 바탕으로 가장 먼저 시도해보는 것들은 기본적인 EDA이다. 1. 데이터 이해 - 데이터 사이즈, 스키마 이해..