일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- MSCS
- 플랫폼
- RecSys
- AWS
- MAB
- transformer
- 클라우드
- 머신러닝
- 메타버스
- llm
- COFIBA
- BERT이해
- docker
- nlp
- 클라우드자격증
- aws자격증
- 자연어처리
- 머신러닝 파이프라인
- 미국석사
- BERT
- chatGPT
- BANDiT
- TFX
- Collaborative Filtering Bandit
- HTTP
- 추천시스템
- MLOps
- 언어모델
- 중국플랫폼
- 네트워크
- Today
- Total
목록Tech/ML, DL (38)
Julie의 Tech 블로그
이번 글에는 지금까지 경진대회에 참가해보면서 이리저리 리서치하고 써봤던 EDA 테크닉을 몇 개 정리하려고 한다. EDA의 결과에 따라 어떤 feature를 사용할 것인지, 어떤 종류의 모델이 적합한지에 대해 파악할 수 있기 때문에 EDA는 무척 중요한 프로세스다. 필자는 대부분 예측(Prediction) 문제를 다루는 대회를 경험해봐서, 예측 모델을 빌딩하는 것을 베이스에 두고 글을 써내려갈 것이다. 여느 대회에 참여하게 되면 가장 먼저 학습데이터를 다운받는 것부터 시작한다. 데이터 명세서까지 제공해주는 친절한 대회라면, 그 명세서를 옆에 두고 데이터를 개괄적으로 둘러보기 시작할 것이다. 이를 바탕으로 가장 먼저 시도해보는 것들은 기본적인 EDA이다. 1. 데이터 이해 - 데이터 사이즈, 스키마 이해..
본 글은 강화학습의 기본적인 개념에 대해 살펴보고, 현재 트렌드를 간단히 다뤄볼 것이다. Reinforcement Learning is a discrete time stochastic control process, where an agent interacts with its environment/state 강화학습은 AI Agent가 특정 state/situation 내에 최대의 보상 Q를 가져다주는 action을 학습하는 과정이다. 이 의미를 이해하려면 강화학습에서 주로 사용되는 용어를 이해해야한다. - State : 특정 환경 내 상태를 의미한다. - Agent : 모델 혹은 AI가 된다. - Reward : 보상을 의미한다. - Action : Agent가 취할 행동을 의미한다. - Policy :..
요즈음 상품 추천 알고리즘에 대해 고민을 많이 하면서, 리서칭하다 보면 MAB 접근법 등 Bandit 이라는 개념이 많이 등장한다. 이번 글에서는 Bandit 알고리즘이란 무엇이며, 추천시스템과는 어떻게 연결되는지를 살펴보고자 한다. 그리고 MAB 문제를 해결하는 여러 알고리즘에 대해 정리해볼 것이다. 우선 수확(Exploitation)과 탐험(Exploration)이라는 개념에 대해 고찰해보자. 우리가 어떤 레스토랑에서 밥을 먹을지 고민을 하고 있다고 가정해보자. 우리는 하나의 레스토랑에서 밥을 먹을 수 밖에 없고, 비용을 지불해야하니 가장 맛있는 레스토랑에서 식사를 하고 싶다. 수확이란 가장 효용이 높은 곳에서 집중적으로 보상을 받는 행동을 의미하고, 탐험은 지금껏 해보지 않은 경험이라 새로운 시..
우리가 딥러닝을 처음 접할 때 가장 많이 듣는 라이브러리, 'Tensorflow'에 대해 다뤄볼 것이다. 우선 개괄적인 이야기부터하자면, Tensorflow는 구글이 개발한 라이브러리이다. 딥러닝 모델을 구현하기 위해 필요한 기능들을 제공하는 오픈소스 프레임워크이며, 기반언어는 C++이다. 모바일 뿐만 아니라 여러 OS에서 구동 가능하여 큰 인기를 끌었다. Tensorflow라는 이름에서도 유추가 가능하듯이, Tensor라는 다차원 배열 데이터를 노드로 담아 Dataflow를 만든다. 위키에서는 '상태를 가지는 유향그래프' 라고 하여 Statefull dataflow라고 하는데, 과거 데이터를 지속적으로 저장하면서 방향을 지닌채 진행되는 그래프라고 생각하면 된다. 노드와 엣지로 구성되어 있으며, ..
지난 글에서 GBM과 앙상블에 대해 다뤄보았는데, 이번엔 GBM 모델 중 대표적인 두 모델을 살펴보고자 한다. GBM모델은 앞선 글에서도 다루었듯이, Boosting기법의 앙상블 모델이기 때문에 성능은 뛰어나나, 연산량이 많아 속도 측면에서 개선하고자 하는 니즈가 있다. lightGBM은 데이터의 size, dimension 측에서 각각 복잡도를 줄일 수 있는 기법을 개발하여 반영하였다. lightGBM 모델 논문을 리뷰한 글은 아래 링크에 있다. https://blog.naver.com/ilovelatale/222298514382 Kaggle Case Study - (2) LightGBM 모델 오늘은 Santender Customer Transaction Prediction 모델에서 우승팀 중 하나..
Kaggle 필사를 하다 보면 가장 흔하게 사용되는 모델들이 있다. 예를 들어 XGBoost와 lightGBM 모델이 그 예로 해당된다. 오늘은 이 두 모델이 근간을 두고 있는 앙상블에 대한 개념을 다시 짚고, Gradient Boosting 알고리즘에 대해 살펴볼 것이다. 앙상블에는 두 가지 타입이 있다. 1. 배깅(Bagging) 배깅은 독립된 모델들의 결과를 합산하여 다수결 투표(Voting)을 통해 결과를 산출하는 것이다. parallel ensemble이라고도 부른다. 위 이미지에서 왼쪽처럼 bootstrap된(=랜덤 복원샘플링) 데이터가 각 분류기에 input되고, 각각에 따른 결과물들을 한 데 결합하여(Aggregation) 중 다수가 추측한 결과대로 결과를 뽑는 것이다. 2. 부스팅(B..