일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
Tags
- BERT이해
- 메타버스
- Collaborative Filtering Bandit
- 언어모델
- 중국플랫폼
- llm
- AWS
- 미국석사
- nlp
- 플랫폼
- 머신러닝
- BANDiT
- 머신러닝 파이프라인
- 클라우드자격증
- docker
- RecSys
- TFX
- BERT
- MLOps
- MSCS
- transformer
- MAB
- chatGPT
- 네트워크
- COFIBA
- aws자격증
- 추천시스템
- HTTP
- 클라우드
- 자연어처리
Archives
- Today
- Total
목록multi-head attention (1)
Julie의 Tech 블로그
BERT - (2) Transformer 이해하기, 코드 구현
이전 글에서는 기계번역 도메인에서 선두를 이끌었던 NLP 모델들의 역사와 Attention 메커니즘에 대해 간단하게 살펴보았다. 이번 글은 BERT의 근간이 되는 Transformer 아키텍쳐에 대해 서술할 것이다. 논문에서 발췌한 아키텍쳐는 위와 같다. 왼쪽 블록은 인코더이고 오른쪽 블록은 디코더이다. Seq2Seq 모델에서 잠깐 설명했지만, 인코더는 인풋 시퀀스를 요약/학습하고 디코더는 타겟 시퀀스를 생성하는 역할을 한다. Transformer 모델의 아키텍쳐는 인코더와 디코더가 유사하게 생겼다. 인코더 부분만 먼저 살펴보면, 인코더는 총 6개 동일한 레이어로 구성되어있고 각 레이어는 2개의 sub-layer로 나뉘게 된다. 첫 번째 레이어는 multi-head self-attention laye..
Tech/ML, DL
2022. 12. 13. 01:29