일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- 중국플랫폼
- docker
- BERT이해
- AWS
- 머신러닝 파이프라인
- MAB
- 머신러닝
- chatGPT
- 클라우드자격증
- BERT
- 언어모델
- TFX
- 미국석사
- BANDiT
- 추천시스템
- 플랫폼
- nlp
- COFIBA
- MLOps
- 네트워크
- aws자격증
- HTTP
- 클라우드
- transformer
- llm
- RecSys
- MSCS
- Collaborative Filtering Bandit
- 메타버스
- 자연어처리
- Today
- Total
목록자연어처리 (6)
Julie의 Tech 블로그
이번 글은 BERT4Rec에 이어서 NLP 모델인 Transformer가 추천시스템에 어떻게 적용될 수 있는지 연구한 논문에 대해 다뤄볼 것이다. 이번 논문은 저번 BERT4Rec이 순차적인(Sequential) 추천시스템에 적용된 것에서 더 나아가 Session-based, 즉 좀 더 짧은 인풋인 세션 단위에서의 추천시스템에 초점을 두고 있다. 요즈음의 이커머스, 뉴스, 혹은 미디어 포털에서의 유저 상호작용은 굉장히 짧은 형태이다. 이 배경에는 쿠키 수집 제한 정책과 같은 법적인 이슈도 있지만 큰 이유로는 유저의 선호가 다이나믹하게 바뀌기 때문이다. 본 논문은 NVIDIA에서 발표하였으며, BERT4Rec과 다르게 방법론을 다룬 논문이 아니라 직접 모델을 학습하여 배포한 오픈소스 라이브러리를 소개하고 ..
BERT는 뛰어난 성능을 보이지만 아이러니하게도 어떤 요소로 인해 그러한 성능이 발휘되는지에 대해서는 정확히 판별할 수 없는 상황이다. 모델이 문맥을 이해하는 듯 하여 언어적인 지식을 습득하는 것 같은데, 파라미터 수와 모델의 depth로 인해 워낙 큰 모델이다보니 어떤 특성을 갖는지 분석하기가 어렵다. 따라서 BERT와 관련하여 연구된 논문 150가지 이상을 리뷰한 또 다른 논문이 등장하게 된다. 그 논문이 BERTology인데, 이 논문은 아래와 같은 내용을 중점적으로 다룬다. BERT 연구가 어떻게 진행되었고, 진행되고 있는지 BERT가 어떻게 동작하는지, 어떤 정보를 학습하는지, input이 어떻게 represent되는지, 파라미터 거대화(overparameterization issue)와 그..
BERT는 Bidirectional Encoder Representations from Transformer로서 기존 Transformer 모델의 인코더만을 채택하여 사용한다. 논문에서는 Transformer의 인코더와 BERT의 인코더가 크게 다르지 않다고 언급하고 있어 BERT의 특징인 'Bidirectionality'에 대해서 중점적으로 이야기해볼 것이다. BERT는 기존의 NLP 모델들이 'Unidirectional(단방향)'했다는 것과 다르게 양방향성을 띄고 있다. 이를 예시를 들어 설명하면 아래와 같다. I can't trust you. They have no trust left for their friends. He has a trust fund. 여기서 BERT는 다른 모델들과 ..
이전 글에서는 기계번역 도메인에서 선두를 이끌었던 NLP 모델들의 역사와 Attention 메커니즘에 대해 간단하게 살펴보았다. 이번 글은 BERT의 근간이 되는 Transformer 아키텍쳐에 대해 서술할 것이다. 논문에서 발췌한 아키텍쳐는 위와 같다. 왼쪽 블록은 인코더이고 오른쪽 블록은 디코더이다. Seq2Seq 모델에서 잠깐 설명했지만, 인코더는 인풋 시퀀스를 요약/학습하고 디코더는 타겟 시퀀스를 생성하는 역할을 한다. Transformer 모델의 아키텍쳐는 인코더와 디코더가 유사하게 생겼다. 인코더 부분만 먼저 살펴보면, 인코더는 총 6개 동일한 레이어로 구성되어있고 각 레이어는 2개의 sub-layer로 나뉘게 된다. 첫 번째 레이어는 multi-head self-attention laye..
Background 요즈음의 Machine Translation (MT)의 최신 모델들은 모두 BERT 혹은 BERT의 확장판을 기반으로 하고 있다. 실제로 NLP의 여러 Task들에 대한 최신 NLP모델들의 성능을 리더보드로 제공하는 Glue Benchmark(https://gluebenchmark.com/leaderboard)를 살펴보면, 대부분의 모델명에 BERT가 포함되어있는 것을 쉽게 확인할 수 있다. 따라서 NLP에 대한 이해를 하기 위해서는 BERT를 이해하는 것이 매우 중요하다고 할 수 있다. 최근에 화제가 되고있는 GPT와 BERT는 모두 Transformer 아키텍쳐를 채택하고 있다. 그렇기에 우리가 BERT를 이해하기 앞서서 Transformer 아키텍쳐를 살펴볼 필요가 있다. 오..
우리는 주로 인터넷을 통해 정보를 얻는다. 하지만 정보의 보고인 인터넷에서 원하는 정보만을 얻기는 어렵다. 우리는 이 과정에서 검색엔진의 도움을 받는다. 검색엔진은 사용자의 원하는 정보를 제공하기 위해 인터넷에 있는 데이터를 적절히 선별하여, 그 결과를 적절성에 따라 정렬하여 보여준다. 이 과정을 좀 더 다듬어 정리하면 아래와 같다 : 1) 크롤링(Crawling), 2) 인덱싱(Indexing), 3) 추출(Searching) 크롤링은 웹 로봇이 웹 페이지의 복사본을 만들어 웹 마다 어떤 정보가 담겨있는지를 파악하기 위해 저장하는 과정이다. 웹 로봇은 최초 페이지(아마 당시의 가장 인기 있고 접근이 많은 웹 페이지)에서 해당 페이지에 하이퍼링크로 걸려있는 다른 웹 페이즈들을 재귀적으로 방문하면서..