일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 | 31 |
- 추천시스템
- Collaborative Filtering Bandit
- 클라우드
- docker
- AWS
- TFX
- 메타버스
- 네트워크
- llm
- MSCS
- 언어모델
- MLOps
- 중국플랫폼
- nlp
- HTTP
- chatGPT
- 자연어처리
- 미국석사
- BERT
- COFIBA
- RecSys
- transformer
- MAB
- 클라우드자격증
- aws자격증
- 머신러닝
- BERT이해
- 머신러닝 파이프라인
- BANDiT
- 플랫폼
- Today
- Total
목록Tech/ML, DL (38)
Julie의 Tech 블로그
Quantization은 LLM이 화제가 되기 전에도 이미 모델의 complexity 나 cost를 줄이고자 하는 노력의 일환으로 연구가 되어왔던 분야이다. 물론 더 가벼운/저렴한 모델을 만들 때 quantization만이 유일한 대응책은 아니다. 모델 아키텍쳐 경량화 등의 방법도 있겠지만 quantization이 그 중에서도 가장 전후차이가 크다고 한다. LLM 모델들의 성능이 상승함에 따라 점차 일반화/서비스화 고민들이 많아지는 가운데, 갖춰지지 않은 대중적인 환경에서도 모델을 활용할 수 있는 방법에 대한 고민이 많아지는 듯 하다. 과거엔 IoT의 성장과 edge computing에 대한 관심도 한 몫했던 것 같다. 그럼 이번 글은 LLM에서 뜨거운 감자가 되고 있는 Quantization에 대해 간..
suite of LLMOps tool built for the development of LLM-powered applications Weight and Biases는 wandb라는 패키지를 제공하고 있다. 본래 이 라이브러리는 MLOps용으로 TensorBoard와 유사하게 metric들이 학습과정에서 어떻게 변화하는지를 표현해주는 대시보드 기능을 제공한다. W&B Prompts는 LLM에서 있었던 input, output 그리고 파라미터 값들, 결과가 성공적이었는지/실패였는지 등을 포함하여 편리하게 트래킹할 수 있도록 대시보드를 제공한다. Trace Timeline: LLM에서의 각 execution 스텝과 상태를 그래프 형태로 표현, 클릭해서 누르고 보면 좀 더 자세하게 parameter값이나 어디..
최근 ChatGPT의 흥행 이후 많은 LLM 기반 패키지들이 생겨나고 있다. 마치 물이 들어오기를 기다리고 있었던 선박들 마냥 기존의 라이브러리를 확장해서 오픈 소스로 공개하기도하고, 기존 서비스에 extension으로 확장해서 사용할 수 있게끔 기능을 제공하는 등 LLM ecosystem이 더 풍부해지고 있다. 그 중에서도 오늘 글은 LangChain이란 LLM으로 E2E Application을 개발할 수 있도록 해주는 프레임워크에 대해 다뤄볼 것이다. 개인적으로 독스나 코드를 보며 여러 방면에서 가려운 곳을 정확히 긁어주고 있어 감동(?)받았었다. LangChain은 여러 모듈로 구성되어있는데, 그 모듈들로 Application을 아래와 같이 확장해나갈 수 있다. LLMs: LM에 input을 넣어 ..
ChatGPT가 요즘 세간의 관심을 받고 있다. 비전공자들에게도 굉장히 뜨거운 감자인데 개인적으로 UI/UX도 인기를 끄는데 한 몫했다고 생각한다. 이전 대화를 기억함으로써 대화를 이어나갈 수 있다는 점, 기대 이상의 속도로 텍스트를 만들어내는 것과 답변하면서도 중간에 수정하는 모습, 그리고 '감정적인 교류'처럼 보이게끔 하는 칭찬에 대한 감사표현이나 비판에 대한 애도표현들. 마지막으로는 대화의 내용을 한 줄로 요약해서 제목에 붙이는 것까지. 답변에 대한 퀄리티도 준수한 편인데 사람이 이해할 수 있는 수준으로의 문법적/문맥적 오류 없이 답변을 생성해낸다. 메타인지도 되는 것처럼 본인에 대해서 설명하거나 평가도 가능하고, 답변의 길이도 꽤 길다. 오히려 역으로 옳지 않은 응답이나 이해가 부족한 경우에는 응..
우리가 머신러닝 모델을 설계하는 것은 결국 관측 가능한 범위에서 샘플링된 데이터를 활용하여 알고 싶은 데이터의 특성 혹은 분포를 예측하는 모델을 디자인하는 과정이다. 이 역시 통계학에서처럼 사람이 세상의 모든 데이터와 그 분포에 대해 알 수 없듯이, 모델도 제한된 범위에서의 데이터로 최대한 일반성을 지닐 수 있도록 설계한다. Inductive bias는 모델의 아키텍쳐를 설계할 때/이해할 때 중요하게 고려해야하는 개념이라고 생각한다. Inductive bias란 모델이 학습하지 않은 데이터에 대해 추론할 때 참고하는 어떠한 가정/편향이다. 예를 들어 내가 고양이와 생선 이미지로만 이미지 인식 모델을 학습시켰는데, 전혀 다른 개체의 이미지에 대해 모델에게 라벨링을 하라고 한다면 모델이 기존에 고양이와 ..
BERT는 뛰어난 성능을 보이지만 아이러니하게도 어떤 요소로 인해 그러한 성능이 발휘되는지에 대해서는 정확히 판별할 수 없는 상황이다. 모델이 문맥을 이해하는 듯 하여 언어적인 지식을 습득하는 것 같은데, 파라미터 수와 모델의 depth로 인해 워낙 큰 모델이다보니 어떤 특성을 갖는지 분석하기가 어렵다. 따라서 BERT와 관련하여 연구된 논문 150가지 이상을 리뷰한 또 다른 논문이 등장하게 된다. 그 논문이 BERTology인데, 이 논문은 아래와 같은 내용을 중점적으로 다룬다. BERT 연구가 어떻게 진행되었고, 진행되고 있는지 BERT가 어떻게 동작하는지, 어떤 정보를 학습하는지, input이 어떻게 represent되는지, 파라미터 거대화(overparameterization issue)와 그..