'언어모델' 태그의 글 목록

Notice

Recent Posts

Recent Comments

Link

Julie 네이버 블로그

« 2025/05 »
일	월	화	수	목	금	토
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31

Tags more

Archives

Today

Total

관리 메뉴

목록언어모델 (8)

SWE Julie's life

LLM OS? 언어모델이 제시하는 새로운 패러다임

Andrej Karpathy가 X에 LLM OS를 출시하려고 준비 중이라며 올린 게시물을 보고 이 글을 쓰기 시작했다. https://twitter.com/karpathy/status/1723140519554105733 GPT4를 프로세서로 사용하고 context window를 RAM으로, 그리고 프로세서가 브라우저와 다른 LLM모델, 파일 시스템, 소프트웨어 툴, 그리고 주변장치 I/O와의 communication이 가능한 형태를 그리고 있다. 이러한 설계가 시작된 배경을 이해해보려면 요즈음의 LLM이 어떤 task 수행이 가능한가를 살펴보면 된다. - text, audio, vision등의 modality가 갖춰진 input, output 처리 - code interpreter, 프로그램을 읽고 쓰는..

Tech 2023. 11. 25. 16:55

MemGPT: LLM 시스템, context window 한계 극복법

MemGPT는 UC Berkley AI Research 랩에서 제안한 기술이며 LLM을 OS 형태로 구성한 새로운 시도 중 하나이다. ArXiv에서는 LLM OS 혹은 LLM system이라고도 말한다. 다른 여타 LLM 모델과는 다르게 output이function call이며, 이 function call은 시스템의 메모리에 대한 접근, read, write 등의 task를 수행한다. 이들이 MemGPT를 통해 궁극적으로 이루고자 했던 바는 OS로의 활용보다는 LLM의 context window 한계를 극복하는 것이다. 개인적으로는 이 부분이 명백하게 와닿지 않았다. Context window를 극복하기 위한 방법 중 하나로 OS가 메모리와 디스크에 번갈아 접근하여 단기 및 장기 기억을 보유하는 것에..

Tech/ML, DL 2023. 11. 25. 16:53

Secret of Long Context Length

* 이 글은 아래 아티클을 한글로 의역한 내용을 담고 있습니다. https://blog.gopenai.com/how-to-speed-up-llms-and-use-100k-context-window-all-tricks-in-one-place-ffd40577b4c The Secret Sauce behind 100K context window in LLMs: all tricks in one place tldr; techniques to speed up training and inference of LLMs to use large context window up to 100K input tokens during training and… blog.gopenai.com 배경 요즈음 등장하는 LLM의 context ..

Tech/ML, DL 2023. 11. 25. 16:51

GPT 말 잘듣게 하는 법 - Prompt 작성 팁

* 이 글은 여러 자료에서 나왔던 내용을 조합 및 개인의 사용경험을 기반으로 서술되었습니다. LLM으로 무엇을 하느냐에 따라 프롬프트를 작성하는 방법이 달라진다. LLM은 일반적으로 질의응답(QA), 번역, 요약, 대화, 생성, 코딩 등의 task를 수행할 수 있다. 그러나 광범위하게 "내가 지니고 있는 요구사항을 프롬프트에 어떻게 잘 담아서 LLM에게 설명할 수 있을까"라는 관점에서 프롬프트 작성 가이드를 정리해보자면 아래와 같다. 프롬프트에는 일반적으로 3가지의 정보가 포함되어야한다. 1. Topic / Task or Role 2. Input, Output Indicator 3. Current Input 첫 시작은 보통 LLM에게 너는 어떤 역할을 해야한다 혹은 하고자 하는 도메인에 대한 일반적인 설..

Tech/ML, DL 2023. 10. 9. 10:32

[오피니언] GPT 등장 이후 시장은 어떻게 변화하고 있나, 우리는 어떻게 대응하나?

오늘은 ChatGPT의 등장 이후 여러 GPT 모델을 써보면서 가장 크게 변화되었다고 생각하는 영역에 대해 지극히 개인적인 주관을 정리해보려고 한다. 가장 크게 영향을 받은 영역은 1) 검색 그리고 2) 프로그래밍이라고 생각한다. 물론 나는 비즈니스 사이드에서 일하는 사람이 아니기 때문에 리서치 등의 비즈니스 영역의 task는 시켜보지 않아서 그들은 시작부터 고려대상이 아니었다는 점을 감안하고 읽어봐주길 바란다! 우선 검색부터 보자면, 자연어 기반 검색이 가능해졌다. 이는 개인이 얻는 정보의 질적인 차이를 줄여주지 않을까 생각했다. 예전에는 필요한 검색을 정확한 키워드로 찾아야만 볼 수 있었다면 이제는 LLM기반으로 시야의 제한을 확장해준 느낌이다. 내가 나의 능력으로 만들 수 있는 꼬깔콘은 조그마한데,..

Tech/ML, DL 2023. 8. 23. 23:10

LLM Evaluation

LLM 모델의 성능은 어떻게 평가할 수 있을까? LLM 모델 기반 어플리케이션을 개발하는 사람이라면 누구나 다 prompt engineering과 LLM 모델의 블랙박스에 진절머리가 나있을테다. 나 역시 LLM 프로젝트를 하면서 계속 고민했던 사항이고 아직도 답을 못내렸기 때문에 오늘은 이 글을 통해 evaluation에 대한 이야기를 나누어볼까 한다. 우리는 일반적으로 ML/DL 모델을 개발하면 ‘숫자’로 모델의 성능을 평가하려고 한다. 그 이유인 즉슨 하나의 모델도 실험해볼 것이 너무 많기 때문에 사람이 일일이 결과를 들여다보기 어려울 뿐더러, 대개 정답지가 있는 상황에서 개발되었기 때문에 숫자로 점수를 매길 수 있기 때문이다. 하지만 LLM은 생성형 AI 특성상 아웃풋의 품질에 대해 수치화하기가 참..

Tech/ML, DL 2023. 8. 20. 15:45

이전 Prev 1 2 Next 다음

목록언어모델 (8)

SWE Julie's life

티스토리툴바