일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |
- 추천시스템
- 클라우드자격증
- BANDiT
- transformer
- chatGPT
- BERT이해
- 언어모델
- 미국석사
- 클라우드
- 머신러닝 파이프라인
- 메타버스
- 중국플랫폼
- nlp
- MLOps
- llm
- RecSys
- 네트워크
- BERT
- AWS
- MSCS
- 자연어처리
- 플랫폼
- MAB
- Collaborative Filtering Bandit
- TFX
- COFIBA
- aws자격증
- HTTP
- docker
- 머신러닝
- Today
- Total
목록Tech (120)
Julie의 Tech 블로그
클라우드 자격증 시리즈 첫 번째 글로, 개괄적인 클라우드 이야기를 정리하려고 한다. 클라우드란 어떻게 정의할 수 있는지, 어떤 주요 서비스들이 있는지를 살펴볼 것이다. 클라우드란 클라우드 서비스란 무엇일까? 클라우드 플랫폼들은 대부분 큰 회사에서 주도하고 있다. Amazon, Microsoft와 같이 평소에도 본사의 서비스를 운영하기 위해 여러 대의 큰 서버들을 운영하는 곳이다. 이 회사들은 늘 구비하고 있는 모든 서버를 사용하지 않는다. 즉 유휴 서버들이 있다. 이러한 유휴 서버들을 다른 회사에 대여해주면 어떨까 하는 아이디어에서 클라우드가 시작했다. 클라우드 서비스가 있기 전에는 모든 회사가 어떤 서비스를 개발하거나 컴퓨팅 자원이 필요할 경우 직접 서버를 구매해서 구비해두었다. 이를 '온프레미스(..
이번에 AWS Solutions Architect Associate 자격증을 준비하게 되었다. 사실 회사에 근무하면서 쌓은 AWS 사용 경험이 있어서 상대적으로 준비 시간을 덜 들이고도 합격할 수 있을 거라는 기대가 있다. 언젠간 준비하고 합격해야지 생각하고 있었는데 이번 다가오는 8월 30일부터 시험 유형이 크게 변형될 거라는 이야기가 있어 부랴부랴 준비하게 되었다. 여러 클라우드 플랫폼이 있는데 그 중에서도 AWS를 선정하게 된 이유는 큰 이유는 없다. 내가 AWS를 가장 많이 사용해봤기도 하고 여전히 클라우드 서비스 중에서도 1위를 달리고 있기 때문이다. 사실상 클라우드 서비스는 컴퓨팅, 데이터베이스, 네트워크, 보안 등 각 분야별 필요한 서비스들은 어느 플랫폼에든 존재하기 때문에 큰 틀에서만 이해..
이번 글은 모델링 영역 중에서도 모델 성능 고도화를 위한 일종의 팁 같은 글이 될 것 같다. 우리는 데이터 과제를 하다 보면 불균형 데이터셋을 접할 일이 굉장히 많다. 여기서 말하는 불균형이란, 클래스 비중이 다르다는 것이다. 예를 들어 이진 분류 문제일 경우 0인 클래스와 1인 클래스를 분류하게 되는데, 일반적으로 우리가 추론하고자 하는 타겟 클래스인 1 클래스는 0 클래스에 비해 데이터 수가 적다. 단순히 생각하면 모델은 학습 데이터량이 많을 수록 좋은데, 데이터가 적은 경우 우리가 원하고자 하는 정답을 모델이 찾기 어려워지는 것이다. 모델이 Anomaly Detection과 같이 이상치를 분류하는 거라면 상황은 더 심각해진다. 모델을 설계하다보면 늘 '샘플링'의 고민을 마주하게 된다. 학습데..
우리는 생각보다 빈번히 특정 데이터가 이상 데이터인지를 판단해야한다. 이러한 경우에는 분류 모델로도 접근할 수 있지만, 이상탐지 모델이 더 적합할 때가 있다. 이상탐지 모델은 흔히 공정 과정에서 생산되는 이미지 데이터에 적용하는 경우가 많다. 실제로 대표적인 이상탐지 모델들은 딥러닝계열 모델들이다. 그외엔 시계열 데이터에 적용되는 모델들이 있다. 시계열 데이터도 공정과 같은 일정한 프로세스에서 생산된 데이터를 시간 기반으로 놓고 어떤 부분에서 특이 패턴이 나타나는지를 탐지한다. 좀 더 리서치를 해보면 이 외에도 더 많은 분야에서 이상탐지 모델들을 활용하곤 한다. 실제로 카드사에서도 고객들의 카드결제 내역을 바탕으로 이상탐지를 판단할 때가 있다고 한다. 전통적인 이상감지 방법은 세 가지가 있다...
요즘 흔하게 많이 사용되는 Catboost 모델에 대해서 정리하려고 한다. Catboost는 이름에서도 유추할 수 있듯 boosting 앙상블 기법을 사용하는 모델 중 하나이다. 논문에서는 이렇게 Catboost를 소개한다고 한다. "CatBoost is a high-performance open source library for gradient boosting on decision trees." 이전에 앙상블과 Gradient Boosting 모델에 대해 정리한 글이 있는데 알고 읽으면 좀 더 도움이 된다. https://blog.naver.com/ilovelatale/222320553535 Boosting vs Bagging 다시 간단하게 정리하자면 앙상블의 기법 중에서는 Boosting과 Bag..
다음은 추천서이다. 사실 대학원 지망생에게 기대하는 서류 중 가장 큰 파트는 추천서라고 한다. 학부 수준의 지식과 연구 경력이 엄청나지 않기 때문에 같은 교수의 시각으로서 어떤 학생인지 평가하는 가장 중요한 자료로 사용된다. 추천서는 사실 본인이 작성하는 서류는 아니긴 하지만, 우리나라는 통상적으로(?) 잘못된 관습에 의해 본인이 대략의 내용을 작성해서 드려야할 때가 있다. 추천서는 직장 경력이 있다면 직장 동료/상사에게 부탁해서 받을 수 있기도 하나 대부분의 학교가 Academic Background를 가진 사람에게 요청하기 때문에 학교 교수님으로부터 받게 된다. 이럴 때엔 두 가지 주의해야할 점이 있다. 너무 informative하게 쓰지 않기 (교수님이 과연 알 수 있을까 하는 부분까지)..