일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |
- 언어모델
- docker
- 추천시스템
- aws자격증
- 머신러닝
- nlp
- TFX
- RecSys
- COFIBA
- 클라우드
- llm
- MAB
- chatGPT
- BANDiT
- HTTP
- 머신러닝 파이프라인
- 플랫폼
- AWS
- 자연어처리
- 네트워크
- transformer
- Collaborative Filtering Bandit
- 중국플랫폼
- BERT
- MLOps
- 클라우드자격증
- 미국석사
- BERT이해
- MSCS
- 메타버스
- Today
- Total
목록분류 전체보기 (150)
Julie의 Tech 블로그
이번 글 시리즈는 데이터과학에서 A/B테스트를 설계하고 풀어나가는 방법에 대해 다뤄볼 것이다. 데이터 분석가는 여러 가지 이유로 실험을 하게된다. 통상적으로 어떤 가정을 세우고 그 가정을 증명하기 위해서 실험을 설계한뒤 데이터를 수집하여 그 가정을 검정한다. * 가설은 검정(test)하는 것이 맞다. 검증은 verify, 즉 증명한다는 의미로 사용되어 사실인지 아닌지 모르는 가설을 검증하는 것은 맞지 않다. 그 중에서도 두 가지 대안, 과정, 혹은 상품 중 어떤 것이 더 우세한가를 밝히는 실험을 A/B 테스트라고 한다. 두 대안 중에서 가장 흔한, 보편적인 기준을 '대조군(control)'이라고 한다. 우리는 보통 웹 디자인, UI를 수정할 때 A/B테스트를 자주 한다. 예를 들어 AI기반 추천 ..
이번 글은 확률 분포에 대해 간단하게 정리해보려고 한다. 수학적으로 접근하기 보단 분포들이 실제로 어떤 목적을 지니고, 어떤 경우에 활용되는지 등 실용적인 측면에서 정리하였다. 우리가 확률 분포라고 함은 아래와 같이 분류할 수 있다. 우리는 여기서 연속확률분포에 대해 간단하게 살펴볼 것이다. 그 중에서도 정규분포, 카이제곱 분포, t분포에 대해 알아보자. 분포는 중요한 두 개의 통계량을 가지고 있다. 중심 위치(평균)과 퍼짐 정도(분산)이다. 모집단에 대한 분포를 알고 싶을 때 우리가 전수조사를 통해 데이터를 수집한 후 모집단의 통계량을 구할 수도 있다. 하지만 이 방법은 비현실적이고 불가능하기 때문에 우리는 늘 '표본(Sample)'을 통해 모집단에 대해 추정하곤 한다. 실례로는 대한민국..
지난 글은 메타버스의 기술에 대해 다루었다. 이번 글은 메타버스와 플랫폼의 개념을 함께 살펴보고자 한다. 현재 여러 플랫폼 서비스에서 메타버스를 도입하고 있는데 이 플랫폼들은 각자 어떤 모습으로 메타버스를 구현했는지 우선 간단히 살펴보자. 가장 먼저 메타버스의 대명사로 볼 수 있는 서비스인 로블록스를 보자. 로블록스는 게임 플랫폼으로서 메인 화면이라 할 수 있는 ‘로비’에 입장하면 어떤 게임을 할지 선택하게 된다. 이 때 게임은 FPS, RPG 등 여러 장르이며, 모두 이용자들이 직접 만든 게임들이다. 이용자들이 서비스의 콘텐츠를 직접 기획 및 개발하는 것이다. 이들은 로블록스 스튜디오 기능을 이용하여 ‘No Coding’으로 손쉽게 게임을 개발한다. 이러한 매력적인 서비스로 로블록스는 크게 성장하였..
이전 글에서는 데이터 샘플링에 대한 개념과 랜덤샘플링, 편향(Bias)에 대해 간단하게 살펴보았다. 이번 글은 Bootstrap 이라는 개념에 대해 알아보자. 통계량의 표본 분포에 대해 측정하려고할 때 가장 쉽고도 효과적인 방법은, 반복해서 샘플링을 추출해내는 것이다. 이 때 복원 추출을 허용한다. 우리가 A라는 모집단에서 A', A'', A'''..., 로 표본을 계속해서 뽑고 그 표본의 통계량을 반복해서 계산한다고 생각해보자. 표본을 추출하는 횟수를 늘려갈수록 이 통계량들의 평균은 A 모집단의 통계량 평균과 유사해질 것이다. 이 과정을 Bootstrap이라고 부른다. 부트스트랩은 표준분포와 같은 일반적인 가정을 포함하여 어떠한 조건도 요구하지 않아 간단하다. Bootstrap 과정을 간단하게 ..
우리는 데이터 샘플링을 필요로할 때가 많다. 모델을 처음 빌드할 때에 불균형 데이터일 경우 긍정 정답지이건 부정 정답지이건 어느 쪽이든 샘플링을 하게 된다. 또 모델 두 개를 빌드해두고 어느 모델이 더 우수한지 A/B테스트를 할 때에도 실험군, 대조군에 대해 샘플링하게 된다. 데이터 샘플링은 쉽게 말해 모집단(Population)에서 샘플군(Sample)을 추출해내는 방식이다. 샘플 데이터는 모집단의 부분집합인 것이다. 모집단은 우리가 알 수 없는 특정 분포를 따른다. 우리는 이 모집단에 대한 정보를 알기 위해 샘플 데이터를 통해 모집단을 추정한다. 전통 통계학은 모집단의 분포에 대해 추론하기 위해 몇 가지 가정을 세워 결론을 도출하는 방식의 접근을 취한다. 하지만 최근에는 모집단의 분포에 대해 ..
이전 글에서는 메타버스와 플랫폼에 대해 살펴보았다. 이번 글은 메타버스를 도입하고자 하는 기업들이 어떤 가치와 방향을 추구해야하는지 간단히 다뤄보려고 한다. 메타버스 열풍에 따르고자 하는 많은 기업들에게 많은 기업들이 메타버스의 열풍에 참여하고 싶어한다. 기업이 메타버스 플랫폼을 구축하기 위해선 두 가지 접근 방법이 있을 것이다. 첫째, 메타버스 플랫폼을 자체적으로 기획 및 개발한다. 둘째, 기존에 운영중이던 플랫폼에 메타버스 개념을 추가한다. 일반적으로 후자의 방법이 가장 쉬운 접근방법일 것이다. 실제로 대부분 플랫폼들은 후자의 방법을 택하고 있다. 기존 사용자들을 대상으로메타버스를 제공하기 때문에 사용자 유치에 관해 덜 부담을 갖게 된다. 페이스북이 이 사례의 예시인데, 기존 페이스북 유저들을 ..