일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- TFX
- 머신러닝 파이프라인
- AWS
- COFIBA
- llm
- BERT
- MAB
- BERT이해
- HTTP
- 자연어처리
- 메타버스
- chatGPT
- MSCS
- Collaborative Filtering Bandit
- 클라우드자격증
- MLOps
- docker
- 언어모델
- RecSys
- aws자격증
- transformer
- 추천시스템
- nlp
- 플랫폼
- BANDiT
- 머신러닝
- 네트워크
- 미국석사
- 중국플랫폼
- 클라우드
- Today
- Total
목록Bootstrap (2)
Julie의 Tech 블로그
이번 글 시리즈는 데이터과학에서 A/B테스트를 설계하고 풀어나가는 방법에 대해 다뤄볼 것이다. 데이터 분석가는 여러 가지 이유로 실험을 하게된다. 통상적으로 어떤 가정을 세우고 그 가정을 증명하기 위해서 실험을 설계한뒤 데이터를 수집하여 그 가정을 검정한다. * 가설은 검정(test)하는 것이 맞다. 검증은 verify, 즉 증명한다는 의미로 사용되어 사실인지 아닌지 모르는 가설을 검증하는 것은 맞지 않다. 그 중에서도 두 가지 대안, 과정, 혹은 상품 중 어떤 것이 더 우세한가를 밝히는 실험을 A/B 테스트라고 한다. 두 대안 중에서 가장 흔한, 보편적인 기준을 '대조군(control)'이라고 한다. 우리는 보통 웹 디자인, UI를 수정할 때 A/B테스트를 자주 한다. 예를 들어 AI기반 추천 ..
이전 글에서는 데이터 샘플링에 대한 개념과 랜덤샘플링, 편향(Bias)에 대해 간단하게 살펴보았다. 이번 글은 Bootstrap 이라는 개념에 대해 알아보자. 통계량의 표본 분포에 대해 측정하려고할 때 가장 쉽고도 효과적인 방법은, 반복해서 샘플링을 추출해내는 것이다. 이 때 복원 추출을 허용한다. 우리가 A라는 모집단에서 A', A'', A'''..., 로 표본을 계속해서 뽑고 그 표본의 통계량을 반복해서 계산한다고 생각해보자. 표본을 추출하는 횟수를 늘려갈수록 이 통계량들의 평균은 A 모집단의 통계량 평균과 유사해질 것이다. 이 과정을 Bootstrap이라고 부른다. 부트스트랩은 표준분포와 같은 일반적인 가정을 포함하여 어떠한 조건도 요구하지 않아 간단하다. Bootstrap 과정을 간단하게 ..