일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
- 자연어처리
- 중국플랫폼
- AWS
- 플랫폼
- 언어모델
- docker
- BERT
- 머신러닝
- 미국 개발자 취업
- 합격후기
- BANDiT
- 클라우드
- nlp
- 네트워크
- MSCS
- llm
- 추천시스템
- 메타버스
- 미국석사
- MLOps
- HTTP
- chatGPT
- maang
- RecSys
- transformer
- BERT이해
- 클라우드자격증
- MAB
- TFX
- swe취업
- Today
- Total
목록실험설계 (2)
SWE Julie's life

A/B테스트를 진행하다 보면 한 가지 의문점이 떠오르게 된다 - 실험을 얼마 동안 진행해야할까? 이 질문은 '얼마 만큼의 데이터를 모아야하는가'와 결국 동일한 질문이다. 통계학적으로 접근하자면, 가설검정의 결과는 p-value에 의해 결정된다. 두 집단의 검정통계량 차이가 크면 클수록(p-value가 클수록) 두 집단은 이질적인 집단으로 분류된다. 즉 우리는 샘플 사이즈를 정하기에 앞서 어떤 통계학적 테스트를 이용하여 결과를 볼 것인지 정해야한다. 그 후 최소한의 수준을 정해야한다. 예를 들어 x만큼의 차이가 있는 것으로 밝혀졌을 때, 그 x가 얼마나 큰 것인지를 비교할 수 있는 수준말이다. 그 최소한의 수준(Minimum Detectable Effect, MDE)를 찾아낼 확률을 계산한 뒤, 그 확..
이번 글 시리즈는 데이터과학에서 A/B테스트를 설계하고 풀어나가는 방법에 대해 다뤄볼 것이다. 데이터 분석가는 여러 가지 이유로 실험을 하게된다. 통상적으로 어떤 가정을 세우고 그 가정을 증명하기 위해서 실험을 설계한뒤 데이터를 수집하여 그 가정을 검정한다. * 가설은 검정(test)하는 것이 맞다. 검증은 verify, 즉 증명한다는 의미로 사용되어 사실인지 아닌지 모르는 가설을 검증하는 것은 맞지 않다. 그 중에서도 두 가지 대안, 과정, 혹은 상품 중 어떤 것이 더 우세한가를 밝히는 실험을 A/B 테스트라고 한다. 두 대안 중에서 가장 흔한, 보편적인 기준을 '대조군(control)'이라고 한다. 우리는 보통 웹 디자인, UI를 수정할 때 A/B테스트를 자주 한다. 예를 들어 AI기반 추천 ..