Tech/ML, DL

확률분포에 대한 간단한 정리

Julie's tech 2022. 4. 2. 15:41
728x90

이번 글은 확률 분포에 대해 간단하게 정리해보려고 한다.

수학적으로 접근하기 보단 분포들이 실제로 어떤 목적을 지니고, 어떤 경우에 활용되는지 등 실용적인 측면에서 정리하였다.

우리가 확률 분포라고 함은 아래와 같이 분류할 수 있다.

우리는 여기서 연속확률분포에 대해 간단하게 살펴볼 것이다. 그 중에서도 정규분포, 카이제곱 분포, t분포에 대해 알아보자.

분포는 중요한 두 개의 통계량을 가지고 있다. 중심 위치(평균)과 퍼짐 정도(분산)이다.

모집단에 대한 분포를 알고 싶을 때 우리가 전수조사를 통해 데이터를 수집한 후 모집단의 통계량을 구할 수도 있다.

하지만 이 방법은 비현실적이고 불가능하기 때문에 우리는 늘 '표본(Sample)'을 통해 모집단에 대해 추정하곤 한다.

실례로는 대한민국의 집값 분포를 추정하고 싶은데, 모든 집의 가격을 정확하게 책정하고 조사하기 어려우니 일부 집 가격 데이터만을 활용해 추정한다.

이 때문에 확률 분포에는 늘 표본 통계량을 활용하여 모집단 통계량에 대한 추정과 신뢰 구간 등을 구하게 된다.

정규분포

정규분포는 우리가 흔히 알고 접한다. 가우스분포(Gaussian distribution)이라고 부르기도 한다.

정규분포는 평균과 표준편차에 따라 모양이 결정되고, 이 때

로 분포를 표기한다.

특히 평균이 0이고 표준편차가 1인 정규분포를 표준 정규분포라고 한다.

표본 정규분포

 

우리는 정규분포를 왜 숱히 듣고 접할까?

정규분포는 우리가 일상 속에서 접하는 대부분의 데이터가 이 분포를 따르고 있다고 한다.

가장 간단하게는 동전을 던져 앞 뒤 면이 각각 나올 확률을 나타내는 이항 분포의 경우에도 동전을 던지는 횟수가 무한대에 가까워질수록 중심극한 정리에 따라 정규분포에 근사하게 된다.

* 중심극한 정리란 표본의 크기가 커질수록 모집단의 분포 모양과는 별개로 표본 평균의 분포는 정규 분포에 가까워진다는 정리이다.

이 외에 가우스분포라고 불리기도 하는 정규분포는 오차에 대한 고찰을 통해 도출되기도 했다.

오차는 측정치와 실제 값에 대한 차이를 일컫는다. 우리가 직관적으로 생각했을 때, 측정치들의 평균은 실제 값과 거의 근사할 것이다.

예를 들어 대한민국 인구의 평균 키를 계산하기 위해서 전수조사를 할 수 없을 땐, 우리는 샘플을 추출하여 그 사람들의 평균을 계산한다.

이러한 직관이 오차가 정규분포를 따른다고 할 수 있는 것이다. 즉 실제 값과 가장 유사할 가능성이 높은 값은 측정치들의 평균인 것이다.

뿐만 아니라 오차 역시 + 오차와 - 오차가 나올 확률이 같기 때문에 오차의 확률분포는 대칭성을 띌 것이다.

이 외에 수학적으로 증명할 수 있으나 간단하게 정리하자면, 오차는 정규분포를 따르게 된다.

정리자면 우리는 표본의 크기가 클 때, 즉 샘플이 대량으로 있을 경우에는 중심극한정리에 따라 표본평균을 통해 모집단의 평균에 대해 추정하게 된다.

이 때 검정통계량으로 Z(정규분포)검정을 사용하게 된다.

t분포

t분포는 정규분포와는 다르게 표본의 크기가 크지 않을 경우에 활용된다.

우리는 일반적으로 표본의 통계량(평균, 편차)로 모집단의 통계량을 추정하는데, 이 때 모집단의 표준편차를 통상 표준의 표준편차로 대체하여 사용한다.

표본의 수가 충분히 클 경우 표본의 표준편차가 모집단의 표준편차와 동일하다고 가정하는 것이다.

반면 표본의 수가 적어 모집단의 표준편차를 알 수 없을 때(대체할 수 없을 때), 모집단의 평균을 추정하기 위해 t분포를 활용한다.

즉 표본의 구성요소 두 가지인 평균과 편차 중에서 두 값을 모두 모를 때, 평균을 알아내기 위해 정규분포가 아닌 t분포를 활용한다.

좀 더 쉽게 설명하자면, 우리가 통상 알고자 하는 데이터의 분포는 정규분포를 따른다.

하지만 현실적인 한계로 정규분포의 평균과 편차를 알 수 없기에 샘플링을 통해 평균과 편차를 추정하게 된다.

더 최악의 경우에 표본 수 마저 많이 확보할 수가 없다면 표본 분포로 추정한 모집단의 통계량에 대한 신뢰가 떨어진다.

따라서 이에 대한 대응책으로 정규분포보다 좀 더 예측범위가 넓은 분포인 t분포를 사용하게 된다. (중심이 낮고 퍼진 정도가 큰)

표본 수가 적다고 말하는 기준은 '30개'이다. t분포는 30개 이상의 표본 수를 보유하게 되면 정규분포와 근사해지기 때문이다.

t분포는 생김새가 정규분포와 유사하다. 다른 점이 있다면 정규분포와 다르게 양쪽 꼬리가 좀 더 두텁게 생겼다.

t분포는 자유도(표본수 - 1)가 클 수록 정규분포에 근사해진다.

정규분포와 t분포의 차이점, 출처 :  https://www.jmp.com/ko_kr/statistics-knowledge-portal/t-test/t-distribution.html

정규분포와는 다르게 t분포는 모분산을 포함하고 있지 않다. 이 때문에 표본 수가 적을 때 추정에 대한 신뢰성을 좀 더 높일 수 있다.

즉 표본 수가 적을 때 t분포는 양쪽 꼬리가 두터워 좀 더 보수적인 검정을 하게 하여 추정의 신뢰성을 높이는 것이다.

카이제곱 분포

카이제곱 분포는 정규분포에서 랜덤하게 샘플링하여 표본을 N개 추출한 후, 그 표본의 제곱 합에 대한 분포이다.

표본을 1개 반복해서 추출했다면 자유도가 1인 카이제곱 분포를 따라가게 되고, N개 반복해서 추출했다면 N자유도의 카이제곱 분포를 따른다.

이처럼 제곱해서 통계량을 더하기 때문에 음의 값이 존재하지 않는다. 늘 양의 값만을 가진다.

또한 통계량을 반복해서 더한 분포이기 때문에 표본의 수가 많아질수록 정규분포에 가까워진다.

왼쪽은 자유도가 1, 오른쪽은 자유도가 100인 카이제곱 분포
 

카이제곱 분포가 왜 통계량의 제곱값을 더한 분포일까? 어떤 목적으로 사용될까?

우리는 이 질문에 답하기 위해 앞서 정규분포에서 살펴봤던 '오차의 법칙'을 다시 상기해야한다.

우리가 데이터에 대한 예측 모델을 만들 때, 모델과 실제값 간의 차이를 '오차'라고 부르는데,

이 오차는 모델의 결과값에 대한 정규분포의 랜덤 샘플 값이다.

출처 : stackoverflow

 

위 그림에서 보면, 우리가 회귀분석을 진행했다고 했을 때, 각 결과값에 대한 실제값간의 차이인 오차는 모델의 결과값의 정규분포의 표본값이다.

x=65일 때 Y의 분포에 대한 표본 값이 실제 값인 것이다.

이처럼 우리는 오차, 즉 편차에 대해 우연히 발생한 것인지에 대해 카이제곱 분포를 활용하여 알아볼 수 있다.

우리가 독립변수와 종속변수 간의 관계가 없다고 가정했을 때, 그 가정이 얼마나 맞지 않는가에 대해 검증할때 사용된다.

좀 더 풀어 설명하자면, 독립변수와 종속변수 간의 독립성/관계성을 통계량으로 검정할 때 사용된다.

이 외에도 여러 분포가 있는데, 이 분포를 서로간의 관계도로 정리하자면 아래와 같다.

분포들간의 관계, 참조 :  https://losskatsu.github.io/statistics/chisquareddist/#%EC%B0%B8%EA%B3%A0-%ED%99%95%EB%A5%A0%EB%B6%84%ED%8F%AC%EA%B0%84-%EA%B4%80%EA%B3%84%EB%8F%84
 

반응형