1 확률 100번 - 1 hwaglyul 100beon

나를 포함한 많은 사람들은 평균을 참 좋아한다. 시험성적 평균 60점, 대한민국 평균수명은 80살, 1인당 평균 국민소득은 2만6천달러 등 집단을 평가, 비교하는데 가장 흔히 쓰이는 지표가 평균이며 이제부터 할 이야기의 핵심 지표가 바로 표본평균(Sample mean)이다. 우리는 흔히 모집단에서 표본을 뽑아 그것의 평균을 계산한 표본평균값을 전체의 평균값이라 여기곤 하는데 이것의 대표적인 예가 여론조사이다. 고작 수백명을 무작위로 뽑아 여론조사를 해서 특정 안건에 대한 찬성률을 계산한 후, 이것을 전체 민심의 척도로 간주하는 것은 일리있다고 할 수 있을까? 우선 앞에서 다루었던 찌그러진 동전과 주사위 던지기의 예를 통해 알아보도록 하자.

앞단원에서 다루었던 찌그러진 동전을 다시 생각해 보자. 이 동전은 모양이 찌그러져서 앞면이 나올 확률 \(p\)가 0.5가 아닌 0.4였으며, 앞면이 나오는 사건을 1, 뒷면이 나오는 경우를 0이라 하면 분산은 \(p \times (1-p)^2 + (1-p) \times (0-p)^2 = p(1-p) = 0.24\)이다.

이제 직접 동전을 여러 번 던져서 앞면이 나올 확률을 계산한 후, 실제 확률인 0.4와 얼마가 차이가 나는지 알아볼 것인데 그 과정은 다음과 같다.

  1. 앞면이 나올 확률을 얻기 위해 수행한 동전 던지기 횟수, 즉 표본수를 \(n\)이라 하자.
  2. \(n=10\)일 때 앞면이 나올 확률 \(\hat{p}\)을 계산한다.
  3. 2의 과정을 10000번 반복하여 10000개의 \(\hat{p}\)를 얻는다. 꼭 10000개일 필요는 없으며 \(\hat{p}\)의 분포를 파악할 수 있을 정도면 된다.
  4. \(\hat{p}\)들의 분포를 그래프로 그려보고 그것들의 평균, 분산을 구해본다.
  5. \(n=30, 100\)인 경우에도 마찬가지 과정을 수행한다.

1 확률 100번 - 1 hwaglyul 100beon

Figure 3.3: 확률분포 & 표본평균분포: 찌그러진 동전 던지기

그림을 보면 아래와 같은 몇 가지의 규칙을 발견할 수 있다.

  1. \(n\)이 증가할수록, 특히 30 이상부터는 \(\hat{p}\)의 분포는 정규분포와 비슷해진다.
  2. \(\hat{p}\)의 평균은 실제 \(p\)값인 0.4와 가까워진다.
  3. \(\hat{p}\)의 분산은 실제 앞면이 나오는 사건의 분산을 \(n\)으로 나눈 값인 \(\frac{0.24}{n}=\frac{p(1-p)}{n}\)과 가까워진다.

이제 이것들을 종합하면 \(n\)이 커지면 \(\hat{p}\)는 평균이 \(p\)이고 분산이 \(\frac{p(1-p)}{n}\)인 정규분포, 즉 \(N(p,\frac{p(1-p)}{n})\)을 따른다는 추측을 할 수 있다.

이번에는 다시 주사위 이야기로 돌아가서 주사위를 던졌을 때 평균적으로 얼마가 나올 것인지 생각해 보자. 1,2,3,4,5,6 중 랜덤으로 하나가 나올 것이므로 평균(\(\mu\))은 \(\frac{1+2+3+4+5+6}{6}=3.5\)가 되고 분산(\(\sigma^2\))을 구해보면 \(\frac{(1-3.5)^2+(2-3.5)^2+\cdots+(6-3.5)^2}{6}\approx 2.92\)가 된다. 이제 동전던지기 때와 마찬가지로 아래의 시행을 통해 표본평균(\(\bar{X}\))과 실제 평균(\(\mu\))을 비교해 보겠다. 아

1 확률 100번 - 1 hwaglyul 100beon

Figure 3.4: 확률분포 & 표본평균분포: 주사위 던지기

그림을 보면 동전던지기 때와 유사하다는 느낌을 받을 수 있는데 아래와 같이 결과를 정리해보면 더욱 확실해진다.

  1. \(n\)이 증가할수록, 특히 30 이상부터는 표본평균 \(\bar{X}\)의 분포는 정규분포와 유사해진다.
  2. \(\bar{X}\)의 평균은 실제 평균인 \(\mu=3.5\)에 가까워진다.
  3. \(\bar{X}\)의 분산은 \(\frac{2.92}{n}=\frac{\sigma^2}{n}\)에 가까워진다.

따라서 이것들을 종합하면 동전던지기 때와 비슷하게 \(n\)이 커지면 \(\bar{X}\)는 평균이 \(\mu\)이고 분산이 \(\frac{\sigma^2}{n}\)인 정규분포, 즉 \(N(\mu,\frac{\sigma^2}{n})\)을 따른다는 추측을 할 수 있다.

이쯤되면 확률분포의 종류에 상관없이 \(n\)이 커지면 표본평균 \(\bar{X}\)는 평균이 \(\mu\)이고 분산이 \(\frac{\sigma^2}{n}\)인 정규분포를 따르지 않을까? 라는 과감한 추측을 할 수도 있을 것 같다. 그러나 동전던지기나 주사위 던지기는 둘 다 사건의 갯수가 유한한 이산확률분포로 일반화하기에는 무리가 있어, 연속확률분포에 대해서도 실험을 해 봐야 할 것 같다. 정규분포를 비롯한 몇 가지 예를 통해 연속확률분포의 경우에도 같은 추측을 할 수 있을지 알아보도록 하자.

이번에는 가장 기본적인 연속확률분포인 표준정규분포(\(\mu=0\), \(\sigma^2=1\))에서 \(n\)개의 숫자를 뽑아 평균을 내는 경우를 살펴보자. 과정은 앞서 동전, 주사위 던지기와 유사하므로 설명은 생략하고 바로 그림을 살펴보자.

1 확률 100번 - 1 hwaglyul 100beon

Figure 3.5: 확률분포 & 표본평균분포: 표준정규분포

어떤가? 이번에도 역시 \(n=30\)만 되어도 표본평균 \(\bar{X}\)가 정규분포를 따르는 것을 느낄 수 있으며, \(\bar{X}\)의 평균은 실제 평균 0에, 분산은 \(\frac{1}{n}\)에 가까워졌고, 이제는 진짜 모든 경우에 우리의 추측이 성립하는 것 같다. 그래도 혹시나 하는 마음에 정규분포가 아닌 연속확률분포에서의 예제를 마지막으로 다루어 보겠다.

카이제곱분포에 대한 자세한 설명은 다음 단원에서 다룰 예정이므로, 여기서는 자유도가 1인 카이제곱분포가 정규분포와는 달리 왼쪽으로 치우친 분포이며 평균 \(\mu=1\), 분산 \(\sigma^2=2\)라는 것만 알고 바로 앞의 과정을 진행하겠다.

1 확률 100번 - 1 hwaglyul 100beon

Figure 3.6: 확률분포 & 표본평균분포: 카이제곱분포(자유도 1)

그림을 살펴보면 \(n=10\)일 때는 원래 카이제곱 분포만큼은 아니어도 미세하게 왼쪽으로 치우친 느낌이 들지만 \(n=30\)만 되어도 정규분포의 모양을 보임을 확인할 수 있으며, 지금까지와 마찬가지로 표본평균들의 평균은 실제 카이제곱분포의 평균인 1, 분산은 카이제곱 분포의 분산을 표본수로 나눈 \(\frac{2}{n}\)에 가까워지는 것을 확인할 수 있다.

이제 한쪽으로 치우친 연속확률분포의 경우까지 확인했으므로 더 이상 망설이지 않고 외칠 수 있다

평균이 \(\mu\), 분산이 \(\sigma^2\)인 모집단에서(정규분포일 필요 없음) \(n\)개의 표본을 뽑아서 계산한 표본평균 \(\bar{X}\)는 \(n\)이 커질 때 \(N(\mu,\frac{\sigma^2}{n})\)을 따른다.

이것이 바로 통계학에서 가장 중요하다고 일컬어지는 중심극한정리(Central Limit Theorem, CLT)이며 이미 수학적으로 증명이 되어 있다. 이제 정규분포가 얼마나 중요한 분포인지 느껴지는가? 모집단이 어떻게 생겼든 상관없이 30개 표본정도만 확보하면 표본평균들은 무조건 정규분포를 따른다고 우겨도 괜찮다는 뜻이다.

이제 우리는 정규분포가 세상에서 가장 중요한 분포인 이유를 3가지나 알았다. 이항분포에서도 만들 수 있고 가장 간단한 오차의 법칙으로부터도 만들 수 있으며 대부분의 표본평균을 설명하는 분포인 정규분포, 사람들이 왠만하면 정규분포만 쓰는 것은 지극히 정상적인 판단이라고 할 수 있다.

가령 길거리에 동전 1개가 떨어져있고 많은 사람들이 동전을 밟고 지나가기를 일주일이 지났다고 해보자. 과연 그 동전이 완벽한 동전일까? 이 동전을 던진다면 앞면과 뒷면이 나올 확률이 정확히

1 확률 100번 - 1 hwaglyul 100beon

일까? 아마 아닐 것이다.

그러나 수학책에 나오는 동전은 정말 한치의 오차도 없이 앞면과 뒷면이 나올 확률이 정확히

1 확률 100번 - 1 hwaglyul 100beon

이 나온다는 것을 ‘가정’한 것이다.

주사위도 마찬가지로 각각의 숫자가 나올 확률이 정확히

1 확률 100번 - 1 hwaglyul 100beon

이라는 것을 ‘가정’한다.

수학교과서에서 이야기하는 동전의 한쪽 면이 나올 확률이

1 확률 100번 - 1 hwaglyul 100beon

이라든지 주사위의 한 눈이 나올 확률이

1 확률 100번 - 1 hwaglyul 100beon

이라는 것은 ‘그럴듯한’ 숫자라는 것이다. 이것 독립시행확률 개념을 공부함에 있어 좋은 도구가 될 수 있다.

1 확률 100번 - 1 hwaglyul 100beon

 

확률에서 동전이나 주사위가 많이 등장하고 중요하게 다뤄지는 또 다른 이유는 개별 시행이 ‘독립적’이기 때문이다. 동전이나 주사위는 ‘독립’이라는 장치를 설정한 것에 불과하다. ‘독립’이라면 그것이 동전이든 주사위이든 상관이 없다. 동전, 주사위는 껍데기이고 본질적인 부분은 ‘동전’은 각 사건의 확률이