표본평균의 분산 공식 - pyobonpyeong-gyun-ui bunsan gongsig

표본평균의 분산 공식 - pyobonpyeong-gyun-ui bunsan gongsig

먼저 모집단에서 표본을 뽑는 상황을 가정해봅시다. 모집단은 영어로 population 이라고 합니다. 모집단의 평균을 m, 모집단의 분산을 σ² 라고 합시다. 모집단의 평균이나 분산과 같은 모집단의 통계량을 '모수'라고 합니다.

모수 : 모집단의 통계량

모집단을 하나 가정하고 표본을 뽑아봅시다. 모집단은 대한민국 국민이고, 우리가 궁금한 것은 대한민국 국민의 키라고 해봅시다. 대한민국 국민 전체 키의 평균을 냈더니 m이었고, 분산이 σ² 였습니다. 그런데, 이런 평균과 분산이 존재하는 것은 확실하지만 실제로 구할 수 가 있을까요? 모든 국민을 다 조사해서 구하는 것은 불가능합니다. 이런 이유로 표본을 뽑는 것입니다. 국민의 일부를 표본으로 뽑아서 그 키를 측정하는 겁니다.

1) 표본평균의 평균 

첫번째 표본을 뽑았다고 해봅시다. 크기는 n이라고 하겠습니다. 이 표본의 평균을 구할 수 있습니다. 첫번째 표본의 평균을 아래와 같이 놓겠습니다.

${\overline {X}}_1$

표본을 하나 더 뽑습니다. 두번째 표본의 평균은 아래와 같이 놓겠습니다.

${\overline {X}}_2$

이렇게 표본을 계속 뽑았을 때, 표본평균들의 평균이 어떻게 되는지가 오늘의 주제입니다. 여기서 헷갈리지 말아야할 것은, 표본 하나의 평균이 아니라는 것입니다. 표본평균 들의 평균을 구할것입니다. 

표본을 무한히 뽑고, 평균들의 평균을 계산하는 식은 아래와 같습니다.

$\lim _{{k}\to {\infty }}^{ }{\frac{{\overline {X}}_1+{\overline {X}}_2+...+{\overline {X}}_k}{k}}$

k가 커질 수록 표본평균의 평균은 모집단의 평균에 가까워져 갑니다.

$E\left(\overline {X}\right)=\lim _{{k}\to {\infty }}^{ }{\frac{{\overline {X}}_1+{\overline {X}}_2+...+{\overline {X}}_k}{k}}=m$

2) 표본평균의 분산  

표본평균의 분산은 모분산을 표본의 크기 n으로 나눈 것과 같습니다.

$V\left(\overline {X}\right)=\frac{{\sigma }^2}{n}$

고등학교 과정에서 증명을 하지는 않는데, 고등학교 수준에서 증명이 가능합니다. 궁금하신 분들을 위해 강의 링크를 걸어 놓겠습니다.

표본평균의 분산 공식 - pyobonpyeong-gyun-ui bunsan gongsig
표본평균의 분산 공식 - pyobonpyeong-gyun-ui bunsan gongsig

표본평균의 분산 공식 - pyobonpyeong-gyun-ui bunsan gongsig

  • 표본 분산을 구할 때 왜 n-1로 나누는가에 대하여 알아보도록 하겠습니다.
  • 먼저 다음 예제를 살펴보도록 하겠습니다.
표본평균의 분산 공식 - pyobonpyeong-gyun-ui bunsan gongsig
  • 위 데이터는 정규 분포에서 \(N(50, 15^{2})\)를 따르는 분포에서 샘플링 한 것입니다.
  • 크기가 30인 표본을 임의로 추출을 하여 이 표본의 분산을 구할 때, 30으로 나눈 것과 29로 나눈것을 비교하였습니다.
  • 모분산이 225이므로 30으로 나눈 것 보다 29로 나누어서 분산이 더 커지도록 하는 것이 더 적합해 보입니다. 왜 그럴까요?

  • 정답은 표분분산의 평균이 모분산과 같아져야 하기 때문 입니다.
  • 일단 정답을 이끌어 내기 전에 차근차근 한번 설명을 쭉 한 다음에 다시 정리해 보는 순서를 가져보려고 합니다. 그러면 기본적인 개념부터 한번씩 다시 짚어가면서 설명해 보겠습니다.

목차

  • 1. 평균과 분산

  • 2. 모평균과 모분산

  • 3. 표본평균의 평균과 표본평균의 분산

  • 4. 표본평균과 표분분산

  • 5. 표본분산에서 분모가 n-1인 이유

입니다. 3번을 4번보다 먼저 보는 이유는 우리의 목적이 표본분산에 있기 때문입니다.

  • 평균은 \(E(X) = m\) 이고 분산은 \(V(X) = E(X-m)^{2}\) 입니다.
  • 그렇다면 분산은 왜 변량에서 평균을 뺀 값을 제곱할까요?
    • 평균을 빼는 이유
      • 예를 들어 \(f(x) = E(X - x)^{2}\) 라고 하면 x = m 일 때 최솟값을 가집니다.
        • 왜냐하면 \(E(X^{2} - 2xX + x^{2}) = E(X^{2}) -2xE(X) + x^{2}\) 이고
        • 완전 제곱식/미분을 이용하면 \(x = E(X) = m\) 일 때 최솟값을 가짐을 알 수 있습니다.
      • 평균을 이용하는 것이 변량(데이터)들의 분포를 측정할 수 있는 고유한 값(최솟값)이 되고 평균과 변량들의 분포를 연관지을 수 있음
    • 제곱을 하는 이유
      • 모든 값을 양수로 만들어서 편차의 합이 줄어드는 것을 막기 위함
        • 이 경우는 절대값을 취해줘도 만족을 함
      • 편차의 큰 경우 더 편차를 크게 만들어 페널티를 주기 위함

2. 모평균과 모분산

  • 모평균 : m
  • 모분산 : \(\sigma^{2}\)
  • 모평균과 모분산은 정해진 상수이고, 중요한 것은 모른다 입니다. 현실적으로 알 수 없는 값입니다.
    • 대통령 선거가 딱 끝난 시점 또는 수능 시험이 딱 끝난 시점에는 모평균과 모분산이 정해집니다. 즉, 상수 라는 뜻 입니다.
    • 딱 끝난 시점에는 전체 데이터가 너무 많으므로 모든 것을 고려할 수 없습니다. 모평균과 모분산은 모른다는 뜻입니다.

3. 표본평균의 평균과 표본평균의 분산

  • 모집단에서 선택한 표본들을 평균낸것을 표본평균 \(\bar{X}\) 라고 하겠습니다.
    • 그러면 표본평균 \(\bar{X} = X_{1}, X_{2}, ..., X_{n}\) 으로 나타낼 수 있습니다.
  • 표본평균의 평균표본평균(전체 모집단에서 내가 n개 만큼 랜덤으로 꺼내서 평균)들의 평균 낸것입니다.
    • 당연히 표본 평균 각각은 모평균보다 커질수도 있고 작아질 수도 있습니다. 랜덤으로 꺼냈기 때문이지요.
    • 하지만 이것을 무한히 반복하면 어떻게 될까요? 무한히 반복해보면 모평균에 가까워 집니다. 시뮬레이션을 해봐도 알 수 있습니다.
    • 따라서 \(E(\bar{X} = \frac{X_{1} + X_{2} + ... + X_{n}}{n}) = m\) 이 됩니다. 즉, 표본평균의 평균은 모평균(m) 입니다.
  • 표본평균의 분산표본평균들이 얼마나 산포되어 있는지에 대한 수치 입니다.
    • 따라서 \(V(\bar{X}) = V(\frac{X_{1} + X_{2} + ... + X_{n}}{n}) = \frac{1}{n^{2}}V(X_{1} + X_{2} + ... + X_{n})\) 로 표현할 수 있습니다.
    • 이 때, 각각의 \(X_{1}, X_{2}, ..., X_{n}\) 들은 연관관계가 없습니다. 충분히 큰 모집단에서 랜덤으로 꺼냈기 때문입니다.
      • 모집단이 충분이 크다면 샘플링이 복원/비복원 모두 데이터 간 연관관계가 없다고 볼 수 있습니다.
      • 여기서 중요한 개념이 나옵니다. 한정된 집단에서는 \(V(aX) = a^{2}V(X)\)로 알려져 있습니다.
      • 하지만, 무한히 큰 집단에서는 표본집단간의 연관성이 없다고 보기 때문에 \(V(aX) = aV(X)\) 로 봅니다.
        • 마치 나의 몸무게와 나의 수학 점수 간의 분포 처럼 연관이 없다고 볼 수 있습니다.
      • 따라서 \(\frac{1}{n^{2}}V(X_{1} + X_{2} + ... + X_{n}) = \frac{1}{n^{2}}nV(X) = \frac{\sigma^{2}}{n}\) 가 됩니다.
  • 다시 정리하면 표본평균의 평균 = m, 표본평균의 분산 = \(\frac{\sigma^{2}}{n}\) 입니다.
  • 표본평균의 평균은 모평균과 같지만, 표본평균의 분산 < 모분산 이 됩니다. 모분산에 비해 표본평균의 분산은 왜 줄어 들까요?
    • A,B 라는 표뵨집단이 있다고 하면 A라는 표본집단은 점수가 높은 학생들만, B라는 집단은 점수가 낮은 학생들만 뽑힐 수 있을까요? 확률적으로 낮습니다.
    • 일반적으로 점수가 높은 학생/ 점수가 낮은 학생 섞여서 나오게 됩니다. 즉, 랜덤으로 뽑은 표본집단도 평균에 가까워 지게 됩니다.
      • 즉, 랜덤으로 뽑은 표본집단의 평균이 모평균에 가까워지기 때문에, 표본평균들 끼리 산포가 줄어들게 되고 표본평균의 분산은 작아지게 됩니다.

4. 표본평균과 표분분산

자 마지막으로 저희가 구하려고 하는 표본분산에 다가가 보겠습니다.

  • 표본평균 : \(\{ X_{1}, X_{2}, ... , X_{n} \}\) 샘플을 뽑았을 때 이 샘플들 간의 평균입니다.
    • 즉, \(\bar{X} = \frac{X_{1} + X_{2} + ... + X_{n}}{n}\)이 됩니다.
  • 표본분산은 표본평균을 구한 바로 그 집단에서의 분산을 구한 것입니다. 자 그러면 먼저 앞에서 설명한 표본평균의 분산표본분산 중 어떤 것이 클까요?
    • 정답은 표본분산이 더 큽니다.
    • 왜냐하면 표본평균의 분산은 말그대로 평균들의 분산이므로 이미 산포가 줄어든 상태인 반면, 표본평균은 랜덤으로 뽑은 날것 그대로의 분산이기 때문입니다.
  • 이 내용을 바탕으로 저희가 아는 방식대로 표본분산을 구해보도록 하겠습니다.
    • 표본분산 = \(\frac{(X_{1} - \bar{X})^{2} + (X_{2} - \bar{X})^{2} + ... + (X_{n} - \bar{X})^{2}}{n}\) 일까요???
    • 아닙니다. 분모가 n-1이 되어야 합니다. 왜그럴까요??

5. 표본분산에서 분모가 n-1인 이유

  • 일단 분모가 n-1이 되야 하는것에 대한 배경이 있습니다. 먼저 분모는 n인 채로 다음 두 방법으로 분산을 구해보겠습니다.
    • 표본평균 사용 : \(\frac{(X_{1} - \bar{X})^{2} + (X_{2} - \bar{X})^{2} + ... + (X_{n} - \bar{X})^{2}}{n}\)
    • 모평균 사용 : \(\frac{(X_{1} - m)^{2} + (X_{2} - m)^{2} + ... + (X_{n} - m)^{2}}{n}\)
    • 어떤 방법이 더 값이 작을까요? 정답은 표본평균을 사용하였을 때 입니다.
      • 1.평균과 분산에서 보았듯이 변량들의 평균을 이용하여 분산을 구헀을 때, 값이 가장 작습니다. 반면 모평균은 사실 변량들과 직접적인 연관은 없습니다.
      • 즉 표본평균을 사용하여 표본분산을 구했을 때가 모평균을 사용하여 구했을 때 보다 값이 항상 작거나 같기 때문에, 값을 크게 해줄 필요가 있었습니다.
      • 그래서 방법중의 하나로, 분모를 작게 만들어 값을 크게 해야 하는 배경이 있었습니다.
  • 직관적인 이유 : 자유도
    • 표본을 뽑을 때는 모평균 이라는 제약조건을 가집니다. 예를 들어 전체 표본이 N개 일 때, 내가 N-1개를 뽑았다면 마지막 1개는 궁금할까요?
    • 정답은 안 궁금하다 입니다. 왜냐면 모평균을 알고 있기 때문에 추정할 수 있는 값이기 때문입니다.
    • 따라서 표본을 뽑을 때 모든 표본을 다 자유롭게 뽑는게 아니라 마지막 1개는 전혀 자유롭지 않기 때문에 n-1로 나누어 주게 됩니다.
  • 수식 증명 : 표분분산의 평균이 모분산과 같아져야 한다. = \(E(s^{2}) = \sigma^{2}\)
    • 어떤 표본집단의 분산은 모분산보다 클 수도 있고 작을 수도 있습니다. 하지만 그 표본분산의 평균이 모분산에 가까워져야 표본을 잘 뽑았다고 할 수 있습니다.
    • 표본분산을 \(s^{2}\) 이라고 하였을 때, \(E(s^{2}) = \sigma^{2}\) 가 되어야 합니다.
    • 만약 표본분산의 분모 = n-1 일 때 \(E(s^{2}) = \sigma^{2}\) 를 만족하면 분모는 n-1을 사용하는게 맞다고 할 수 있습니다.

\(E(\frac{1}{n-1}\sum_{k=1}^{n}(X_{k} - \bar{X})^{2}) = \frac{1}{n-1} E(\sum_{k=1}^{n}( (X_{k} - m) + (m -\bar{X}) )^{2})\) \(= \frac{1}{n-1} E(\sum_{k=1}^{n}( (X_{k}-m)^{2} + 2(X_{k}-m)(m-\bar{X}) + (m-\bar{X})^{2}))\)

이 때, 괄호 안에 3개의 term \((X_{k}-m)^{2}, 2(X_{k}-m)(m-\bar{X}), (m-\bar{X})^{2})\) 중 마지막 것 부터 먼저 보겠습니다.

  • 3번째 term :\(E((m-\bar{X})^{2} )\) 에서 m은 모평균이고 \(\bar{X}\) 는 표본 평균입니다.
    • 모평균표본평균의 차이를 제곱해서 기대값을 취한다면, 표본평균의 분산이 나오게 되어 즉, \(\frac{\sigma^{2}}{n}\) 입니다.
    • 3번째 term 정리 : \(E(\sum_{k=1}^{n}(m-\bar{X})^{2} ) = n \times \frac{\sigma^{2}}{n} = \sigma^{2}\)
  • 2번째 term: 상수항을 앞으로 빼고 모양을 정리하기 위해 음수 하나를 밖으로 빼면 다음과 같습니다.
    • \[E(\sum_{k=1}^{n} 2(X_{k}-m)(m-\bar{X})) = -2E((m-\bar{X})\sum_{k=1}^{n}(m-X_{k})) = -2E((m-\bar{X})(nm-n\bar{X})) = -2nE((m - \bar{X})^{2}) = -2n\frac{\sigma^{2}}{n} = -2\sigma^{2}\]
    • 2번째 term 정리 : \(-2\sigma^{2}\)
  • 1번째 term : \(E(\sum_{k=1}^{n}(X_{k}-m)^{2})\) 즉, 각 원소 \(X_{k}\) 에 모평균을 뺀 것에 대한 기대값 즉, 모분산의 정의에 해당합니다.
    • 기대값만 보았을 때, \(E((X_{k}-m)^{2})\sigma^{2}\) 이므로 전체 값 \(E(\sum_{k=1}^{n}(X_{k}-m)^{2}) = n\sigma^{2}\) 입니다.
    • 1번째 term 정리 : \(n\sigma^{2}\)

마지막으로 식을 정리하면 \(\frac{1}{n-1}(n\sigma^{2} -2\sigma^{2} + \sigma^{2}) = \sigma^{2}\) = 모분산.

따라서 처음에 정한 가설인 표분분산의 분모가 n-1일 때, 표분분산의 평균이 모분산과 같아져야 한다. 를 만족하므로 분모는 n-1 입니다.

  • 참조 자료 : https://www.youtube.com/watch?v=O7JEuNKzEQ4