중심 극한 정리 신뢰구간 - jungsim geughan jeongli sinloegugan

💡 큰수의 법칙 (Law of large numbers)

  • 큰 수의 법칙이란 어떤 모집단에서 표본 집단들을 추출할 때, 추출한 데이터의 크기가 커질수록
    표본 집단들의 평균은 모평균과 같아지고, 표본 집단들의 분산은 0에 가까워진다는 것이다.

💡 중심극한정리 (Central Limit Theorem)

  • 중심극한정리는 표본의 수가 충분히 많으면, 모집단의 분포 형태와 상관없이 표본평균의 분포가 정규 분포에 가까워진다는 것이다.

큰수의 법칙, 중심극한의정리 모두 표본집단의 크기가 커짐에 따라 발생하는 현상이다.

그러나 '큰수의 법칙'은 표본 크기가 무한히 커짐에 따라 표본평균이 모평균으로 "확률수렴"을 한다는 개념이고, '중심극한정리'는 표본 크기가 무한히 커짐에 따라 표준화한 표본평균의 분포가 표준정규분포로 "분포수렴"하는 개념이다.
즉, 대수의 법칙은 확률수렴 측면이고, 중심극한정리는 분포수렴 측면의 개념이다.

# 천천히 읽어보고 이해하기

확률수렴
Xn이 무한대로 증가함에 따라,
Xn과 X 차이의 절대값에 대한 확률의 극한값이 0이면 Xn이 X로 확률수렴한다고 함.


분포수렴
확률변수 X가, 극한분포가 연속인 모든 점에 대해서,
누적분포함수 Fxn의 극한값이 누적분포함수 Fx와 같다면 Xn이 X로 분포수렴한다고 함.

개념 블로그


💡 신뢰구간

  • 모수가 있을 것으로 예상되는 범위이다.

중심 극한 정리 신뢰구간 - jungsim geughan jeongli sinloegugan

신뢰도를 95%라고 가정한다면, 신뢰구간은 아래 그림처럼 표현할 수 있다. 표본을 뽑아 평균을 내는 것을 100번 한다면 95번은 녹색 선의 범위 내에 나타낼 수 있다는 것이다.(신뢰구간)

t•sns\over \sqrt n 는 error, x bar는 추정 평균이다.

중심 극한 정리 신뢰구간 - jungsim geughan jeongli sinloegugan

중심극한정리 (Central limit theorem) Start

BioinformaticsAndMe

중심극한정리 (Central limit theorem)


: 중심극한정리는 표본크기(n)가 증가함에 따라, 평균의 표본 분포가 정규 분포에 근사한다는 이론

*정규분포는 종모양의 분포를 보임

: 따라서, 표본크기가 증가할수록 '표본의 평균과 표준편차'가 '모집단의 평균과 표준편차'에 가까워짐

*표본크기가 클수록 모수(Population parameter) 예측이 정확해짐

: 중심극한정리가 성립하기 위해서, 표본크기(Sample size)가 최소 30 이상이여야 함

중심극한정리의 중요성


: 중심극한정리는 모집단 분포에 상관없이 표본크기가 증가함에 따라, 표본분포가 점점 정규분포에 수렴한다는 사실을 알려줌

: 따라서, 샘플링되는 표본크기가 증가함에 따라, Sampling error는 점차 감소함

*Sampling error(표준오차;표집오차) - '모집단의 모수'와 '표본의 표본통계량' 사이의 차이


#Reference

1) https://www.simplypsychology.org/central-limit-theorem.html

2) McLeod, S. A. (2019, May 20). What a p-value Tells You About Statistical significance. Simply Psychology.

3) https://www.simplypsychology.org/p-value.html

4) https://www.youtube.com/watch?time_continue=461&v=JNm3M9cqWyc&feature=emb_title

중심극한정리 (Central limit theorem) End

BioinformaticsAndMe

중심 극한 정리 (Central Limit Theorem)

균일분포에서 뽑은 표본의 평균값은 정규분포를 따른다. 지수분포에서 뽑은 표본의 평균값 또한 정규분포를 따른다.

즉 어떠한 분포에서 뽑은 표본의 평균값은 정규분포를 따른다.

샘플 데이터 수가 많아 질 수록, 샘플의 평균은 정규분포에 근사한 형태로 나타난다.

sample_means = []

for x in range(0, 1000):
  coinflips = np.random.binomial(n = 1, p = 0.5, size = 100) # binomial distribution
  sample_means.append(coinflips.mean())

pd.DataFrame(sample_means).hist(color = '#4000c7');
중심 극한 정리 신뢰구간 - jungsim geughan jeongli sinloegugan

정규 분포를 따른다는건 어떤 의미일까?

평균의 정규분포를 이용하여 신뢰구간 만들기, 두 표본간의 평균의 차이가 있는지 묻는 t-test, 3개 이상의 표본의 평균의 차이가 있는지 묻는 ANOVA 등을 할 수 있다. 

ANOVA (one-way)

2개 이상 그룹의 평균에 차이가 있는지 없는지 확인하는 가설 검정 방법. 

Variation

그룹 간의 차이가 있는지 확인하기 위해 쓰인다. F-statistics 지표를 이용한다.

중심 극한 정리 신뢰구간 - jungsim geughan jeongli sinloegugan
  • F의 분자 : 그룹 간의 Variance (그룹끼리 비교했을 때 서로 얼마나 다른가)
  • F의 분모 : 그룹 안의 Variance (그룹내 비교했을 때 샘플끼리 서로 얼마나 다른가)

3개의 그룹이 주어졌을 때 F-statistics

from scipy.stats import f_oneway

f_oneway(g1, g2, g3) # pvalue = 0.11

신뢰구간 (Confidence Intervals)

신뢰도

신뢰도가 95% 라는 의미는 표본을 100번 뽑았을때 95번은 신뢰구간 내에 모집단의 평균이 포함된다.

신뢰 구간의 설정 및 해석

중심 극한 정리 신뢰구간 - jungsim geughan jeongli sinloegugan
중심 극한 정리 신뢰구간 - jungsim geughan jeongli sinloegugan
신뢰 구간을 수학적으로 표현

부트캠프 공부 내용 한 눈에 보기

[인덱스] 코드 스테이츠 AI 부트캠프

구성 2021.09.09 ~ 2022.04 (총 28주) 배우는 내용 Section 1. 데이터 분석 입문 SPRINT 1. EDA SPRINT 2. Statistics SPRINT 3. DAY 1 EDA 데이터 전처리 Pandas in Colab 가설 검정 (t-test) T-Test 행렬 및 벡..

da-journal.com

중심 극한 정리 신뢰구간 - jungsim geughan jeongli sinloegugan