Shapiro-Wilk 검정 - Shapiro-Wilk geomjeong

샤피로 윌크 검정

샤피로 윌크 검정Shapiro-Wilk Test은 표본이 정규 분포로부터 추출된 것인지 테스트하기 위한 방법이다. 검정은 shapiro.test( ) 함수를 사용하며 이때 귀무가설은 주어진 데이터가 정규 분포로부터의 표본이라는 것이다.

표 7-15 샤피로 윌크 검정

shapiro.test : 데이터가 정규 분포를 따르는지 샤피로 윌크 검정을 수행한다. 귀무가설은 정규 분포를 따른다는 것이다.

shapiro.test(
  x  # 숫자 벡터
)

다음은 정규 분포를 따르는 1,000개의 난수를 발생시킨 뒤 이 숫자들이 정규 분포를 따르는지 샤피로 윌크 검정을 수행한 예다.

> shapiro.test(rnorm(1000))

   Shapiro-Wilk normality test

data: rnorm(1000)
W = 0.9974, p-value = 0.1052

p-value > 0.05이므로 데이터가 정규 분포를 따른다는 귀무가설을 기각할 수 없다.

shapiro.test( ) 외에도 nortest 패키지에는 앤더스 달링 검정Anderson-Darling Test, 피어슨 카이 제곱 검정Pearson Chi-Square Test 등을 사용해 정규성을 검정하는 다양한 함수가 있으니 참고하기 바란다.

신간 소식 구독하기

뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.

1홍익대학교

초록 열기/닫기 버튼

본 논문에서는 Kim & Bickel(2003)에서 제안한 이변량 정규분포를 위한 검정통계량을 Fattorini(1986)의 방법을 이용하여 이변량 이상인 경우에도 실제적으로 사용가능하도록 일반화하였다. Fattorini(1986)의 통계량은 Shaprio & Wilk(1965)의 일변량 정규분포를 위한 검정통계량을 다변량으로 확장한 것이다. 그리고 제안된 통계량은 Fattorini(1986) 통계량의 근사통계량으로 생각할 수 있으며 표본의 크기가 클 때도 사용가능하다. 또한 모의실험을 통하여 여러가지 대립가설에서 기존의 통계량과 검정력을 비교하였다.

In this paper, we generalizes Kim and Bickel(2003)'s statistic for bivariate nor- mality to that of multinormality, applying Fattorini(1986)'s method. Fattorini(1986) generalized Shapiro-Wilk's statistic for univariate normality to multivariate cases. The proposed statistic could be considered as an approximate statistic to Fattorini(1986)'s. It can be used even for a big sample size. Power performance of the proposed test is assessed in a Monte Carlo study.

In this paper, we generalizes Kim and Bickel(2003)'s statistic for bivariate nor- mality to that of multinormality, applying Fattorini(1986)'s method. Fattorini(1986) generalized Shapiro-Wilk's statistic for univariate normality to multivariate cases. The proposed statistic could be considered as an approximate statistic to Fattorini(1986)'s. It can be used even for a big sample size. Power performance of the proposed test is assessed in a Monte Carlo study.


키워드열기/닫기 버튼

,

,

Multivariate normality; Shapiro -Wilk statistic; Invariance.

피인용 횟수

  • KCI 5회

  • 602 회 열람
  • KCI 원문 미리보기
  • 원문 찾아보기
  • 논문 인용하기
  • 서지정보 내보내기

    • txt
    • RefWorks
    • Endnote
    • XML

  • 현재 페이지 인쇄

인용현황

정규성 검정 (Normality Test) Start.

BioinformaticsAndMe

1. 정규성 검정 (Normality Test) 이란?

데이터셋의 분포가 정규분포 (Normal Distribution)를 따르는지를 검정하는 것이다.

Statistics의 여러 검정법들이 데이터의 정규분포를 가정하고 (예: t-test) 수행되기 때문에,

데이터 자체의 정규성을 확인하는 검정 과정이 필수적이겠다.

중심극한정리에 의해 표본수(n)가 30이 넘어가면 데이터셋이 정규분포에 가까워진다.

그러나, 경우에 따라 30이 넘어감에도 데이터 특이성에 따라 정규분포를 반드시 따르지 않을 수도 있기에,

Normality Test를 통해 데이터의 정규분포를 확인해보자.

#중심극한정리 (Central Limit Theorem)

-표본의 크기가 커질수록 표본 평균의 분포는 모집단의 분포 모양과는 관계없이 정규 분포에 가까워진다.

-이때 표본분포의 표본 평균은 모집단의 모평균과 같고, 표본표준편차는 모집단의 모표준편차를 표본 크기의 제곱근으로 나눈 것과 같다.'

2. 정규성 검정 종류

ㄱ) Shaprio-Wilks test

-표본수(n)가 2000 미만인 데이터셋에 적합한 정규성 검정

ㄴ) Kolmogorove-Smirnov test

-표본수(n)가 2000 초과인 데이터셋에 적합한 정규성 검정

ㄷ) Quantile-Quantile plot (Graphic test)

-데이터셋이 정규분포를 따르는지 판단하는 시각적 분석 방법

-분석할 데이터 종류가 많지 않다면, QQplot을 통해 시각적으로 확인해보는게 가장 간단하며 직관적이다.

3. 정규성 검정의 H0, H1

-귀무가설(H0) : 데이터셋이 정규분포를 따른다.

-대립가설(H1) : 데이터셋이 정규분포를 따르지 않는다.

-귀무가설을 기각하고 대립가설이 채택된다면 (p<0.01 or 0.05) 해당 데이터셋은 정규분포를 따르지 않는 것이다.

4. 정규성 검정 예제 (R)

-Pima Indian: 9~13세기에 걸쳐 아메리카로 이주해온 몽골리언계

-주식: 식물성. (나무의 순, 잡초, 밀, 콩, 호박 등)

-1960년대 이후 고지방/고칼로리 식습관으로 당뇨환자 증가.

#Pima.tr data (8개의 변수)

npreg: number of pregnancies.

glu: plasma glucose concentration in an oral glucose tolerance test.

bp: diastolic blood pressure (mm Hg).

skin:triceps skin fold thickness (mm).

bmi: body mass index (weight in kg/(height in m)\^2).

ped: diabetes pedigree function.

age: age in years.

type: Yes or No, for diabetic according to WHO criteria.

# Pima.tr 이 들어있는 라이브러리

> library(MASS) 

# Pima.tr$bmi 로 접근하지 않더라도, 바로 bmi로 접근 가능하다. 

> attach(Pima.tr)

> head(Pima.tr)

npreg glu bp skin  bmi   ped age type

1     5  86 68   28 30.2 0.364  24   No

2     7 195 70   33 25.1 0.163  55  Yes

3     5  77 82   41 35.8 0.156  35   No

4     0 165 76   43 47.9 0.259  26   No

5     0 107 60   25 26.4 0.133  23   No

6     5  97 76   27 35.6 0.378  52  Yes

- type

Yes: 당뇨병을 가진 환자

No: 당뇨병이 없는 환자

#정규성 검정에 들어가기 전에 다시한 위에 가설 검정을 상기하자.

-H0 (귀무가설): 주어진 데이터의 분포는 정규분포를 따른다.

-H1 (대립가설): 주어진 데이터의 분포는 정규분포를 따르지 않는다.

>shapiro.test(bmi)

        Shapiro-Wilk normality test

data:  bmi

W = 0.991, p-value = 0.2523

# p-value를 통해 귀무가설을 기각할 수 없으므로 정규분포를 따른다고 할 수 있다. 

#정규성 검정을 통해 데이터의 정규성 확인

#그러면, QQplot 을 통해, 시각적으로도 확인해보자.

>qqnorm(bmi)

>qqline(bmi) 

Shapiro-Wilk 검정 - Shapiro-Wilk geomjeong

위 QQplot 은 데이터의 quantile(분위수)과 특정 이론적 분포의 quantile 각각 구하여 산점도로 나타낸 그림이다.

QQplot 의 점들이 기울기의 직선상에 놓이면 자료가 해당 분포를 잘 따르거나 두 모집단 분포가 같다고 해석할 수 있다.

쉽게말해, 데이터셋의 점들이 라인을 따라서 잘 붙어있으므로 정규성을 따른다고 말할 수 있겠다. 

정규성 검정 (Normality Test) End.

BioinformaticsAndMe