확률 밀도 함수 Y 축 - hwaglyul mildo hamsu Y chug

평균(산술평균 · 기하평균 · 조화평균 · 멱평균 · 대수평균) · 기댓값 · 편차(절대편차 · 표준편차) · 분산(공분산) · 결정계수 · 변동계수 · 상관계수 · 대푯값 · 자유도

추론통계학

가설 · 변인 · 추정량 · 점추정 · 신뢰구간 · 상관관계와 인과관계 · 실험통계학 · p-해킹 · 통계의 함정 · 그레인저 인과관계 · 신뢰도와 타당도

통계적 방법

회귀 분석 · OLS · 분산분석 · 주성분 분석(요인 분석) · 시계열분석 · 패널분석 · 2SLS · 생존 분석 · GARCH · 비모수통계학 · 준모수통계학 · 기계학습(군집 분석 · 분류 분석) · 위상 데이터분석 · 외삽법 · 메타 분석 · 모델링(구조방정식)

기술통계학 · 자료 시각화

도표(그림그래프 · 막대그래프 · 선 그래프 · 원그래프 · 상자 수염 그림 · 줄기와 잎 그림 · 산포도 · 산점도 · 히스토그램 · 도수분포표) · 그래프 왜곡 · 이상점

초등함수
Elementary Functions

[ 펼치기 · 접기 ]

대수함수

다항함수 (상수 · 1차 · 2차 · 3차 · 4차 · 추론 · 공식 ( 길이 · 넓이 ) · 소수생성) · 유리함수 · 무리함수

초월함수

지수함수( 확률밀도함수 · 허수지수함수 ) · 로그함수 ( 복소로그함수 ) · 삼각함수 · 역삼각함수 · 쌍곡선 함수 · 역쌍곡선 함수

정규분포의 확률 밀도 함수

1. 개요2. 정의3. 절대 연속 조건4. 의미5. 관련 문서


1. 개요[편집]

確率密度函數 / probability density function

연속 확률 변수를 나타내는 함수. 확률 질량 함수의 연속형 버전.

2. 정의[편집]

(절대)연속확률변수 X에 대해서 F(x)F(x)F(x)가 누적분포함수 일때 X의 확률밀도함수 f(x)f (x)f(x)
F(x)=∫−∞xf(t)dt\displaystyle F(x) =\int _{ -\infty }^{ x }{f(t)dt }F(x)=xf(t)dt

로 정의한다.

여기서 미분불가능한 지점은 기껏해야 셀 수 있어야 하며 그 지점에서의 f의 값은 어느값이어도 제한이 없으나 통상적으로
좌연속이거나 우연속이 되도록 지정해준다.

정규 분포에 사용되는 확률밀도함수는 f(x)=e−x2f(x) = e^{-x^2}f(x)=ex2라는 특수함수로 주어지며[1], 가우스 적분이라는 방법으로 적분이 가능하다.

3. 절대 연속 조건[편집]

보통의 이공계에서는 (절대)라는 조건을 생략하고 그냥 가르치는 경우가 많다. 하지만 위의 정의의 식이 말이 되게 하는 f가 존재하려면 반드시 F의 절대연속성이 보장되어야 한다. 따라서 절대연속의 개념을 첨부한다.

4. 의미[편집]

어떤 확률변수X를 완벽하게 묘사하는 함수는 누적 분포 함수(CDF) F(x)F(x)F(x)이다.[2] 이는 X가 이산이든 연속이든 이산과 연속이 섞인 형태이든 변하지 않는 진리이다. 하지만 실제 상황이나 문제에서는 CDF를 다루는 상황보다 확률밀도함수(pdf)를 다루는 경우가 훨씬 많다. 그러므로 확률밀도함수의 개념을 이해하는 것은 매우 중요하다.
이 개념에 확률 '밀도' 함수라는 개념이 붙은 이유를 알아야 하는데 이는 확률 '질량'함수에서의 이유와 같다. 기본적으로 연속형 확률변수의 경우에는 개별 값들에 대한 확률값이 존재하지 않는다. 연속의 경우에는 반드시 구간단위로 확률이 존재할 수 밖에 없는데 확률밀도 함수는 특정 지점에 대한 값을 말한다.
직관적으로 자연스럽게 pdf의 값은 x주변의 미소구간에서의 미소확률(질량)에 대한 밀도값이라는것을 알 수 있다.
즉 선형밀도=질량/길이 와 동일하게 pdf=미소확률/dx 인 것이다. 여기서 미소구간길이dx가 부피에 해당된다.
그러므로 f(x)=lim⁡Δx→0P(x≤X≤x+Δx)Δx=lim⁡Δx→0F(x+Δx)−F(x)Δx=dFdxf(x)=\lim _{ \Delta x\to 0 }{ \frac { P(x\le X\le x+\Delta x) }{ \Delta x } }=\lim _{ \Delta x\to 0 }{ \frac { F(x+\Delta x)-F(x) }{ \Delta x } }=\frac { dF }{ dx }

사건이 발생할 종류에 원하는 숫자를 대입한 것. 예) 동전 던지기와 같이 앞면이 2번 발생한 경우를 X= 2, 1번 발생한 경우를 X=1라고 할 수 있다. 확률변수는 2가지 종류가 있는데 다음과 같다.

  • 이산확률변수(Discrete random variables): 셀 수 있는 특정한 값으로 구성(값이 유한, finite). 이러한 확률변수에 대한 함수를 확률질량함수(Probability mass function)이라고 부른다.
  • 연속확률변수(Continuous random variables): 연속형이거나 무한한 경우와 같이 셀 수 없는 학률변수. 이러한 확률변수에 대한 함수를 확률밀도함수(probability density function)이라고 부른다.


* 참고로, 확률함수(Random function)란 실험을 계속 했을 때, 결과가 몇번씩 발생했는지 알 수 있는데, 이러한 발생의 확률을 계산하여 함수로 표현 한 것을 의미한다. 이 함수는 확률이 될 수 있는 0~1사이의 확률을 나타내어주는 함수를 의미한다. 유사한 개념으로 확률분포(Probability distribution)은 확률변수에 따라 확률이 어떻게 분포되어있는지를 의미한다. 이러한 확률분포는 확률함수가 추정되어있거나 정의되어있으면, 분포를 파악할 수 있다.



확률함수에 대한 예시를 다음과 같이 들 수 있다.

확률변수와 확률함수와의 관계는 예를 들어 복권을 샀을 때, 꽝아니면 당첨이라고 생각해보자. 당첨 확률이 1/3이며, 3번 샀을 때를 예시를 들어보자. 그럼 사건은 0번 당첨, 1번 당첨 2번 당첨, 3번당첨 해당하고.. 당첨횟수가 확률변수를 의미한다. 그리고 당첨횟수에 대한 확률이 '확률' 이라고 부르고, 이러한 확률을 함수로 당첨횟수(확률변수)에 따른 확률로 일반화하면 '확률함수'이다.


  • 확률 변수의 기대값: 사건에서 발생하는 해당값과 그 사건이 발생할 확률을 곱해서 모두 더한 값. 예를 들어서, 복권에 1등 2등 꽝에 당첨될 확률이 20%, 30%, 50%라고하면, 1등에 해당하는 당첨금과 확률을 곱하고, 2등에 해당하는 당첨금과 확률을 곱하고 꽝은 당첨금이 없으니... 더하나마나이지만 더한 겂이 기대값이다. 수식은 아래와 같다.



  • 확률변수의 분산: 기대값의 특성으로 나타내는 값. 확률변수들이 기대값들로부터 벗어나 있는 정도. 이 말은 기대값에 대해서, 각각의 확률변수가 얼마나 떨어져잇는지를 나타낸다. 위의 예에서, 당첨금이 1만원인데 확률변수의 분산이 크다면, 대박아니면 쪽빡이란 얘기다. 수식으로는 아래와 같다. 

(2)

  • 확률변수의 편차: (2)식에서 루트를 씌우면 된다.





확률분포(Probability distribution)

  확률 변수의 정의는: 하나의 변수가 취할 수 있는 각 값과 그에 대한 확률의 대응관계를 의미한다. 수학적인 정의는 다음과 같다. 변수 x가 취할 수 있는 모든 값이 x1, x2, x3, x4이고, 이에 각각 대응하는 확률이 p1, p2, p3, pn 인 경우, 이 둘의 대응 관계를 X의 확률분포라고 한다. 즉 X에 특정한 값이 들어가면 확률이 튀어나오는(반환)되는 관계를 의미 한다.


위에서 언급했듯이, 확률변수에 따라서 연속형 확률변수와, 이산형 확률변수에 따라서 확률분포의 종류가 달라지는데 다음과 같다. 아래의 그레프를 읽을 때, X축과 Y축에 따라 함수의 의미를 이해해보자.

  • 확률밀도함수(Probability density function, PDF): X는 확률변수를 의미하고 Y는 확률밀도를 의미한다. 이 확률 변수(x)는 특정 값(점)에 대해서 확률이 0이라고 할 수 있다 (식 1). 예를 들어서, 글쓴이의 키가 175.32cm이라고 할 확률이 몇이라고 할 수 있는지를 묻는다면 0이라고 대답해야할 것이다. 175.321cm일 수도 있고, 175.3254872cm일수도 있고, 확률변수가 무한하기 때문에 특정 값에 대해서 0이다. 따라서 아래의 그림처럼 특정 구간(a에서 b까지) 적분하여 확률을 표현할 수 있다. 

 




(source: //work.thaslwanter.at/Stats/html/statsDistributions.html)

  • 누적분포함수(Cumulative distribution function, CDF): PDF에서 각 구간별로 면적의 누적합이 CDF이다. 아래의 수식에서 F(X)은 CDF을 의미하고, f(x)은 PDF을 의미한다. PDF을 적분을 하면 CDF가 된다. 반대로 CDF을 미분하면 PDF가 나온다. 즉, CDF의 접선의 기울기가 PDF라는 의미이다.

 




확률분포의 모양

이러한 확률분포의 모양을 결정하는 것을 모수(Parameters)라고 하는데, 위치모수(Location parameter), 형상모수(Shape parameter), 척도모수(scale parameter)가 있다. 정규분포의 경우 분포의 평균인 E(X)와 분포의 퍼진정도인 Var(X), 또는 SD(X)을 이용해서 모양을 결정할수 있다.




결합확률분포(Joint probability distribution)

결합확률분포도 각 이산확률변수인지 연속확률변수인지에 따라 두 가지로 분류할 수 있다.  각각 다음과 같이 표기할 수 있다.

  • 이상확률분포:
  • 연속확률분포: 


주변확률분포(Marginal Probability distribution): 결합확률분포를 공부하다보면, 주변확률분포도 같이 언급된다. 이유는 주변확률분포는 결합확률분포를 전제로 하기 때문이라 생각된다. 주변확률분포는 두 개의 변수로 이루어진 결합확률분포를 통해, 하나의 변수로만 이루어진 확률분포를 구하려고하는 것이다. 주로 Summation을 이용해서 나머지 확률을 없애고 하나의 확률만 구하는 방식이다. 즉, 주사위던지기(X), 동전던지기(Y)가 에 대한 결합확률분포가 있다면, 모든 동전던지기의 확률을 더하면 주사위던지기만 나올 것이기 떄문에 합을 통해 주변확률분포를 구한다. 수식으로 표현하면 다음과 같다.


이산확률변수인 경우: 주변확률분포는 주어진 결합확률분포에서  한 확률분포에 대한 분포를 찾기 위함이다. 따라서, 원하는 확률분변수 외의 확률값을 모두 합해주면 된다.(예, X가 취할 수 있는 모든 값을 더한 y의 확률분포)식은 다음과 같다.

연속확률변수인 경우: 마찬가지로 y에 대해서 합을 하기위해서 dy을 하거나, x에 대해서 합을 하기 위해서 dx을 한다.



마찬가지로, CDF의 경우 위의 PDF에 적분(연속형 변수)을 하거나 특정 확률분포에 대해서 합계(이산형)를 해주면된다.

Joint PDF은 x,y, 두 변수에 대해서 Joint CDF미분을 하면 된다. 



Conditional PDF

이산형 변수인 경우

연속형 변수인 경우


독립인 경우



확률 분포의 특징

기대값(Expectation)


상수 배를 할 경우의 특징

E(c)=c

E(aX+b) = aE(X)+b

E(aX+bY) = aE(X) + bE(Y)

E(X|X) = X





분산의 계산 특징



(source: //slideplayer.com/slide/2617017/)






공분산(Co-variance)

X와 Y가 얼마만큼 많이 변화 하는지를 보는 것. 정의는 아래와 같다.



두 확률 변수 X, Y가 독립일 경우에 E(XY)가 E(X)* E(Y)이고 이는 각각 평균을 의미하므로 Mu_x, Mu_y이므로 0이된다.



* 참고 Correlation : 





Moment (적률)

 확률변수 X의 n승의 기대값

  • E(x)은 1차 모멘트: 평균이고 분포의 Location parameter에 해당한다.
  • E(X) 2차 모멘트. 평균에 대한 2차 모멘트 . 







Basic distribution

Discrete variable인 경우 따를 수 있는 확률함수의 형태


  • Bernouli distribution: 성공 혹은 실패의 형식의 이분(Binary) 한 경우의 사건이 발생하는 경우를 베르누이 시행이라고 하는데, 이런 베르누이 시행에 대한 분포를 베르누이 분포라고 한다.



Bern(x;θ)={θ1θif x=1,if x=0






Binomial distribution(이항분포): 위와 같은 베르누이의 시행에서, K번 시행해서 이벤트가 발생할 확률에 대한 분포가 이항분포라고 한다. 바꿔 말하면 이항분포에서 시행 회수가 1인경우(K=1)가 베르누이 분포랑 같다고 할 수 있다.


Multinomial distribution(다항분포): 이항분포의 경우 사건이 이분형으로 나뉘는데, 다항분포는 이의 일반화이다. 즉 True/False가 아니라 더 많은 종류의 카테고리가 있는 경우를 다항분포라고 할 수 있다.


Posisson distribution(포아송 분포): 많은 사건 중에서 특정한 사건이 발생할 가능성이 매우 매우 확률을 갖는 분포이다. 포아송분포는 사건을 n회 시행할 때 특정한 사건이 y회 발생할 확률분포 중에서 사건을 시행한 수인 n이 무한대인 경우에 해당한다. 예를 들어, 차량 통행을 n이라고 하고, 고속도로에서 하루동안 발생하는 교통사고가 발생 사건수이 이에 할 수 있다(n고속도로 차량 통행이 n이 충분히 크다.) 또는 

Toplist

최신 우편물

태그