연속확률변수 기댓값 - yeonsoghwaglyulbyeonsu gidaesgabs

확률변수의 기댓값과 분산 본문

HOIT_1220 2020. 8. 11. 16:07

목차 Show

확률변수의 기댓값과 분산 본문
1. 개요[편집]
2. 정의[편집]
2.1. 이산 확률 변수[편집]
2.2. 연속 확률 변수[편집]
2.3. 응용[편집]
3. 성질[편집]
4. 기타[편집]
5. 참고 문서[편집]

이산형 분포의 기댓값

x : 이산형 확률변수

f(x) : 확률 함수

∑|x|f(x) < ∞ 이면 'x는 기댓값이 존재한다'라고 하고 E(x) = ∑|x|f(x) 를 x의 기댓값이라 한다.

(ex)

연속형 분포의 기댓값

x : 연속 확률변수

f(x) : 확률함수

∫|x|f(x) dx <∞ 이면 'x는 기댓값이 존재한다'라고 하고 E(x) = ∫|x|f(x) dx를

기댓값의 성질

확률변수 x는 E(x)가 존재할 때, 모든 a, b는 상수

THM

확률변수 X1, X2가 서로 독립이면 E( X1, X2 ) = E(X1) E(X2)이다.

(증명)

확률변수 x는 E(x)=m를 가질 때, E[ (x-m)^2 ]이 존재하면 이 값을 x의 분산이라 한다.

var(x), v(x) 등으로 표기한다.

분산의 성질

모든a,b는 상수

var(ax+b) = a^2 var(x)

pf) var(ax+b) = E[ { (ax+b) - E(ax+b)^2 }^2 ] = E[ {ax+b - aE(x)+b}^2 ] = E[ { a(x-E(x) }^2 ] = a^2E[ { x-E(x) }^2 ]=a^2 var(x)

var(x+b) = var(x)

var(-x) = var(x)

THM

1) var(x) = E(x^2) - [E(x)]^2

(pf)

2) 확률변수 x1,x2가 서로 독립이면 var(x1+x2) = var(x1)+var(x2) 이다.

n으로 확장하면 x1, x2, x3, .......... ,xn이 서로 독립이면, var(x1+x2+x3+ ..........+xn) = var(x1)+var(x2)+var(x3) + ...... +var(xn)

경우의 수(공식) · 순열(완전순열 · 염주순열) · 치환 · 분할(분할수) · 최단거리 · 제1종 스털링 수 · 제2종 스털링 수 · 카탈랑 수 · 벨 수 · 라흐 수 · 포함·배제의 원리 · 더블 카운팅 · 조합론

그래프

수형도 · 인접행렬 · 마방진 · 마법진 · 한붓그리기(해밀턴 회로) · 쾨니히스베르크 다리 건너기 문제

확률

사건 · 가능성 · 확률변수 · 확률분포(정규분포 · 이항분포 · 푸아송 분포 · 카이제곱분포 · t분포) · 조건부확률 · 기댓값 · 도박사의 오류 · 몬티 홀 문제 · 뷔퐁의 바늘

기타

P-NP 문제미해결 · 4색정리 · 이항정리(파스칼의 삼각형) · 이산 푸리에 변환 · 비둘기 집의 원리 · 상트페테르부르크의 역설 · 투표의 역설 · 에르고딕 가설미해결 · 콜라츠 추측미해결 · 시행착오 (예상과 확인)

1. 개요[편집]

期待値 / expectation

어떤 확률 과정을 무한히 반복했을 때, 얻을 수 있는 값의 평균으로서 기대할 수 있는 값. 보다 엄밀하게 정의하면 기댓값은 확률 과정에서 얻을 수 있는 모든 값의 가중 평균이다.

확률변수 XXX가 어떤 모집단 분포를 따를 때 XXX의 기댓값을 (모)평균(population mean)이라고도 부른다. 예컨대 다음과 같은 표현을 많이 접할 것이다.

XXX가 평균 μ\muμ, 표준편차 σ\sigmaσ인 정규분포를 따른다고 하자.

2. 정의[편집]

2.1. 이산 확률 변수[편집]

이산 확률 변수 XXX의 확률분포표가 다음과 같다고 하자. (p(x)p\left(x\right)p(x)는 확률 질량 함수)

XXX

x1x_1x1

x2x_2x2

⋯\cdots⋯

xnx_nxn

p(x)p\left(x\right)p(x)

p1p_1p1

p2p_2p2

⋯\cdots⋯

pnp_npn

이때 이산 확률 변수 XXX의 기댓값은 E(X)\text{E}\left(X\right)E(X) 또는 E(X)\mathbb{E}(X)E(X)[1]와 같이 나타내고 다음과 같이 정의한다.

E(X)=∑i=1nxipi\displaystyle \mathbb{E}\left(X\right)=\sum_{i=1}^{n}{x_ip_i}E(X)=i=1∑nxipi

이산 확률 변수 XXX가 취하는 값의 개수가 무한한 경우, 즉 자연수 집합과 일대일 대응 되는 경우에도 비슷하게 정의된다.

E(X)=∑i=1∞xipi\displaystyle \mathbb{E}\left(X\right)=\sum_{i=1}^{\infty}{x_ip_i}E(X)=i=1∑∞xipi

단, 이 급수가 절대수렴해야 한다. 다시 말해서 각 항에 절댓값을 씌운 급수
∑i=1∞∣xipi∣\displaystyle\sum_{i= 1}^\infty\lvert x_ip_i \rverti=1∑∞∣xipi∣
가 무한대로 발산하는 경우는 기댓값이 정의되지 않는다. 이는 리만 재배열 정리란 녀석 때문이다.

2.2. 연속 확률 변수[편집]

연속 확률 변수 XXX의 확률 밀도 함수가 f(x)f(x)f(x)라고 할 때 XXX의 기댓값은 다음과 같이 정의한다.

E(X)=∫−∞∞x f(x) dx=∫Rx f(x) dx\displaystyle \mathbb{E}\left(X\right)=\int_{-\infty}^{\infty} x\, f(x)\, \mathrm{d}x = \int_{\mathbb{R}} x\, f(x)\, \mathrm{d}xE(X)=∫−∞∞xf(x)dx=∫Rxf(x)dx

이산 확률 변수의 경우와 마찬가지로
∫R∣xf(x)∣dx\displaystyle\int_{\mathbb{R}}\lvert xf(x) \rvert\mathrm{d}x∫R∣xf(x)∣dx
의 값이 무한대라면 기댓값이 정의되지 않는다.

이렇게 '정의되지 않음'은 기댓값의 고유한 특성이 아니라, 르베그 적분(Lebesgue integral)의 정의에서 오는 것이다. 위 이산 확률 변수의 경우도 이산 측도에서의 르베그 적분이므로[2] 마찬가지인 것. 이상적분(improper integral)과는 다르다.

예컨대 코시 분포(Cauchy distribution)[3]는 다음과 같은 확률밀도함수를 가진다.
f(x)=1π⋅(1+x2)\displaystyle f(x)= \frac{1}{\pi\cdot(1+ x^2)}f(x)=π⋅(1+x2)1[4]
이 확률밀도함수는 표준정규분포와 유사하게 종 모양을 가지고 0을 중심으로 대칭이지만, 직관과는 달리 기댓값은 0이 아니고, 정의되지 않는다. 즉, 평균이 없는 분포다.[5] 이와 관련해서는 이상적분 항목 참조.

2.3. 응용[편집]

어떤 함수 ggg에 대해 g(X)g\left(X\right)g(X)의 기댓값, 즉 E(g(X))\text{E}\left(g\left(X\right)\right)E(g(X))는 다음과 같이 정의된다.

이산 확률 변수 : E(g(X))=∑i=1ng(xi)pi\displaystyle \text{E}\left(g\left(X\right)\right)=\sum_{i=1}^{n}{g\left(x_i\right)p_i}E(g(X))=i=1∑ng(xi)pi
연속 확률 변수 : E(g(X))=∫−∞∞g(x)f(x)dx\displaystyle \text{E}\left(g\left(X\right)\right)=\int_{-\infty}^{\infty}g\left(x\right)f\left(x\right)dxE(g(X))=∫−∞∞g(x)f(x)dx

예를 들어 XXX의 분산 V(X)\text{V}\left(X\right)V(X)는 다음과 같이 나타낼 수 있다.

V(X)=E((X−E(X))2)=E(X2)−{E(X)}2\text{V}\left(X\right)=\text{E}\left(\left(X-\text{E}\left(X\right)\right)^2\right)=\text{E}\left(X^2\right)-\left\{\text{E}\left(X\right)\right\}^2V(X)=E((X−E(X))2)=E(X2)−{E(X)}2

3. 성질[편집]

상수 aaa의 기댓값은 aaa이다.

E(a)=a\text{E}\left(a\right)=aE(a)=a

기댓값은 선형성을 가진다. 즉, 다음이 성립한다. (X,YX, YX,Y는 확률변수, aaa는 상수)

E(X+Y)=E(X)+E(Y)\text{E}\left(X+Y\right)=\text{E}\left(X\right)+\text{E}\left(Y\right)E(X+Y)=E(X)+E(Y)
E(aX+b)=aE(X)+b\text{E}\left(aX+b\right)=a \text{E}\left(X\right)+bE(aX+b)=aE(X)+b

확률변수 X,YX, YX,Y가 서로 독립일 경우에는 다음의 성질도 성립한다.[6]

E(XY)=E(X)E(Y)\text{E}\left(XY\right)=\text{E}\left(X\right)\text{E}\left(Y\right)E(XY)=E(X)E(Y)

4. 기타[편집]

동의어인 '기대치'라는 단어는 일상적으로 생각보다 많이 쓰이는데, "기대치가 너무 높다"라던가 "기대치에 못 미쳤다"와 같이 '바라는 정도'의 맥락으로 쓰이는 경우가 많다.

5. 참고 문서[편집]

상트페테르부르크의 역설

[1] 물리학에서는 전자, 수학에서는 후자를 많이 쓴다.[2] 이산 확률 변수에서 저게 왜 적분이지? 할 수 있겠지만, 사실 ∑x=abf(x)⇔∫abf(x) d⌊x⌋\displaystyle \sum_{x=a}^b f(x) \Leftrightarrow \int_{a}^{b} f(x) \, \mathrm{d} \lfloor x \rfloorx=a∑bf(x)⇔∫abf(x)d⌊x⌋이 성립한다는 것을 염두에 두면 적분 맞다.[3] 자유도가 1인 t-분포와 같다.[4] π\piπ 뒤에 점을 찍은 이유는 π(1+x2)\pi(1+ x^2)π(1+x2)라고 쓰면 원주율과 다항식의 곱인지, 소수 계량 함수인지 혼동할 수 있기 때문.[5] 물론 중앙값은 0이다.[6] 해당 성질을 갖는 X,Y를 비상관(uncorrelated) 확률변수라 부르며 비상관이지만 독립은 아닌 경우도 있다. 대표적으로 X의 분포가 짝함수이고 Y=|X|인 경우가 있다.