Post List

2025년 7월 8일 화요일

[Bayesian] 베이즈 정리

Contents

1 정의
2 약간 다르게1
3 약간 다르게2
4 약간 다르게3
5 예제: 흡연율 조사
6 참고자료



1 정의 #

  • 두 확률 변수의 사전 확률(prior probability)와 사후 확률(posterior probability)사이의 관계를 나태는 정리

  • 새로운 자료가 제시되면 사후 확률을 갱신함.


원인(C), 결과(R) 일 때,
  • P(C) - 원인이 발생할 확률, 사전 확률
  • P(R|C) - 원인 C가 발생했을 때, 결과 R이 될 확률, 우도(likelihood)
  • P(C|R) - 결과 R이 발생했을 때, 원인 C가 될 확률, 사후 확률

베이즈 정리
  • 사전 확률 P(C)와 우도 P(R|C)를 알면 사후 확률 P(C|R)을 알 수 있다
  • 사전 확률 P(C)와 사후 확률 P(C|R)를 알면 우도 P(R|C)을 알 수 있다

2 약간 다르게1 #

P(H|D) = P(D|H)P(H) / P(D)
  • 데이터 D의 관점에서 봤을 때, 가설 H의 확률을 수정해 준다.
  • P(H): 사전 확률
  • P(H|D): 사후 확률
  • P(D|H): 우도
  • P(D): 한정 상수


3 약간 다르게2 #

P(T|E) = P(E|T)P(T) / P(E)
  • P(T): 이론
  • P(T|E): 사후 확률
  • P(E|T): 이론이 이랬는데, 실험에서는 이랬다.
  • P(E): 실험

ex) 100번 동전을 던졌는데, 70번 앞면이 나왔다. 이론상 앞면이 나올 확률은 0.5다.

P(T=0.5|E=0.7) = P(E=0.7|T=0.5)P(T=0.5) / P(E=0.7)

4 약간 다르게3 #

P(H|E) = P(E|H)P(H) / (P(E|H)P(H) + P(E|~H)P(~H))

  • P(H): 가설이 참일 확률
  • P(~H): 가설이 거짓일 확률
  • P(E|~H): 가설이 거짓일 경우 이 증거가 참일 확률
  • P(E|H): 가설이 참일 경우 이 증거가 실현될 확률

5 예제: 흡연율 조사 #

통계청의 자료를 보니 청소년 남자의 흡연율은 50%이고, 여자의 경우 25%(실제는 안 그렇다)였다. A고등학교에서 학생 주임 선생님이 흡연율을 조사하려고 한다. 2학년 1반에 30명이 있다. 남자는 20명, 여자는 10명이다. 메모지를 나눠주고 성별과 흡연여부를 물었다.

흡연의 사전 확률
  • 남자 = 50%
  • 여자 = 25%

메모지를 거둬 펼쳐았는데 다음과 같은 결과가 나왔다.
  • 남자, 흡연 = 18명 (18/30, 60%)
  • 여자, 흡연 = 10명 (10/20, 50%)

사후 확률은
흡연 비흡연
남자 0.5*0.6 0.5*0.4
여자 0.3*0.5 0.7*0.5

다음과 같이 계산된다.
흡연 비흡연 합계
남자 0.3 0.2 0.5
여자 0.15 0.35 0.5

흡연 비흡연 합계
남자 0.3/0.5 0.2/0.5 0.5
여자 0.15/0.5 0.35/0.5 0.5

첫 데이터를 받아 보고 계산된 사후 확률이다.
흡연 비흡연 합계
남자 0.6 0.4 1.0
여자 0.3 0.7 1.0

학생 주임 선생님은 아직도 흡연율이 남자가 50%, 여자가 25%라고 생각할까?
조금은 선생님의 생각이 바뀌어 있을 것이다.

이제 2학년 2반으로 가서 다시 메모지를 나눠주고 흡연여부를 조사하자.
단, 2학년 2반의 사전 확률은 2학년 1반 데이터가 반영된 다음이 사전 확률이다.

흡연 비흡연
남자 0.6 0.4
여자 0.3 0.7

나 같으면, 그냥 남자는 60%, 여자는 50% 흡연한다고 생각할텐데..
엇.. 통계청의 자료가 없을 때 이것이 사전확률이겠군.


댓글 없음:

댓글 쓰기