Post List

2025년 7월 8일 화요일

[Bayesian] 산악회 회원



산악회원의
  • 60%는 남성, 기혼은 50%
  • 40%는 여성, 기혼은 40%

회원 중 임의로 뽑은 한명이 기혼일 때, 이 회원이 여성일 확률은?


  • P(여성|기혼) = P(기혼|여성)P(여성)/P(기혼) = 0.4 * 0.4 / 0.46 = 0.139
    • P(여성) = 0.4
    • P(기혼) = 0.6*0.5 + 0.4*0.4 = 0.46
    • P(기혼|여성) = 0.4


[Bayesian] 유전 확률

[Bayesian] 카드 뽑기


문제출처: http://ncity.egloos.com/4794313
우리 앞에 위와 같이 52 장의 카드가 있고 A, B, C, D 각각이 13장씩 있다. 그리고 지금 나는 이 중 임의로 한장을 뽑으려고 한다. 그런데 마침 뽑으려는 순간 나는 모종의 방식으로 내가 미래에 뽑을 카드 몇 가지를 알아버렸다. 타키온 트랜스미터로 정보가 전달되었든, 라플라스의 악마가 귀띔을 해 줬든, 혹시 신을 믿는 사람이 있다면 신이 갑자기 심심해서 알려줬든 여하간 나는 2 번째 뽑기 부터 4번째 뽑기 까지 전부 A 가 나올 것이라고 알게 되었다. 적어도 이 문제에 나오는 사람이 사는 세계는 결정론적 세계이기 때문에 실재로 그 일은 일어날 것이다. 자 나는 지금부터 카드를 한장 뽑을 것이다. 내 앞에는 여전히 52장의 카드가 있고, 그 중 13 장이 A 이다. 내가 지금부터 뽑을 카드가 A 일 확률은 얼마일까? 1/4? 10/49?



2가지 결론
  • 알고 있는 3장을 제외하고 임의로 한 장 뽑을거면, (13-3) / (52-3) = 10/49
  • 그냥 임의로 한 장 뽑을거면, 13/52 = 1/4
  • A를 뽑을거면 100%, 2번째에서 4번째 카드를 선택할 것이니까


[Bayesian] 3연패한 과금자



게임 유저 100명이 있다.
3연패하고 과금한 사람이 이탈할 확률은?



P(이탈|3연패 and 과금) = P(3연패 and 과금|이탈)P(이탈)/P(3연패 and 과금)

* P(이탈) = 0.7
* P(3연패 and 과금) = 0.1
* P(3연패 and 과금|이탈) = 0.05
* P(이탈|3연패 and 과금) = 0.05 * 0.7 / 0.1 = 0.35


[Bayesian] 쿠키문제




그릇1에는 바닐라쿠키 30개와 초코쿠키 10개가 들어있고, 그릇2에는 바닐라쿠키와 초코쿠키가 각각 20개씩 들어 있다. 임의로 쿠키를 집었는데 바닐라 쿠키였다. 그릇1에서 나왔을 가능성은?

  • P(그릇1|바닐라쿠키) = P(바닐라쿠키|그릇1)P(그릇1) / P(바닐라쿠키) = 0.75 * 0.5 / 0.625 = 0.6
    • P(바닐라쿠키) = 50/80
    • P(그릇1) = 40/80
    • P(바닐라쿠키|그릇1) = 30/40

R code
prior <- c(0.5, 0.5)
names(prior) <- c("Bowl1", "Bowl2")
Bowl1 <- c(30, 10)
Bowl2 <- c(20, 20)
names(Bowl1) <- c("B", "C")
names(Bowl2) <- c("B", "C")

Lik <- c(Bowl1["B"]/sum(Bowl1), Bowl2["B"]/sum(Bowl2))
names(Lik) <- c("Bowl1", "Bowl2")

p1 <- (Lik["Bowl1"] * prior["Bowl1"]) / ((Bowl1["B"] + Bowl2["B"]) / sum(Bowl1 + Bowl2))
p2 <- (Lik["Bowl2"] * prior["Bowl2"]) / ((Bowl1["B"] + Bowl2["B"]) / sum(Bowl1 + Bowl2))
posterior <- c(p1, p2)
names(posterior) <- c("Bowl1", "Bowl2")

print(posterior)



[Bayesian] 베이즈 정리

Contents

1 정의
2 약간 다르게1
3 약간 다르게2
4 약간 다르게3
5 예제: 흡연율 조사
6 참고자료



1 정의 #

  • 두 확률 변수의 사전 확률(prior probability)와 사후 확률(posterior probability)사이의 관계를 나태는 정리

  • 새로운 자료가 제시되면 사후 확률을 갱신함.


원인(C), 결과(R) 일 때,
  • P(C) - 원인이 발생할 확률, 사전 확률
  • P(R|C) - 원인 C가 발생했을 때, 결과 R이 될 확률, 우도(likelihood)
  • P(C|R) - 결과 R이 발생했을 때, 원인 C가 될 확률, 사후 확률

베이즈 정리
  • 사전 확률 P(C)와 우도 P(R|C)를 알면 사후 확률 P(C|R)을 알 수 있다
  • 사전 확률 P(C)와 사후 확률 P(C|R)를 알면 우도 P(R|C)을 알 수 있다

2 약간 다르게1 #

P(H|D) = P(D|H)P(H) / P(D)
  • 데이터 D의 관점에서 봤을 때, 가설 H의 확률을 수정해 준다.
  • P(H): 사전 확률
  • P(H|D): 사후 확률
  • P(D|H): 우도
  • P(D): 한정 상수


3 약간 다르게2 #

P(T|E) = P(E|T)P(T) / P(E)
  • P(T): 이론
  • P(T|E): 사후 확률
  • P(E|T): 이론이 이랬는데, 실험에서는 이랬다.
  • P(E): 실험

ex) 100번 동전을 던졌는데, 70번 앞면이 나왔다. 이론상 앞면이 나올 확률은 0.5다.

P(T=0.5|E=0.7) = P(E=0.7|T=0.5)P(T=0.5) / P(E=0.7)

4 약간 다르게3 #

P(H|E) = P(E|H)P(H) / (P(E|H)P(H) + P(E|~H)P(~H))

  • P(H): 가설이 참일 확률
  • P(~H): 가설이 거짓일 확률
  • P(E|~H): 가설이 거짓일 경우 이 증거가 참일 확률
  • P(E|H): 가설이 참일 경우 이 증거가 실현될 확률

5 예제: 흡연율 조사 #

통계청의 자료를 보니 청소년 남자의 흡연율은 50%이고, 여자의 경우 25%(실제는 안 그렇다)였다. A고등학교에서 학생 주임 선생님이 흡연율을 조사하려고 한다. 2학년 1반에 30명이 있다. 남자는 20명, 여자는 10명이다. 메모지를 나눠주고 성별과 흡연여부를 물었다.

흡연의 사전 확률
  • 남자 = 50%
  • 여자 = 25%

메모지를 거둬 펼쳐았는데 다음과 같은 결과가 나왔다.
  • 남자, 흡연 = 18명 (18/30, 60%)
  • 여자, 흡연 = 10명 (10/20, 50%)

사후 확률은
흡연 비흡연
남자 0.5*0.6 0.5*0.4
여자 0.3*0.5 0.7*0.5

다음과 같이 계산된다.
흡연 비흡연 합계
남자 0.3 0.2 0.5
여자 0.15 0.35 0.5

흡연 비흡연 합계
남자 0.3/0.5 0.2/0.5 0.5
여자 0.15/0.5 0.35/0.5 0.5

첫 데이터를 받아 보고 계산된 사후 확률이다.
흡연 비흡연 합계
남자 0.6 0.4 1.0
여자 0.3 0.7 1.0

학생 주임 선생님은 아직도 흡연율이 남자가 50%, 여자가 25%라고 생각할까?
조금은 선생님의 생각이 바뀌어 있을 것이다.

이제 2학년 2반으로 가서 다시 메모지를 나눠주고 흡연여부를 조사하자.
단, 2학년 2반의 사전 확률은 2학년 1반 데이터가 반영된 다음이 사전 확률이다.

흡연 비흡연
남자 0.6 0.4
여자 0.3 0.7

나 같으면, 그냥 남자는 60%, 여자는 50% 흡연한다고 생각할텐데..
엇.. 통계청의 자료가 없을 때 이것이 사전확률이겠군.


[Bayesian] 3연패


P(이탈|3연패) = P(3연패|이탈)P(이탈) / P(3연패)


레이싱 게임이 있다. 이 게임에 오늘 신규가입자가 100명이다. 이들 100명이 3연패시 이탈할 확률은?
  • P(이탈): 신규가입자들의 1일차 잔존율은 0.5(50%) 다.
  • P(3연패): 3연패할 확률은 승률 0.5라 가정했을 때에 0.5 * 0.5 * 0.5 = 0.125 다.
  • P(3연패|이탈): 이탈했는데 3연패한 확률은 0.2 다.
  • P(이탈|3연패): 3연패했는데 이탈할 확률, (0.2 * 0.5) / 0.125 = 0.8