ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • 조건부 확률 : 새롭게 주어진 정보를 활용하자
    Math♾️/Probability Statistics🎲 2025. 3. 14. 22:58
    새로운 정보를 통해 불확실의 크기를 줄이는 방법

    조건부 확률이란 무엇인가?

    조건부 확률은 "어떤 사건이 '이미' 일어났다는 정보가 주어졌을 때, 다른 사건의 확률이 어떻게 바뀌는가?"를 다룹니다.

    예를 들어, 카드를 한 장 뽑을 때 스페이드가 나올 확률은 1/4입니다. 그런데 만약 누군가 "그 카드는 검은색이에요"라는 정보를 알려준다면 어떨까요? 검은색 카드는 클럽이나 스페이드 중 하나여야 하므로, 이제 스페이드가 나올 확률은 1/2로 높아집니다. 이렇게 추가 정보에 기반해 확률을 업데이트하는 개념이 바로 조건부 확률입니다.

    수학적 정의와 직관적 이해

    조건부 확률은 다음과 같이 표기합니다:

    P(A|B) = P(A ∩ B) / P(B)

    여기서 `|`는 given ( 주어진 상황)을 의미합니다.  따라서 

    • P(A|B)는 "B가 일어났을 때 A의 확률"을 의미합니다.
    • P(A ∩ B)는 "A와 B가 동시에 일어날 확률"입니다.
    • P(B)는 "B가 일어날 확률"입니다.

     

    이 공식을 시각적으로 이해해 봅시다. 전체 가능한 결과의 집합을 Ω(오메가)라고 하고, 이 안에 사건 A가 있습니다. 

    이제 "B가 일어났다"는 것을 알게 되면, 우리의 관심 공간은 B로 제한됩니다. 그리고 이 B 안에서 A가 일어날 확률을 구하는 것이죠. 이것은 A와 B가 겹치는 부분(A ∩ B)의 크기를 B의 크기로 나누는 것과 같습니다.

    실제 예시로 이해하기

    예시 1: 주사위 (독립 사건)

    두 개의 주사위를 던진다고 생각해 봅시다.

    • 사건 A: 첫 번째 주사위가 3이 나옴
    • 사건 B: 두 번째 주사위가 5가 나옴
    • 사건 C: 두 주사위의 합이 6이 나옴

     

    P(A|B)는 얼마일까요? 즉, 두 번째 주사위가 5가 나왔다는 정보가 첫 번째 주사위가 3일 확률에 영향을 미칠까요?

    이 경우 두 주사위는 서로 독립적이므로, 두 번째 주사위의 결과는 첫 번째 주사위의 확률에 아무런 영향을 주지 않습니다.

    따라서 P(A|B) = P(A) = 1/6입니다.

    하지만 P(A|C)는 어떨까요? 두 주사위의 합이 6이라면, 첫 번째 주사위가 3일 확률은 달라집니다. 두 주사위의 합이 6이 되는 경우는 (1,5), (2,4), (3,3), (4,2), (5,1)로 총 5가지입니다. 이 중에서 첫 번째 주사위가 3인 경우는 (3,3)으로 1가지이므로 P(A|C) = 1/5입니다.

    예시 2: 카드 (의존 사건)

    카드 한 장을 뽑는 상황을 생각해 봅시다.

    • 사건 A: 카드가 스페이드임
    • 사건 B: 카드가 검은색임 (스페이드 또는 클럽)
    • 사건 C: 카드가 빨간색임 (하트 또는 다이아몬드)

     

    먼저 기본 확률을 계산해 보면

    • P(A) = 1/4 (전체 4개 슈트 중 스페이드는 1개)
    • P(B) = 1/2 (카드의 절반은 검은색)

     

    이제 조건부 확률을 살펴봅시다.

    P(A|B) = P(A ∩ B) / P(B) = P(A) / P(B) = (1/4) / (1/2) = 1/2

    즉, 카드가 검은색이라는 정보가 주어지면, 스페이드일 확률은 1/4에서 1/2로 증가합니다!

    반면, P(A|C) = P(A ∩ C) / P(C) = 0 / (1/2) = 0

    카드가 빨간색이라면, 스페이드일 확률은 0입니다. 이처럼 추가 정보는 때로는 확률을 완전히 바꿔놓기도 합니다.

    예시 3: 암 검사 

    이번에는 좀 더 실용적인 예를 살펴봅시다. 새로운 암 진단 테스트를 개발 중이라고 가정해 봅시다. 1,000명의 사람들을 테스트했고, 그 중 500명은 암이 있고 500명은 암이 없습니다.

    • 암이 있는 500명 중
      • 450명은 양성 판정 (정확히 진단)
      • 50명은 음성 판정 (오진)

     

    • 암이 없는 500명 중
      • 100명은 양성 판정 (오진, 가양성)
      • 400명은 음성 판정 (정확히 진단)

     

    여기서

    • 사건 A: 테스트 결과가 양성
    • 사건 B: 실제로 암이 있음

     

    이 데이터로부터 여러 확률을 계산할 수 있습니다.

    1. 전체 양성 판정 확률: P(A) = (450 + 100) / 1000 = 550 / 1000 = 55%
    2. 암이 있을 때 양성 판정 확률(민감도): P(A|B) = 450 / 500 = 90%
    3. 가장 중요한 값: 양성 판정을 받았을 때 실제로 암이 있을 확률: P(B|A)  = P(A ∩ B) / P(A) = 450 / 550 ≈ 81.8%입니다.

    역문제와 베이즈 정리

    앞서 암 검사 예시에서 보았듯이, 실제 상황에서는 P(A|B) (암이 있을 때 테스트가 양성일 확률)은 알지만, P(B|A) (테스트가 양성일 때 암이 있을 확률)를 알고 싶을 때가 많습니다.

    이렇게 "우리가 측정할 수 있는 것"으로부터 "우리가 정말 알고 싶은 것"을 추론하는 과정을 역문제(inverse problem) 또는 추론(inference)이라고 합니다. 이러한 문제를 해결하기 위해 우리는 베이즈 정리(Bayes' theorem)를 사용합니다.

    베이즈 정리는 조건부 확률의 정의에서 파생된 공식으로, P(B|A)를 P(A|B), P(A), P(B)를 사용하여 계산할 수 있게 해줍니다. 

    정리

    조건부 확률은 새로운 정보가 주어졌을 때 우리의 확률적 믿음을 어떻게 업데이트해야 하는지 알려주는 강력한 도구입니다. 이 개념은 의학적 진단부터 자연어 처리, 인공지능까지 다양한 분야에서 활용됩니다.

    핵심 아이디어를 다시 정리하면

    1. 조건부 확률 P(A|B)는 "사건 B가 일어났을 때, 사건 A가 일어날 확률"입니다.
    2. 수학적으로는 P(A|B) = P(A ∩ B) / P(B)로 계산합니다.
    3. 독립 사건의 경우 P(A|B) = P(A)이지만, 대부분의 실제 상황에서는 사건들이 서로 의존적입니다.
    4. 베이즈 정리를 사용하면 P(A|B)로부터 P(B|A)를 계산할 수 있습니다.

    댓글

Designed by Tistory.