-
믿음은 계속 업데이트된다 - Bayes' ThoremMath♾️/Probability Statistics🎲 2025. 5. 30. 20:01
"만약 정확도가 99% 인 암 검사에서 양성 판정을 받는다면, 실제로 암에 걸렸을 확률은 얼마나 될까요?"
대부분의 사람들은 99%라고 답할 것입니다. 하지만 놀랍게도 정답은 단 9%입니다.
이것이 바로 베이즈 이론이 우리에게 알려주는 반직관적이면서도 중요한 깨달음입니다.
왜 우리는 이런 착각을 하게 될까요?
우리의 직관은 종종 우리를 속입니다. 특히 확률과 관련된 문제에서는 더욱 그렇죠.
일상생활에서 우리는 원인과 결과를 혼동하거나, 드문 사건의 영향을 과소평가하거나 특정 부분을 과대 평가하는 경우가 많습니다.
베이즈 이론은 이런 함정에서 우리를 구해주는 강력한 도구입니다.
토마스 베이즈라는 18세기 영국의 목사이자 수학자가 만든 이 이론은 오늘날 구글의 검색 알고리즘부터 의료 진단, 금융 투자까지 우리 삶의 모든 영역에서 활용되고 있습니다. 그렇다면 해당 이론이 정확히 무엇인지, 차근차근 알아보겠습니다.
베이즈 이론을 이해하기 위한 첫 번째 단계: 조건부 확률
조건부 확률 : 새롭게 주어진 정보를 활용하자
새로운 정보를 통해 불확실의 크기를 줄이는 방법조건부 확률이란 무엇인가?조건부 확률은 "어떤 사건이 '이미' 일어났다는 정보가 주어졌을 때, 다른 사건의 확률이 어떻게 바뀌는가?"를 다룹
people-analysis.tistory.com
베이즈 이론을 이해하려면 먼저 조건부 확률이라는 개념을 알아야 합니다. 조건부 확률은 "어떤 조건이 주어졌을 때의 확률"을 의미합니다.
예를 들어 생각해보세요. "비가 올 확률"과 "구름이 끼었을 때 비가 올 확률"은 다릅니다. 후자가 바로 조건부 확률의 예시죠.
수식으로는 다음과 같이 나타낼 수 있습니다.
$$P(비|구름) = P(비와 구름이 함께 일어날 확률) ÷ P(구름이 낄 확률)$$
구름이 끼었다는 조건 하에서 비가 올 확률을 구하려면, 구름과 비가 함께 일어나는 경우를 구름이 끼는 모든 경우로 나누면 됩니다.
$$P(A|B) =\frac{P(A∩B)} { P(B)}$$ 양변에 $P(B)$를 곱해서 변형한 것을 곱셈 법칙이라고 부릅니다.
$$P(A∩B) = P(A|B) × P(B)$$
역문제: 인과 관계의 방향 전환
- B: 암에 걸렸는지 여부 (측정하기 어려운 것)
- A: 검사 결과나 증상 (관측 가능한 것)
우리가 쉽게 계산할 수 있는 것: P(증상|암) - "암에 걸렸을 때 이 증상이 나타날 확률"
하지만 실제로 필요한 것: P(암|증상) - "이 증상이 나타났을 때 암에 걸렸을 확률"
"암이 걸렸을 때 어떤 증상이 나타날 확률"을 알고 있다해도 우리가 실제로 알고 싶은 것은 "어떤 증상이 나타났을 때 실제로 암이 걸렸을 확률"입니다. 그래야만 우리가 어떠한 증상을 통해 암의 유무를 빠르게 진단할 수 있기 때문입니다.
이런 상황은 일상에서도 흔하게 나타납니다. 교통체증이 있을 때 지각할 확률은 쉽게 예상할 수 있지만, 지각했을 때 교통체증 때문일 확률은 계산하기 어렵죠. 이메일 스팸 필터도 마찬가지입니다. 스팸 메일에 특정 단어가 들어갈 확률은 알 수 있지만, 특정 단어가 들어간 메일이 스팸일 확률을 구하는 것이 정말 우리가 하고 싶은 것입니다.
위와 같이 우리가 "쉽게 구할 수 있는 것"과 "실제로 알고 싶은 것"의 인과 관계가 역전되는 경우를 역문제(Inverse Problem)이라고 합니다. 다시 말해서 측정하기 쉬운 것으로부터 측정하기 어려운 것을 추론하는 문제입니다.
베이즈 이론 : 관계의 재정립
베이즈 이론은 이런 역문제를 해결할 수 있는 도움을 줄 수 있는 도구로 조건부 확률의 정의로부터 자연스럽게 도출할 수 있습니다.
- P(A∩B) = P(A|B) × P(B) (곱셈 법칙)
- P(A∩B) = P(B|A) × P(A) (곱셈 법칙, 순서만 바뀜)
- 따라서: P(A|B) × P(B) = P(B|A) × P(A)
- 양변을 P(A)로 나누면
$$P(B|A) = \frac{P(A|B) × P(B)} {P(A)}$$
- 사전확률(Prior): P(B) - 추가 정보가 없을 때의 B에 대한 기본 확률 (인구통계학적 기준확률), 무작위로 선택한 사람이 암에 걸렸을 확률입니다.
- 업데이트(Update): P(A|B) - 새로운 정보가 확률을 어떻게 업데이트하는지를 나타내는 항, 새로운 증거나 관측값이 얼마나 그럴듯한지를 나타냅니다. 암에 걸렸다면 양성 검사 결과가 나올 확률이죠.
- 사후확률(Posterior): P(B|A) - 새로운 정보 A를 얻은 후의 B에 대한 확률, 새로운 정보를 반영한 후의 업데이트된 확률입니다. 양성결과를 받은 후 실제 암에 갈렸을 확률로 이 과정을 "베이지안 업데이트"라고 부릅니다. 마치 탐정이 새로운 단서를 발견할 때마다 추리를 수정해 나가는 것과 비슷합니다.
실제 계산해보기: 생각과는 다른데?
암 검진 문제에 배운 베이즈 공식을 사용해보면
주어진 조건
- 검사의 정확도: 99% (암이 있으면 99% 확률로 양성, 암이 없으면 99% 확률로 음성)
- 질병의 희귀성: 인구의 0.1% (1000명 중 1명)
우리가 구하고자 하는 것: 양성 판정을 받았을 때 실제로 암에 걸렸을 확률
베이즈 공식을 적용해보면
1단계: 주어진 정보 정리
- P(양성|암 있음) = 0.99
- P(암 있음) = 0.001
- P(양성|암 없음) = 0.01 (1% 위양성률)
- P(암 없음) = 0.999
2단계: 베이즈 공식 적용
P(암 있음|양성) = [P(양성|암 있음) × P(암 있음)] ÷ [P(양성|암 있음) × P(암 있음) + P(양성|암 없음) × P(암 없음)]
3단계: 수치 대입
P(암 있음|양성) = [0.99 × 0.001] ÷ [0.99 × 0.001 + 0.01 × 0.999] = 0.00099 ÷ [0.00099 + 0.00999] = 0.00099 ÷ 0.01098 ≈ 0.09 = 9%
99% 정확도의 검사에서 양성이 나왔는데도 실제 암에 걸렸을 확률이 단 9% 뿐입니다.
이는 91%의 경우가 위양성(건강한 사람이 양성 판정을 받는 경우)라는 의미입니다.
왜 이런 일이 발생하는 걸까요? 답은 기저율(Base Rate)에 있습니다. 암이 매우 드문 질병이기 때문에, 건강한 사람의 수가 압도적으로 많습니다. 설령 위양성률이 1%에 불과하더라도, 건강한 사람이 워낙 많기 때문에 위양성 사례가 실제 양성 사례보다 훨씬 많아지는 것입니다.
구체적으로 10,000명을 검사한다고 가정해보겠습니다.
- 실제 암 환자: 10명 (그 중 양성 판정: 9.9명 ≈ 10명)
- 건강한 사람: 9,990명 (그 중 위양성 판정: 99.9명 ≈ 100명)
- 총 양성 판정: 110명
- 이 중 실제 암 환자: 10명
- 따라서 양성 판정 중 실제 암일 확률: 10/110 ≈ 9%
베이즈 이론의 놀라운 학습 능력
베이즈 이론의 또 다른 강력한 특징은 순차적 학습입니다. 마치 우리가 경험을 통해 배워나가는 것처럼, 베이즈 이론도 새로운 정보를 얻을 때마다 지속적으로 업데이트됩니다.
동전 던지기를 예로 들어보겠습니다. 처음에는 공정한 동전(앞면 50% 확률)이라고 가정합니다.
하지만 10번 연속 뒷면이 나온다면 어떨까요? 베이즈 이론을 사용하면 이 동전이 공정할 확률을 계산하고 업데이트할 수 있습니다.
주목할 점은 이 과정이 반복된다는 것입니다.
- 첫 번째 실험의 사후확률이 두 번째 실험의 사전확률이 됩니다
- 새로운 데이터로 다시 업데이트합니다
- 이 과정을 무한히 반복할 수 있습니다
"새로운 데이터를 접할 때마다 자신의 '믿음'을 조금씩 수정해 나간다" 이것이 베이지안 통계에 핵심 아이디어입니다.
베이즈적 사고: 더 현명한 판단을 위한 도구
베이즈 이론은 단순한 수학 공식을 넘어서 사고방식을 제공합니다. 이 사고방식의 핵심은 다음과 같습니다.
- 불확실성을 인정하라: 절대적인 확신은 위험합니다. 모든 판단에는 불확실성이 따르며, 이를 정량화할 수 있습니다.
- 기저율을 고려하라: 드문 사건일수록 더 신중하게 판단해야 합니다. 검사 결과나 증상만 보지 말고, 그 질병이나 상황이 얼마나 흔한지도 함께 고려해야 합니다.
- 새로운 정보에 열려있어라: 고집스럽게 기존 믿음에 매달리지 말고, 새로운 증거가 나타나면 기꺼이 생각을 바꿀 준비를 해야 합니다.
- 순차적으로 학습하라: 한 번에 완벽한 답을 얻으려 하지 말고, 조금씩 더 나은 답에 접근해 나가는 자세가 중요합니다.
베이즈 이론이 어려운 이유와 극복 방법
많은 사람들이 베이즈 이론을 어려워하는 이유는 우리의 직관과 반대되는 결과를 보여주기 때문입니다. 99% 정확한 검사가 91% 확률로 틀릴 수 있다는 것은 우리의 일상적 경험과 맞지 않습니다.
이를 극복하는 가장 좋은 방법은 구체적인 숫자로 생각하는 것입니다. 확률보다는 실제 사람 수로 생각해보세요. 10,000명 중 10명이 암에 걸렸고, 100명이 위양성이라고 생각하면 훨씬 이해하기 쉽습니다.
또한 시각화도 도움이 됩니다. 나무 다이어그램이나 벤 다이어그램을 그려보면 확률의 관계를 더 명확하게 볼 수 있습니다.
베이즈 이론의 한계와 주의점
베이즈 이론도 만능은 아닙니다. 몇 가지 주의해야 할 점들이 있습니다:
사전확률의 주관성: 초기 사전확률을 어떻게 설정하느냐에 따라 결과가 달라질 수 있습니다. 이는 베이즈 통계학의 가장 큰 논란 중 하나입니다.
계산의 복잡성: 실제 문제에서는 변수가 많고 관계가 복잡해서 계산이 매우 어려울 수 있습니다.
독립성 가정: 많은 베이즈 모델은 변수들이 서로 독립이라고 가정하는데, 현실에서는 이 가정이 맞지 않는 경우가 많습니다.
믿음은 절대적이지 않다.
우리는 불확실성으로 가득한 세상에 살고 있습니다. 완벽한 정보는 없고, 모든 선택에는 불확실성이 따릅니다.
하지만 베이즈 이론은 이런 불확실성 속에서도 최선의 선택을 할 수 있는 길을 제시합니다.
겉보기에 확실해 보이는 것도 의심해볼 필요가 있고, 맥락과 기저율을 항상 고려해야 한다는 것입니다.
다음에 어떤 확률이나 통계를 접하게 된다면, 잠시 멈춰서 생각해보세요. "이 숫자가 정말 의미하는 바는 무엇일까? 놓치고 있는 맥락은 없을까?" 이런 질문 자체가 이미 베이즈적 사고의 시작입니다.
'Math♾️ > Probability Statistics🎲' 카테고리의 다른 글
곱셈 법칙과 전체 확률의 법칙 (0) 2025.03.15 조건부 확률 : 새롭게 주어진 정보를 활용하자 (0) 2025.03.14 이항 계수 : 뽑을까 말까? / 다항 계수 : 어디에 줄까? (0) 2025.03.12 생일 문제 : 더 계산이 쉬운 방법을 찾기 (0) 2025.03.10 가능성에 어떻게 숫자를 부여할까? (0) 2025.03.09