-
확률과 통계 : 불확실성 모델링 방법Math♾️/Probability Statistics🎲 2025. 2. 11. 15:24
내일 비가 올까요? 다음 주 주식 시장은 어떻게 될까요? 새로 만난 사람이 좋은 친구가 될까요?
이런 질문들에 대해 우리는 정확한 답을 할 수 없습니다. 이것이 바로 '불확실성'입니다.불확실성의 원인
측정의 한계
동전 던지기를 예로 들어보겠습니다. 이론적으로는 동전의 초기 위치, 던지는 힘, 공기 저항, 중력 등 모든 물리적 요소를 정확히 알면 결과를 예측할 수 있을 것입니다. 하지만 현실에서는 이 모든 요소를 완벽하게 측정하고 통제하는 것이 불가능합니다. 이러한 측정의 한계가 불확실성을 만듭니다.
시스템의 복잡성
날씨를 예측하는 경우를 생각해봅시다. 지구의 모든 공기 분자의 움직임, 해류의 흐름, 태양 복사량 등 셀 수 없이 많은 요소들이 서로 영향을 주고받습니다. 이렇게 복잡한 시스템에서는 작은 초기 조건의 차이가 나비효과처럼 커다란 변화를 만들 수 있습니다.
확률적 모델링
그렇다면 이러한 불확실성을 어떻게 다룰 수 있을까요? 여기서 확률적 모델링이 등장합니다.
매일 아침 8시에 커피숍을 여는 사장님이 있다고 가정해봅시다. 사장님은 매일 얼마나 많은 손님이 올지 정확히 알 수 없습니다. 하지만 1년간의 기록을 보니 다음과 같은 패턴이 있었습니다
평일 아침 8-9시 사이에 보통 30-40명의 손님이 옵니다
비가 오는 날은 손님이 평소보다 20% 정도 더 많습니다
공휴일에는 손님이 평소의 절반 수준입니다
이런 정보를 바탕으로 사장님은 불확실한 미래에 대비할 수 있습니다 정확한 숫자는 알 수 없지만, 어느 정도 범위 안에서 움직일 것이라는 예측이 가능해집니다. 이것이 바로 확률적 모델링입니다.
확률적 모델링은 불확실성을 완전히 제거하지는 못하지만, 합리적인 의사결정을 할 수 있게 도와줍니다. 기상청이 "내일 비가 온다" 또는 "안 온다"라고 단정적으로 말하는 대신 "강수 확률 70%"라고 말하는 것 처럼 우리는 정확한 숫자 대신 '가능성의 범위'를 다루게 되는 것입니다.확률 분포 : 분포는 어떤 값들이 나타날 수 있는 가능성의 패턴을 수학적으로 표현한것입니다.
샘플(데이터) : 실제로 현실에서 발생한 값을 의미합니다.확률과 통계의 차이
확률의 경우 확률 분포는 알고 있으나 데이터를 모르는 경우입니다.
'분포를 알고 있다'는 것은 우리가 그 패턴을 이미 알고 있다는 의미입니다.
예를 들어, 주사위 던지기에서
우리는 각 숫자가 나올 확률이 1/6이라는 것을 알고 있습니다 (이것이 바로 "known distribution"입니다)
하지만 실제로 주사위를 던졌을 때 어떤 숫자가 나올지(sample)는 모릅니다이런 상황에서 우리는 다음과 같은 질문을 할 수 있습니다
주사위를 10번 던졌을 때 6이 3번 이상 나올 확률은?
두 개의 주사위 합이 7이 될 확률은?통계(Statistics)의 경우
반대로, 우리가 데이터는 가지고 있지만 그 패턴(분포)을 모르는 경우입니다.
예를 들어 새로운 약의 효과를 테스트하는 상황을 생각해봅시다
100명의 환자에게 약을 투여하고 결과를 측정했습니다 (이것이 known data/sample입니다)
하지만 이 약이 전체 인구에 대해 어떤 효과를 보일지의 패턴(distribution)은 모릅니다
이런 상황에서 우리는 다음과 같은 질문을 합니다
이 약의 평균적인 효과는 얼마일까?
효과의 변동 폭은 어느 정도일까?
전체 인구에 대한 효과를 어떻게 예측할 수 있을까?머신러닝 학습은 확률 분포를 찾는 과정
여러분이 새로운 도시로 이사를 왔다고 상상해보세요. 처음에는 그 도시의 날씨 패턴을 전혀 모릅니다. 하지만 매일 온도를 기록하면서, 점차 패턴을 파악하게 됩니다. 어떤 계절에는 기온이 높고, 어떤 계절에는 낮으며, 봄과 가을에는 일교차가 크다는 것을 알게 됩니다. 이렇게 데이터를 통해 패턴을 파악하는 과정이 바로 머신러닝의 기본 원리입니다.
머신러닝에서 "확률 분포를 찾는다"는 것은 데이터가 가진 패턴을 수학적으로 표현하는 방법을 찾는 것입니다.
예를 들어 이미지 인식의 경우를 생각해보겠습니다.
1. 고양이 사진 인식기를 만든다고 가정해봅시다:
- 수천 장의 고양이 사진과 고양이가 아닌 사진을 수집합니다
- 각 사진은 픽셀값들의 집합으로 표현됩니다
- 우리의 목표는 "이 픽셀값들의 조합이 고양이일 확률"을 계산하는 것입니다
2. 이 과정에서 머신러닝은:
- 고양이 사진들의 공통된 특징을 찾습니다 (둥근 얼굴, 뾰족한 귀 등)
- 이러한 특징들이 나타날 확률을 계산합니다
- 새로운 사진이 주어졌을 때, 이 특징들의 존재 여부를 확인하여 고양이일 확률을 추정합니다
이것이 바로 확률 분포를 학습하는 과정입니다. 머신러닝 알고리즘은 데이터에서 나타나는 패턴의 확률적 모델을 만듭니다.
자연어 처리를 예로 들어보면- 문장 "나는 ___ 먹었다"에서 빈칸에 들어갈 수 있는 단어들의 확률 분포를 학습합니다
- '밥을'이 올 확률이 높고, '자동차를'이 올 확률은 매우 낮습니다
- 이러한 확률 분포를 학습함으로써 자연스러운 문장 생성이 가능해집니다
이러한 학습 과정의 핵심은
1. 데이터 수집: 많은 양의 실제 예시를 모읍니다
2. 패턴 발견: 데이터에서 반복되는 규칙성을 찾습니다
3. 모델링: 이 패턴을 수학적 함수로 표현합니다
4. 일반화: 새로운 데이터에도 적용할 수 있도록 합니다
이렇게 학습된 확률 분포는 새로운 상황에서 예측을 가능하게 합니다.- 스팸 메일 필터: 특정 단어 조합이 스팸일 확률을 학습합니다
- 추천 시스템: 사용자가 특정 상품을 좋아할 확률을 예측합니다
- 의료 진단: 특정 증상 조합이 특정 질병일 확률을 계산합니다
이처럼 머신러닝은 데이터로부터 확률적 패턴(분포)을 학습하여, 이를 바탕으로 새로운 상황에서의 예측을 가능하게 하는 것입니다.