확률과 통계 3 - 베이즈 정리

2024. 8. 6. 15:00기계 학습 (Machine Learning)/수학 (Mathematics)

 

이 글은 확률과 통계 2 - 조건부 확률 글을

먼저 읽고 와야 이해하기 수월합니다.

 

 

 

 


Bayes Formula

 

일전에 우리는 결합 확률에 대해 배웠죠.

 

여기서 왼쪽 항의 x,y의 위치는 별 의미 없습니다.

이렇게 써도 되죠.

 

베이즈 정리는 이러한 특징을 이용합니다.

 

여기서 왼쪽의 확률을 사후 확률(posterior probability),

오른쪽 3개의 확률을 사전 확률(prior probability)이라고 합니다.

 

 

 

단순히 보면 별 의미 없어보이는 데,

이걸 왜 알아야 할까요?

 

 

조건부 확률의 가장 큰 특징은

어떤 확률변수가 주어졌을 때

다른 확률변수의 확률을 알아내는 것입니다.

 

 

기계 학습에 있어서 이러한 특징은 중요하게 작용합니다.

예를 들어 로봇에게 과일 사진을 주고,

이게 어떤 과일인지 맞출 확률을 생각해봅시다.

과일은 사과, 포도, 체리만 있습니다.

기계 학습의 목표는 정답을 맞출 확률을 가장 높게 만드는 것입니다.

위처럼 조건부 확률로 명확하게 표현할 수 있죠.

 

 

 

 

하지만 로봇의 머리를 뜯어볼 수도 없는 노릇이니

물음표를 알아내기란 쉽지 않습니다.

 

하지만 베이즈 정리로 바꾸면 더 쉬워집니다.

우선 P(x)는 x는 사과, 포도, 체리만 있으니 1/3입니다.

P(y)는 전체 사진 n개 중에 사과 사진 개수 a개를 세면 됩니다. a/n이죠.

 

마지막 사전 조건부 확률이죠.

설명해보면, 로봇이 사과라고 했는데 사과 사진을 주었을 확률입니다.

이는 로봇이 사과라고 말한 경우만 모아서, 사과 사진 수를 세면 되죠.

 

 

 

 

 

 

 

 

 


Bayes Limitation

 

베이즈 정리의 활용 예시로

질병 유무를 판독하는 걸 많이 듭니다.

 

색다르게 들어봅시다.

지난 1년 간 출근 수단으로 택시를 탔었을 때 비가 올 확률을 계산해볼까요?

 

이를 베이즈 정리를 이용해서 바꿔보면 다음과 같습니다.

P(y=비), P(x=택시)는 지난 356일의 출근 시간에서

기상청으로 들어가서 비가 내린 날의 수를 세고

교통카드 내역을 보고 택시를 타고 간 날의 수를 세면 되겠죠.

그리고 만일 비가 내린 날 본인이 무조건 택시를 탔다면

P(x=택시 | y=비)는 1입니다.

 

따라서 택시를 탔었을 때 비가 올 확률을 계산할 수 있습니다.

 

 

 

하지만 슬프게도 베이즈 정리의 한계는 존재합니다.

사실 그냥 택시를 탔을 때 비가 내린 횟수를 세면 되죠.

또는 기상청과 교통카드 내역에 날짜가 있으니, 이를 조합해서 만들어도 됩니다.

 

만일 비가 내린 날 본인이 택시 말고 다른 교통수단을 이용했었다면

굳이 3개 사전 확률을 구하기보다는 이 방법이 더 싸게 먹힙니다.

 

따라서 마냥 기계 학습에서 찬양한다고 해서 따라하는 건 의미 없습니다.

 

 

 

정리하면, 베이즈 정리는 사후 확률을 모르고,

사전 확률을 알고 있다는 가정하에 사용하기 좋습니다.