검수요청.png검수요청.png

확률분포

위키원
이동: 둘러보기, 검색

확률분포(Probability Distribution, 確率分布)는 확률변수 X가 특정한 값을 가질 확률을 나타내는 분포를 말한다.

아사달 스마트 호스팅 가로 배너 (since 1998).jpg
이 그림에 대한 정보
[아사달] 스마트 호스팅

정의[편집]

확률분포는 확률변수가 가질 수 있는 모든 값과 그 값들이 나타날 확률을 수학적으로 표현한 개념이다. 이는 데이터 분석, 기계 학습, 통계적 추론 등 다양한 분야에서 필수적으로 사용되며, 실세계의 불확실성을 정량적으로 설명하는 역할을 한다. 확률분포는 크게 이산확률분포(discrete probability distribution)와 연속확률분포(continuous probability distribution)로 나뉜다.

확률분포란 간단하게 말해 확률변수 X의 함수라고 할 수 있다. 확률변수 X는 특정한 값을 가지게 되는데, 그 값을 가질 확률들은 일종의 함수와 같이 어떤 분포를 갖게 된다. 예를 들어 주사위를 3회 던졌을 때 그 중 짝수가 나오는 횟수를 확률변수 X라고 하자. 짝수가 0번 나올 수도 있고 1번 또는 2번, 3번까지 나올 수 있으므로 확률변수 X는 ‘0, 1, 2, 3’이라는 네가지 값을 취하게 된다. X가 각각의 값을 가질 확률을 계산하면 다음과 같다.

X=0일 확률 P(X=0)

세 번 주사위를 던져 모두 홀수만 나와야 한다. 주사위의 여섯개의 눈 중에 세 개의 홀수가 나오므로 홀수가 나올 확률은 ½이다. 홀수가 세 번 나올 확률은 (1/2)³이다. 즉 P(X=0)=(1/2)³이다.

X=1일 확률 P(X=1)

짝수가 한 번, 홀수가 두 번 나오는 경우이다. 짝수가 한 번 나올 확률은 ½, 홀수가 두 번 나올 확률은 (1/2)²이다. 여기에 짝수가 나오는 순서에 따라 (짝,홀,홀), (홀,짝,홀), (홀,홀,짝) 세 가지의 경우가 있을 수 있으므로 3을 곱해준다. 그러므로 P(X=1)=3·(1/2)(1/2)²=3·(1/2)³이다.

X=2일 확률 P(X=2)

짝수가 두 번, 홀수가 한 번 나오는 경우이다. 짝수가 두 번 나올 확률은 (1/2)², 홀수가 한 번 나올 확률은 1/2이다. 또한 (짝,짝,홀),(짝,홀,짝),(홀,짝,짝) 세 가지의 경우가 있으므로 3을 곱한다. 그러므로 P(X=2)=3·(1/2)²(1/2)=3·(1/2)³이다.

X=3일 확률 P(X=3)

세 번 모두 짝수가 나오는 경우이다. 즉 P(X=3)=(1/2)³이 된다.

이 확률분포 X에 대한 분포를 표로 나타내면 다음과 같다.

X 0 1 2 3
P (1/2)³ 3·(1/2)³ 3·(1/2)³ (1/2)³ 1

이렇게 확률변수 X가 특정값을 가질 확률을 나타내는 분포를 확률분포라 한다. 여기서는 확률분포를 표로 나타내었다. 확률분포는 확률변수의 성격에 따라 표나 그래프로 나타내기도 하며 일반적 함수처럼 식으로 나타내기도 한다.[1]

분류[편집]

이산확률분포[편집]

이산확률분포는 이산확률변수 X가 가지는 확률분포를 말한다. 이산확률분포는 하나씩 셀 수 있으므로 이산확률분포표라는 표로 분포를 나타낸다. 또한 이산확률분포를 함수의 식 형태로 나타내면 확률질량함수라 한다. 이산확률분포는 확률변수가 유한하거나 셀 수 있는 개수의 값을 가질 때 적용된다. 예를 들어, 동전을 던져 앞면이 나올 확률이나 주사위를 굴려 특정 숫자가 나올 확률이 이에 해당한다. 대표적인 이산확률분포로는 베르누이 분포(Bernoulli distribution), 이항분포(Binomial distribution), 포아송 분포(Poisson distribution) 등이 있다. 베르누이 분포는 단일 시행에서 성공과 실패 두 가지 결과만 존재할 때 사용된다. 예를 들어, 동전을 한 번 던져 앞면이 나올 확률을 모델링할 수 있다. 이항분포는 여러 번의 독립적인 시행에서 성공 횟수를 나타낼 때 쓰인다. 예를 들어, 주사위를 10번 던졌을 때 6이 나오는 횟수를 예측할 수 있다. 포아송 분포는 일정한 시간이나 공간에서 특정 사건이 발생하는 횟수를 모델링하는 데 활용된다. 예를 들어, 특정 웹사이트에 매시간 접속하는 사용자 수를 예측하는 데 사용할 수 있다.

연속확률분포[편집]

연속확률분포는 확률변수가 연속적인 값을 가질 때 적용된다. 예를 들어, 특정 지역의 기온 변화나 고객의 대기 시간이 이에 해당한다. 대표적인 연속확률분포에는 정규분포(Normal distribution), 지수분포(Exponential distribution), 카이제곱 분포(Chi-square distribution), 감마 분포(Gamma distribution) 등이 있다. 정규분포는 평균을 중심으로 좌우 대칭적인 종 모양의 곡선을 가지며, 많은 자연현상에서 발견되는 중요한 확률분포이다. 지수분포는 특정 사건이 발생할 때까지의 시간을 모델링하는 데 사용된다. 예를 들어, 고객이 은행에서 대기하는 시간이 이에 해당할 수 있다. 감마 분포는 생존 분석이나 대기 시간 모델링과 같은 분야에서 사용된다. 카이제곱 분포는 주로 가설 검정에서 사용되며, 데이터의 분산을 평가하는 데 활용된다. 연속확률분포는 가 아닌 함수식이나 그래프로 나타낼 수 있다.

주요 개념[편집]

확률분포를 이해하는 데 중요한 개념으로는 기댓값(expectation, mean), 분산(variance), 표준편차(standard deviation) 등이 있다.

  • 기댓값: 확률분포에서 평균적인 값을 나타낸다. 예를 들어, 주사위를 던졌을 때 나올 수 있는 숫자의 평균은 3.5이다.
  • 분산과 표준편차: 데이터의 흩어진 정도를 측정하는 척도로, 확률변수의 값들이 평균을 중심으로 얼마나 퍼져 있는지를 나타낸다.
  • 확률밀도함수(PDF)와 누적분포함수(CDF): 연속확률분포에서 특정 구간 내 확률을 계산하는 데 필수적인 개념이다.

활용[편집]

확률분포는 통계적 모델링과 기계 학습에서도 중요한 역할을 한다. 베이지안 추론(Bayesian inference)에서는 사전 확률(prior probability)과 사후 확률(posterior probability)을 계산하는 데 확률분포가 사용되며, 생성 모델(generative model)은 특정 확률분포를 따르는 데이터를 생성하는 데 활용된다. 예를 들어, 가우시안 혼합 모델(Gaussian Mixture Model, GMM)은 여러 개의 정규분포를 결합하여 데이터의 구조를 설명하는 데 사용되며, 변분 오토인코더(Variational Autoencoder, VAE)와 같은 딥러닝 모델에서도 확률분포를 활용하여 새로운 데이터를 생성한다.

동향[편집]

최근 연구에서는 확률분포를 이용한 샘플링 기법과 최적화 기법이 활발하게 연구되고 있다. 마르코프 연쇄 몬테카를로(Markov Chain Monte Carlo, MCMC) 기법은 복잡한 확률분포에서 샘플을 추출하여 정밀한 확률적 추론을 가능하게 하며, 변분 추론(Variational Inference, VI) 은 MCMC보다 계산 효율성을 높이는 방향으로 발전하고 있다. 또한, 강화학습에서 정책 최적화를 위해 사용되는 확률적 정책 그라디언트(Stochastic Policy Gradient) 방법 역시 확률분포를 기반으로 동작한다.

각주[편집]

  1. 이동 확률분포〉, 《두산백과》

참고자료[편집]

같이 보기[편집]


  검수요청.png검수요청.png 이 확률분포 문서는 수학에 관한 글로서 검토가 필요합니다. 위키 문서는 누구든지 자유롭게 편집할 수 있습니다. [편집]을 눌러 문서 내용을 검토·수정해 주세요.