정보의 불확실성
〈모바일통신시스템〉 수업 노트
정보 $X$ 에 대해서, $X$ 로서 발생 가능한 정보 $X_j$ 가 확률적으로 존재할 때, 이 정보를 불확실(uncertainty)하다고 할 수 있다.
이 때, 정보량은 각 사건이 일어날 수 있는 확률의 역수로 표현한다.
정보량
어떤 불확실한 정보 $X$ 의 각 정보 $X_j$ 에 대해 $X_j$가 발생할 확률이 $P(X_j) = p_j$ 라면, 자기정보량 $I(X_j)$ 는 다음과 같이 정리 가능하다.
\[I(X_j) = \log{1/p_j}\]컴퓨팅 시스템에서는 주로 바이너리 데이터를 처리하므로, 대개는 정보량의 단위를 비트로 정의, 밑이 2인 로그를 사용한다.
\[I(X_j) = \log_2{1/p_j} \text{bits}\]이들 자기정보량은 각 정보 $X_j$ 에 대해서 표현하는 것으로, 이들 정보의 발생 확률이 상이하다면 $I(X_j)$ 역시 상이할 수 있다.
이들 정보량의 평균을 구하여 정보 $X$ 의 경향성을 구할 수 있는데, 이것을 평균자기정보량(Average self-information), 혹은 엔트로피라고 할 수 있다.
\[\begin{aligned} H(X) &= E[I(X_j)] \\ &= \sum^{N}_{j=1}{p_j} \log_2{(1/p_j)} \\ &= -\sum^{N}_{j=1}{p_j} \log_2{p_j} \end{aligned}\]엔트로피
수식 측면에서 엔트로피는 불확실한 정보 $X$ 의 발생가능한 각 정보 $X_j$ 의 발생 확률 $p_j$ 가 균일할수록 증가한다. 직관이나 서술적으로 무질서할수록 엔트로피가 증가한다는 것과 정합한다고 할 수 있다.
26자로 구성되는 알파벳의 엔트로피를 비트 단위로 표현한다면 엔트로피 $H$ 는 다음과 같다.
\[\begin{aligned} H &= -\sum^{26}_{j=1}{\frac{1}{26} \log_2{\frac{1}{26}}} \\ &\approx 4.7 \text{bits/character} \end{aligned}\]어떤 영자 신문의 알파벳 비율이 표와 같이 비균일하다면 다음과 같이 계산할 수 있다.
| 알파벳 | 확률 | 그룹 |
|---|---|---|
| a, e, o, t | $0.1$ | #1 |
| h, i, n, r, s | $0.07$ | #2 |
| c, d, f, l, m, p, u, y | $0.02$ | #3 |
| b, g, j, k, q, v, w, x, z | $0.01$ | #4 |
위 과정에서 확인할 수 있듯, 불확실한 정보 $X$ 에 대해서, 각 정보 $X_j$ 의 발생 확률이 균등할 때의 엔트로피(4.7)는 균등하지 않을 때의 엔트로피(4.17)보다 높다.