포스트

정보의 불확실성

정보의 불확실성

〈모바일통신시스템〉 수업 노트

정보 $X$ 에 대해서, $X$ 로서 발생 가능한 정보 $X_j$ 가 확률적으로 존재할 때, 이 정보를 불확실(uncertainty)하다고 할 수 있다.

이 때, 정보량은 각 사건이 일어날 수 있는 확률의 역수로 표현한다.

정보량

어떤 불확실한 정보 $X$ 의 각 정보 $X_j$ 에 대해 $X_j$가 발생할 확률이 $P(X_j) = p_j$ 라면, 자기정보량 $I(X_j)$ 는 다음과 같이 정리 가능하다.

\[I(X_j) = \log{1/p_j}\]

컴퓨팅 시스템에서는 주로 바이너리 데이터를 처리하므로, 대개는 정보량의 단위를 비트로 정의, 밑이 2인 로그를 사용한다.

\[I(X_j) = \log_2{1/p_j} \text{bits}\]

이들 자기정보량은 각 정보 $X_j$ 에 대해서 표현하는 것으로, 이들 정보의 발생 확률이 상이하다면 $I(X_j)$ 역시 상이할 수 있다.

이들 정보량의 평균을 구하여 정보 $X$ 의 경향성을 구할 수 있는데, 이것을 평균자기정보량(Average self-information), 혹은 엔트로피라고 할 수 있다.

\[\begin{aligned} H(X) &= E[I(X_j)] \\ &= \sum^{N}_{j=1}{p_j} \log_2{(1/p_j)} \\ &= -\sum^{N}_{j=1}{p_j} \log_2{p_j} \end{aligned}\]

엔트로피

수식 측면에서 엔트로피는 불확실한 정보 $X$ 의 발생가능한 각 정보 $X_j$ 의 발생 확률 $p_j$ 가 균일할수록 증가한다. 직관이나 서술적으로 무질서할수록 엔트로피가 증가한다는 것과 정합한다고 할 수 있다.


26자로 구성되는 알파벳의 엔트로피를 비트 단위로 표현한다면 엔트로피 $H$ 는 다음과 같다.

\[\begin{aligned} H &= -\sum^{26}_{j=1}{\frac{1}{26} \log_2{\frac{1}{26}}} \\ &\approx 4.7 \text{bits/character} \end{aligned}\]

어떤 영자 신문의 알파벳 비율이 표와 같이 비균일하다면 다음과 같이 계산할 수 있다.

알파벳확률그룹
a, e, o, t$0.1$#1
h, i, n, r, s$0.07$#2
c, d, f, l, m, p, u, y$0.02$#3
b, g, j, k, q, v, w, x, z$0.01$#4
\[\begin{aligned} H(X) &= -\sum_{j=1}^{26} p_j \log_2 p_j \\ &= -\left( \sum_{j \in G_1} p_j \log_2 p_j + \sum_{j \in G_2} p_j \log_2 p_j + \sum_{j \in G_3} p_j \log_2 p_j + \sum_{j \in G_4} p_j \log_2 p_j \right) \\ &= -\left( 4(0.1 \log_2 0.1) + 5(0.07 \log_2 0.07) + 8(0.02 \log_2 0.02) + 9(0.01 \log_2 0.01) \right) \\ &\approx - ( 4(-0.3322) + 5(-0.2685) + 8(-0.1129) + 9(-0.0664) ) \\ &\approx 4.17 \text{ bits/character} \end{aligned}\]

위 과정에서 확인할 수 있듯, 불확실한 정보 $X$ 에 대해서, 각 정보 $X_j$ 의 발생 확률이 균등할 때의 엔트로피(4.7)는 균등하지 않을 때의 엔트로피(4.17)보다 높다.