Informacja wzajemna
Z Wikipedii
W teorii informacji, informacja wzajemna pomiędzy dwiema zmiennymi losowymi jest miarą zależności pomiędzy tymi zmiennymi. Zwykle podaje się ją w bitach, co oznacza że wylicza się ją używając logarytmów o podstawie 2.
Intuicyjnie, informacja wzajemna mierzy ile informacji o X można poznać znając Y, czyli o ile poznanie jednej z tych zmiennych zmniejsza niepewność o drugiej. Jeśli zmienne X i Y są niezależne, to ich wzajemna informacja jest zerowa (znajomość jednej nie mówi niczego o drugiej). Jeśli X i Y są identyczne, to każda zawiera pełną wiedzę o drugiej. Wtedy informacja wzajemna jest równa entropii X (albo Y - skoro są identyczne to ich entropia jest taka sama).
Formalnie, informacja wzajemna między dwiema dyskretnymi zmiennymi losowymi X i Y może być zdefiniowana jako:
gdzie p(x,y) oznacza prawdopodobieństwa w rozkładzie produktowym X i Y, a p(x) i p(y) oznaczają prawdopodobieństwa w rozkładach zmiennych X i Y.
W przypadku ciągłych rozkładów sumowanie należy zastąpić przez całkowanie:
gdzie p(x,y) oznacza funkcję gęstości prawdopodobieństwa dwóch zmiennych, a p(x) i p(y) są gęstościami prawdopodobieństwa X i Y.
Informacja wzajemna mierzy jest równa zero wtedy i tylko wtedy gdy zmienne X i Y są niezależne. Łatwo zauważyć implikacje w jedną stronę: jeśli są niezależne, to p(x,y) = p(x) × p(y), a więc:
[edytuj] Powiązania z innymi funkcjami
Informację wzajemną można zdefiniować równoznacznie jako:
gdzie H(X) i H(Y) oznaczają entropie, H(X|Y) i H(Y|X) oznaczają entropie warunkowe, a H(X,Y) entropię produktową.
Warto zauważyć że , a więc . Podobnie jeśli Y jest funkcją X, to znajomość X determinuje wartość Y, i wtedy
[edytuj] Zastosowanie informacji wzajemnej
W wielu zastosowaniach ważne jest maksymalizowanie informacji wzajemnej, co często oznacza minimalizowanie entropii warunkowej. Przykładami mogą być:
- Pojemność kanału komunikacyjnego, która jest maksymalnej możliwej do uzyskania wzajemnej informacji pomiędzy wejściem a wyjściem z kanału.
- Kryptografii teoretycznej i kwantowej przy ocenie bezpieczeństwa bezwarunkowego systemów szyfrowania
- Uczeniu maszynowym przez zastosowanie ukrytych modeli Markowa (HMM).
- Porównywaniu modeli językowych w lingwistyce komputerowej.
- Rekonstrukcji obrazu w tomografii komputerowej dla zastosowań medycznych.