Home » Cosa c’entra l’entropia nella teoria dell’informazione?

Cosa c’entra l’entropia nella teoria dell’informazione?

entropia e codice binario

entropia e codice binario

Chi ha sentito parlare di entropia spesso lo ha fatto come quantità fisica legata ai sistemi termodinamici o come “misura del disordine”. Storicamente l’entropia è stata prima introdotta in ambito termodinamico da Clausius, poi in ambito statistico da Boltzmann e Gibbs, ed infine in ambito di teoria dell’informazione da Shannon e Jaynes.

Questo articolo si concentrerà su questo ultimo aspetto, fornendo prima una semplice descrizione quantitativa e poi qualitativa riguardo la sua interpretazione.

Framework

In ambito statistico, l’entropia di un sistema dipende dalle probabilità che il sistema ha di occupare i suoi stati, oppure, analogamente, l’entropia di una sorgente d’informazione dipende dall’insieme delle probabilità che tale sorgente ha di generare i suoi possibili output.

In particolare, l’entropia \(S\) è definita come

$$S=-\sum_{i=1}^Wp_i \log p_i$$

ove \(p_i\) è la probabilità che il sistema occupi lo stato \(i\) (o che la sorgente d’informazione generi l’output \(i\)), e \(W\) è il numero di stati (output) possibili.

Calcolare l’entropia di un sistema

Per capire meglio quanto sopra, i due seguenti esempi molto semplici mostrano come si valuta l’entropia di sistemi banali.

Per primo, immaginate che il vostro sistema sia una moneta, le cui facce sono distinguibili (testa e croce), che deve essere lanciata. Potete definire lo stato della moneta in base alla sua posizione: se la faccia rivolta verso l’alto sarà testa, quello è lo “stato 1”, mentre se la faccia rivolta verso l’alto sarà croce, quello è lo “stato 2”.

lancio di monete ed entropia associata

In questo scenario, \(W=2\) (gli stati possibili in cui si può trovare la moneta sono due in totale). Inoltre, se la moneta è ben bilanciata, la probabilità che si trovi nello stato 1 è uguale a quella che si trovi nello stato 2, cioè \(1/2\).

In tal caso $$S=-\frac{1}{2}\log\frac{1}{2}-\frac{1}{2}\log\frac{1}{2}=\log2=0.693…$$

Potreste però voler fregare i vostri amici al bar, e possedere una moneta truccata. Se, per esempio, la probabilità di testa è \(3/4\) e quella di croce \(1/4\), l’entropia sarà $$S=-\frac{3}{4}\log\frac{3}{4}-\frac{1}{4}\log\frac{1}{4}=0.562…$$ che è un valore più piccolo di quello calcolato precedentemente.

Entropia e casualità

Immaginate ora una scimmia che abbia davanti due pulsanti, che preme sbattendoci i pugni sopra (e quindi casualmente), ed un monitor. Con un pulsante, la scimmia digita “0” (zero), con l’altro “1” (uno). Potete immaginare che tale scimmia sia la vostra sorgente e che i numeri che lei digita siano l’informazione. Prima che la scimmia agisca, voi non avete idea di dove finirà il suo pugno. Potete però calcolare l’entropia associata a tale sorgente d’informazione, tramite un procedimento identico a quello usato per la moneta. Basta sostituire “testa e croce” con “zero e uno” e la situazione diventa la medesima: se i due casi possibili sono equiprobabili, l’entropia sarà \(S=\log2,\) altrimenti assumerà altri valori, dipendenti dalle probabilità associate ai diversi output.

dadi ed entropia
L’entropia associata al lancio di un dado dipende dalla probabilità associata a ciascun evento. Più aumenta la probabilità che esca uno dei sei numeri, minore sarà l’entropia.

Un caso “estremo”

Entropia come “misura del disordine” o “grado di sorpresa” sono definizioni qualitative che si sentono spesso in relazione a questa quantità. Sono corrette? Come fa qualcuno che non mastica formule tutti i giorni a immaginare l’entropia? Prendete di nuovo in esame l’esempio della moneta, così da poter toccare con mano i concetti fondamentali, che restano validi anche in situazioni molto più complesse.

Abbiamo già valutato due casi calcolandone l’entropia: quello in cui gli stati testa e croce sono equiprobabili, e quello in cui hanno probabilità \(3/4\) e \(1/4\), rispettivamente.

Immaginiamo ora che, per esempio, “testa” accada con probabilità \(1\): questo significa che ogni volta che la moneta viene lanciata, “cascasse il mondo”, il risultato sarà testa. Calcolate ora l’entropia associata a questa moneta molto particolare (e piuttosto inutile):

$$S=-1\log 1-0\log 0=\log1=0.$$

Interpretazione dell’entropia nella teoria dell’informazione

Riuscite a notare un “pattern” nel modo in cui l’entropia modifica il suo valore al variare delle probabilità associate ai diversi possibili eventi?

Il caso con entropia maggiore è quello più “incerto”, ovvero quello in cui testa e croce hanno la medesima probabilità di uscire: prima di lanciare la moneta, non avete modo di azzeccare quale faccia cadrà a testa in giù se non affidandovi al puro caso.

Quando invece uno stato ha probabilità maggiore di realizzarsi, l’entropia diminuisce, e con lei la vostra “sorpresa” nel vedere il risultato. Lanciando la moneta ripetutamente, nella maggior parte dei casi sarete “poco” sopresi di vedere un certo risultato, visto che è più probabile.

entropia e disordine spesso coincidono
Entropia e disordine spesso vengono fatti coincidere con la medesima cosa.

E’ forse un concetto un po’ duro da mandare giù, ed ecco perchè c’è il terzo esempio, che estremizza quanto appena detto: si ha entropia minima quando la probabilità è tutta concentrata in un solo stato. In questa situazione la sopresa nel vedere il risultato del lancio è nulla, perchè si conosce con certezza quale sarà. Il sistema è perfettamente ordinato e non caotico. L’informazione che si trae dal lancio dalla moneta è nulla.

La definizione di entropia dipende dal momento in cui si osserva il sistema

Tutte le descrizioni qualitative che avete sentito riguardo l’entropia non sono quindi nè giuste nè sbagliate: dipende da quando si guarda il sistema.

Se immaginate di trovarvi prima del lancio, l’entropia del sistema moneta misura il suo “disordine”: quanto accuratamente potete prevedere il risultato? Poco se il sistema è disordinato (caso stati equiprobabili), sempre di più man mano che la probabilità si “accumula” in uno dei due stati, e che quindi il sistema diventa ordinato. Se immaginate di trovarvi dopo il lancio, la stessa quantità misura quanto siete sorpresi di osservare quale faccia è all’insù. Vedere “testa” quando i due stati sono equiprobabili vi lascia molto più stupiti di vederla se la sua probabilità è il 100%, no?

Articolo a cura di Andrea Somazzi.