Cosa c’entra l’entropia nella teoria dell’informazione?

entropia e codice binario
Chi ha sentito parlare di entropia spesso lo ha fatto come quantità fisica legata ai sistemi termodinamici o come “misura del disordine”. Storicamente l’entropia è stata prima introdotta in ambito termodinamico da Clausius, poi in ambito statistico da Boltzmann e Gibbs, ed infine in ambito di teoria dell’informazione da Shannon e Jaynes.
Questo articolo si concentrerà su questo ultimo aspetto, fornendo prima una semplice descrizione quantitativa e poi qualitativa riguardo la sua interpretazione.
Framework
In ambito statistico, l’entropia di un sistema dipende dalle probabilità che il sistema ha di occupare i suoi stati, oppure, analogamente, l’entropia di una sorgente d’informazione dipende dall’insieme delle probabilità che tale sorgente ha di generare i suoi possibili output.
In particolare, l’entropia S è definita come
S=−W∑i=1pilogpi
ove pi è la probabilità che il sistema occupi lo stato i (o che la sorgente d’informazione generi l’output i), e W è il numero di stati (output) possibili.
Calcolare l’entropia di un sistema
Per capire meglio quanto sopra, i due seguenti esempi molto semplici mostrano come si valuta l’entropia di sistemi banali.
Per primo, immaginate che il vostro sistema sia una moneta, le cui facce sono distinguibili (testa e croce), che deve essere lanciata. Potete definire lo stato della moneta in base alla sua posizione: se la faccia rivolta verso l’alto sarà testa, quello è lo “stato 1”, mentre se la faccia rivolta verso l’alto sarà croce, quello è lo “stato 2”.
In questo scenario, W=2 (gli stati possibili in cui si può trovare la moneta sono due in totale). Inoltre, se la moneta è ben bilanciata, la probabilità che si trovi nello stato 1 è uguale a quella che si trovi nello stato 2, cioè 1/2.
In tal caso S=−12log12−12log12=log2=0.693…
Potreste però voler fregare i vostri amici al bar, e possedere una moneta truccata. Se, per esempio, la probabilità di testa è 3/4 e quella di croce 1/4, l’entropia sarà S=−34log34−14log14=0.562… che è un valore più piccolo di quello calcolato precedentemente.
Entropia e casualità
Immaginate ora una scimmia che abbia davanti due pulsanti, che preme sbattendoci i pugni sopra (e quindi casualmente), ed un monitor. Con un pulsante, la scimmia digita “0” (zero), con l’altro “1” (uno). Potete immaginare che tale scimmia sia la vostra sorgente e che i numeri che lei digita siano l’informazione. Prima che la scimmia agisca, voi non avete idea di dove finirà il suo pugno. Potete però calcolare l’entropia associata a tale sorgente d’informazione, tramite un procedimento identico a quello usato per la moneta. Basta sostituire “testa e croce” con “zero e uno” e la situazione diventa la medesima: se i due casi possibili sono equiprobabili, l’entropia sarà S=log2, altrimenti assumerà altri valori, dipendenti dalle probabilità associate ai diversi output.

Un caso “estremo”
Entropia come “misura del disordine” o “grado di sorpresa” sono definizioni qualitative che si sentono spesso in relazione a questa quantità. Sono corrette? Come fa qualcuno che non mastica formule tutti i giorni a immaginare l’entropia? Prendete di nuovo in esame l’esempio della moneta, così da poter toccare con mano i concetti fondamentali, che restano validi anche in situazioni molto più complesse.
Abbiamo già valutato due casi calcolandone l’entropia: quello in cui gli stati testa e croce sono equiprobabili, e quello in cui hanno probabilità 3/4 e 1/4, rispettivamente.
Immaginiamo ora che, per esempio, “testa” accada con probabilità 1: questo significa che ogni volta che la moneta viene lanciata, “cascasse il mondo”, il risultato sarà testa. Calcolate ora l’entropia associata a questa moneta molto particolare (e piuttosto inutile):
S=−1log1−0log0=log1=0.
Interpretazione dell’entropia nella teoria dell’informazione
Riuscite a notare un “pattern” nel modo in cui l’entropia modifica il suo valore al variare delle probabilità associate ai diversi possibili eventi?
Il caso con entropia maggiore è quello più “incerto”, ovvero quello in cui testa e croce hanno la medesima probabilità di uscire: prima di lanciare la moneta, non avete modo di azzeccare quale faccia cadrà a testa in giù se non affidandovi al puro caso.
Quando invece uno stato ha probabilità maggiore di realizzarsi, l’entropia diminuisce, e con lei la vostra “sorpresa” nel vedere il risultato. Lanciando la moneta ripetutamente, nella maggior parte dei casi sarete “poco” sopresi di vedere un certo risultato, visto che è più probabile.

E’ forse un concetto un po’ duro da mandare giù, ed ecco perchè c’è il terzo esempio, che estremizza quanto appena detto: si ha entropia minima quando la probabilità è tutta concentrata in un solo stato. In questa situazione la sopresa nel vedere il risultato del lancio è nulla, perchè si conosce con certezza quale sarà. Il sistema è perfettamente ordinato e non caotico. L’informazione che si trae dal lancio dalla moneta è nulla.
La definizione di entropia dipende dal momento in cui si osserva il sistema
Tutte le descrizioni qualitative che avete sentito riguardo l’entropia non sono quindi nè giuste nè sbagliate: dipende da quando si guarda il sistema.
Se immaginate di trovarvi prima del lancio, l’entropia del sistema moneta misura il suo “disordine”: quanto accuratamente potete prevedere il risultato? Poco se il sistema è disordinato (caso stati equiprobabili), sempre di più man mano che la probabilità si “accumula” in uno dei due stati, e che quindi il sistema diventa ordinato. Se immaginate di trovarvi dopo il lancio, la stessa quantità misura quanto siete sorpresi di osservare quale faccia è all’insù. Vedere “testa” quando i due stati sono equiprobabili vi lascia molto più stupiti di vederla se la sua probabilità è il 100%, no?
Articolo a cura di Andrea Somazzi.