Chi ha sentito parlare di entropia spesso lo ha fatto come quantità fisica legata ai sistemi termodinamici o come “misura del disordine”. Storicamente l’entropia è stata prima introdotta in ambito termodinamico da Clausius, poi in ambito statistico da Boltzmann e Gibbs, ed infine in ambito di teoria dell’informazione da Shannon e Jaynes.
Questo articolo si concentrerà su questo ultimo aspetto, fornendo prima una semplice descrizione quantitativa e poi qualitativa riguardo la sua interpretazione.
In ambito statistico, l’entropia di un sistema dipende dalle probabilità che il sistema ha di occupare i suoi stati, oppure, analogamente, l’entropia di una sorgente d’informazione dipende dall’insieme delle probabilità che tale sorgente ha di generare i suoi possibili output.
In particolare, l’entropia \(S\) è definita come
$$S=-\sum_{i=1}^Wp_i \log p_i$$
ove \(p_i\) è la probabilità che il sistema occupi lo stato \(i\) (o che la sorgente d’informazione generi l’output \(i\)), e \(W\) è il numero di stati (output) possibili.
Per capire meglio quanto sopra, i due seguenti esempi molto semplici mostrano come si valuta l’entropia di sistemi banali.
Per primo, immaginate che il vostro sistema sia una moneta, le cui facce sono distinguibili (testa e croce), che deve essere lanciata. Potete definire lo stato della moneta in base alla sua posizione: se la faccia rivolta verso l’alto sarà testa, quello è lo “stato 1”, mentre se la faccia rivolta verso l’alto sarà croce, quello è lo “stato 2”.
In questo scenario, \(W=2\) (gli stati possibili in cui si può trovare la moneta sono due in totale). Inoltre, se la moneta è ben bilanciata, la probabilità che si trovi nello stato 1 è uguale a quella che si trovi nello stato 2, cioè \(1/2\).
In tal caso $$S=-\frac{1}{2}\log\frac{1}{2}-\frac{1}{2}\log\frac{1}{2}=\log2=0.693…$$
Potreste però voler fregare i vostri amici al bar, e possedere una moneta truccata. Se, per esempio, la probabilità di testa è \(3/4\) e quella di croce \(1/4\), l’entropia sarà $$S=-\frac{3}{4}\log\frac{3}{4}-\frac{1}{4}\log\frac{1}{4}=0.562…$$ che è un valore più piccolo di quello calcolato precedentemente.
Immaginate ora una scimmia che abbia davanti due pulsanti, che preme sbattendoci i pugni sopra (e quindi casualmente), ed un monitor. Con un pulsante, la scimmia digita “0” (zero), con l’altro “1” (uno). Potete immaginare che tale scimmia sia la vostra sorgente e che i numeri che lei digita siano l’informazione. Prima che la scimmia agisca, voi non avete idea di dove finirà il suo pugno. Potete però calcolare l’entropia associata a tale sorgente d’informazione, tramite un procedimento identico a quello usato per la moneta. Basta sostituire “testa e croce” con “zero e uno” e la situazione diventa la medesima: se i due casi possibili sono equiprobabili, l’entropia sarà \(S=\log2,\) altrimenti assumerà altri valori, dipendenti dalle probabilità associate ai diversi output.
Entropia come “misura del disordine” o “grado di sorpresa” sono definizioni qualitative che si sentono spesso in relazione a questa quantità. Sono corrette? Come fa qualcuno che non mastica formule tutti i giorni a immaginare l’entropia? Prendete di nuovo in esame l’esempio della moneta, così da poter toccare con mano i concetti fondamentali, che restano validi anche in situazioni molto più complesse.
Abbiamo già valutato due casi calcolandone l’entropia: quello in cui gli stati testa e croce sono equiprobabili, e quello in cui hanno probabilità \(3/4\) e \(1/4\), rispettivamente.
Immaginiamo ora che, per esempio, “testa” accada con probabilità \(1\): questo significa che ogni volta che la moneta viene lanciata, “cascasse il mondo”, il risultato sarà testa. Calcolate ora l’entropia associata a questa moneta molto particolare (e piuttosto inutile):
$$S=-1\log 1-0\log 0=\log1=0.$$
Riuscite a notare un “pattern” nel modo in cui l’entropia modifica il suo valore al variare delle probabilità associate ai diversi possibili eventi?
Il caso con entropia maggiore è quello più “incerto”, ovvero quello in cui testa e croce hanno la medesima probabilità di uscire: prima di lanciare la moneta, non avete modo di azzeccare quale faccia cadrà a testa in giù se non affidandovi al puro caso.
Quando invece uno stato ha probabilità maggiore di realizzarsi, l’entropia diminuisce, e con lei la vostra “sorpresa” nel vedere il risultato. Lanciando la moneta ripetutamente, nella maggior parte dei casi sarete “poco” sopresi di vedere un certo risultato, visto che è più probabile.
E’ forse un concetto un po’ duro da mandare giù, ed ecco perchè c’è il terzo esempio, che estremizza quanto appena detto: si ha entropia minima quando la probabilità è tutta concentrata in un solo stato. In questa situazione la sopresa nel vedere il risultato del lancio è nulla, perchè si conosce con certezza quale sarà. Il sistema è perfettamente ordinato e non caotico. L’informazione che si trae dal lancio dalla moneta è nulla.
Tutte le descrizioni qualitative che avete sentito riguardo l’entropia non sono quindi nè giuste nè sbagliate: dipende da quando si guarda il sistema.
Se immaginate di trovarvi prima del lancio, l’entropia del sistema moneta misura il suo “disordine”: quanto accuratamente potete prevedere il risultato? Poco se il sistema è disordinato (caso stati equiprobabili), sempre di più man mano che la probabilità si “accumula” in uno dei due stati, e che quindi il sistema diventa ordinato. Se immaginate di trovarvi dopo il lancio, la stessa quantità misura quanto siete sorpresi di osservare quale faccia è all’insù. Vedere “testa” quando i due stati sono equiprobabili vi lascia molto più stupiti di vederla se la sua probabilità è il 100%, no?
Articolo a cura di Andrea Somazzi.