Reti bayesiane: definizione, esempi e come funzionano

Sommario:

Reti bayesiane: definizione, esempi e come funzionano
Reti bayesiane: definizione, esempi e come funzionano
Anonim

Una credenza, una rete decisionale, un modello bayesiano (ian) o un modello di grafo aciclico guidato probabilisticamente è uno schema variante (un tipo di modello statistico) che rappresenta un insieme di variabili e le loro dipendenze condizionali attraverso un grafico aciclico diretto (DAG).

Ad esempio, una rete bayesiana può rappresentare relazioni probabilistiche tra malattie e sintomi. Data quest'ultima, la rete può essere utilizzata per calcolare la possibilità di avere varie malattie. Nel video qui sotto puoi vedere un esempio di una rete di credenze bayesiane con calcoli.

Image
Image

Efficienza

Algoritmi efficienti possono eseguire inferenze e apprendimento su reti bayesiane. Le reti che modellano variabili (come segnali vocali o sequenze proteiche) sono chiamate reti dinamiche. Le generalizzazioni delle reti bayesiane che possono rappresentare e risolvere problemi in condizioni di incertezza sono chiamate diagrammi di influenza.

Essenza

FormalmenteLe reti bayesiane sono DAG i cui nodi rappresentano variabili in senso bayesiano: possono essere valori osservati, variabili nascoste, parametri sconosciuti o ipotesi. Perché è molto interessante.

Esempio di rete bayesiana

Due eventi possono far bagnare l'erba: un irrigatore attivo o una pioggia. La pioggia ha un effetto diretto sull'uso dell'irrigatore (vale a dire, che quando piove, l'irrigatore è solitamente inattivo). Questa situazione può essere modellata utilizzando una rete bayesiana.

Formula tipica
Formula tipica

Simulazione

Poiché la rete bayesiana è un modello completo per le sue variabili e le loro relazioni, può essere utilizzata per rispondere a domande probabilistiche su di esse. Ad esempio, può essere utilizzato per aggiornare le conoscenze sullo stato di un sottoinsieme di variabili quando vengono osservati altri dati (variabili di evidenza). Questo interessante processo è chiamato inferenza probabilistica.

A posteriori fornisce una statistica universalmente sufficiente per le applicazioni di rilevamento quando si scelgono valori per un sottoinsieme di variabili. Pertanto, questo algoritmo può essere considerato un meccanismo per applicare automaticamente il teorema di Bayes a problemi complessi. Nelle immagini dell'articolo puoi vedere esempi di reti di credenze bayesiane.

Rete bayesiana pratica
Rete bayesiana pratica

Metodi di output

I metodi di inferenza esatti più comuni sono: eliminazione variabile, che elimina (per integrazione o somma) l'inosservabileparametri non di query uno per uno assegnando l'importo al prodotto.

Fai clic sulla propagazione di un "albero" che memorizza nella cache i calcoli in modo che molte variabili possano essere interrogate contemporaneamente e nuove prove possano essere propagate rapidamente; e la corrispondenza e/o la ricerca ricorsive, che consentono il compromesso tra spazio e tempo e corrispondono all'efficienza dell'eliminazione delle variabili quando viene utilizzato spazio sufficiente.

Tutti questi metodi hanno una complessità speciale che dipende esponenzialmente dalla lunghezza della rete. Gli algoritmi di inferenza approssimata più comuni sono l'eliminazione di mini-segmenti, la propagazione delle credenze cicliche, la propagazione delle credenze generalizzate e i metodi variazionali.

Tipi di reti
Tipi di reti

Rete

Per specificare completamente la rete bayesiana e quindi rappresentare completamente la distribuzione di probabilità congiunta, è necessario specificare per ogni nodo X la distribuzione di probabilità per X dovuta ai genitori di X.

La distribuzione di X condizionatamente dai suoi genitori può avere qualsiasi forma. È comune lavorare con distribuzioni discrete o gaussiane poiché semplifica i calcoli. A volte sono noti solo i vincoli di distribuzione. È quindi possibile utilizzare l'entropia per determinare la singola distribuzione che ha l'entropia più alta dati i vincoli.

Allo stesso modo, nel contesto specifico di una rete bayesiana dinamica, la distribuzione condizionale per l'evoluzione temporale del latentelo stato è solitamente impostato per massimizzare il tasso di entropia del processo casuale implicito.

Rete bayesiana della fiducia
Rete bayesiana della fiducia

Massimizzare direttamente la probabilità (o la probabilità a posteriori) è spesso complicato data la presenza di variabili non osservate. Ciò è particolarmente vero per una rete decisionale bayesiana.

Approccio classico

L'approccio classico a questo problema è l'algoritmo di massimizzazione dell'aspettativa, che alterna il calcolo dei valori attesi di variabili non osservate dipendenti dai dati osservati con la massimizzazione della probabilità totale (o valore a posteriori), assumendo che l'attesa calcolata in precedenza i valori sono corretti. In condizioni di moderata regolarità, questo processo converge nei valori massimi (o massimi a posteriori) dei parametri.

Un approccio bayesiano più completo ai parametri consiste nel trattarli come variabili aggiuntive non osservate e nel calcolare la distribuzione a posteriori completa su tutti i nodi dati i dati osservati, quindi integrare i parametri. Questo approccio può essere costoso e portare a modelli di grandi dimensioni, rendendo più accessibili i classici approcci di ottimizzazione dei parametri.

Nel caso più semplice, una rete bayesiana viene definita da un esperto e quindi utilizzata per eseguire l'inferenza. In altre applicazioni, il compito di determinare è troppo difficile per un essere umano. In questo caso è necessario apprendere tra i dati la struttura della rete neurale bayesiana ei parametri delle distribuzioni locali.

Reti bayesiane
Reti bayesiane

Metodo alternativo

Un metodo alternativo di apprendimento strutturato utilizza la ricerca di ottimizzazione. Ciò richiede l'applicazione di una funzione di valutazione e di una strategia di ricerca. Un comune algoritmo di punteggio è la probabilità a posteriori di una struttura dati dati di addestramento come BIC o BDeu.

Il tempo necessario per una ricerca esaustiva restituendo una struttura che massimizza il punteggio è superesponenziale nel numero di variabili. La strategia di ricerca locale apporta modifiche incrementali per migliorare la stima della struttura. Friedman ei suoi colleghi hanno considerato l'utilizzo di informazioni reciproche tra le variabili per trovare la struttura desiderata. Limitano l'insieme dei candidati genitori a k nodi e li ricercano accuratamente.

Un metodo particolarmente veloce per studiare esattamente il BN è immaginare il problema come un problema di ottimizzazione e risolverlo usando la programmazione intera. I vincoli di aciclicità vengono aggiunti al programma intero (IP) durante la soluzione sotto forma di piani di taglio. Tale metodo può gestire problemi fino a 100 variabili.

Grafici e reti
Grafici e reti

Risoluzione dei problemi

Per risolvere problemi con migliaia di variabili, è necessario un approccio diverso. Uno è scegliere prima un ordine e poi trovare la struttura BN ottimale rispetto a quell'ordine. Ciò implica lavorare nello spazio di ricerca dell'ordinamento possibile, il che è conveniente perché è più piccolo dello spazio delle strutture di rete. Diversi ordini vengono quindi selezionati e valutati. Questo metodo si è rivelatoil migliore disponibile in letteratura quando il numero di variabili è enorme.

Un altro metodo consiste nel concentrarsi su una sottoclasse di modelli scomponibili per i quali gli MLE sono chiusi. Quindi puoi trovare una struttura coerente per centinaia di variabili.

Lo studio di reti bayesiane con una larghezza limitata di tre linee è necessario per fornire un'inferenza accurata e interpretabile, poiché la complessità del caso peggiore di queste ultime è esponenziale nella lunghezza dell'albero k (secondo l'ipotesi del tempo esponenziale). Tuttavia, come proprietà globale del grafico, aumenta notevolmente la complessità del processo di apprendimento. In questo contesto, K-tree può essere utilizzato per un apprendimento efficace.

Rete corta
Rete corta

Sviluppo

Lo sviluppo di un Web of Trust bayesiano inizia spesso con la creazione di un DAG G tale che X soddisfi una proprietà Markov locale rispetto a G. A volte questo è un DAG causale. Si stimano le distribuzioni di probabilità condizionate di ciascuna variabile sui suoi genitori in G. In molti casi, in particolare quando le variabili sono discrete, se la distribuzione congiunta di X è il prodotto di queste distribuzioni condizionali, allora X diventa una rete bayesiana rispetto a G.

La "coperta di nodi" di Markov è un insieme di nodi. La trapunta di Markov rende il nodo indipendente dal resto dello spazio vuoto del nodo con lo stesso nome ed è una conoscenza sufficiente per calcolarne la distribuzione. X è una rete bayesiana rispetto a G se ogni nodo è condizionatamente indipendente da tutti gli altri nodi, dato il suo markovianocoperta.

Consigliato: