Modellazione statistica: metodi, descrizione, applicazione

Sommario:

Modellazione statistica: metodi, descrizione, applicazione
Modellazione statistica: metodi, descrizione, applicazione
Anonim

Le ipotesi incorporate nella modellazione statistica descrivono un insieme di distribuzioni di probabilità, alcune delle quali si presume approssimino adeguatamente la distribuzione. Dalla definizione viene selezionato un insieme specifico di dati. Le distribuzioni di probabilità inerenti alla modellazione statistica sono ciò che distingue i modelli statistici da altri modelli matematici non statistici.

Image
Image

Connessione con la matematica

Questo metodo scientifico è radicato principalmente nella matematica. La modellazione statistica dei sistemi è solitamente data da equazioni matematiche che mettono in relazione una o più variabili casuali e possibilmente altre variabili non casuali. Pertanto, un modello statistico è una "rappresentazione formale di una teoria" (Hermann Ader, citando Kenneth Bollen).

Tutti i test di ipotesi statistica e tutte le stime statistiche sono derivati da modelli statistici. Più in generale, i modelli statistici fanno parte della base dell'inferenza statistica.

Metodi di statisticamodellazione

Informalmente, un modello statistico può essere pensato come un'assunzione statistica (o insieme di ipotesi statistiche) con una certa proprietà: questa ipotesi ci permette di calcolare la probabilità di qualsiasi evento. Ad esempio, considera una coppia di normali dadi a sei facce. Studieremo due diverse ipotesi statistiche sull'osso.

La prima ipotesi statistica costituisce il modello statistico, perché con una sola ipotesi possiamo calcolare la probabilità di qualsiasi evento. L'ipotesi statistica alternativa non costituisce un modello statistico, perché con una sola ipotesi non possiamo calcolare la probabilità di ciascun evento.

Modello statistico tipico
Modello statistico tipico

Nell'esempio sopra con la prima ipotesi, è facile calcolare la probabilità di un evento. Tuttavia, in altri esempi, il calcolo può essere complesso o addirittura impraticabile (ad esempio, potrebbe richiedere milioni di anni di calcolo). Per l'ipotesi che costituisce un modello statistico, questa difficoltà è accettabile: l'esecuzione del calcolo non deve essere praticamente fattibile, solo teoricamente possibile.

Esempi di modelli

Supponiamo di avere una popolazione di scolari con bambini equamente distribuiti. L' altezza di un bambino sarà stocasticamente correlata all'età: ad esempio, quando sappiamo che un bambino ha 7 anni, ciò influisce sulla probabilità che il bambino sia alto 5 piedi (circa 152 cm). Potremmo formalizzare questa relazione in un modello di regressione lineare, ad esempio: crescita=b0 + b1agei+ εi, dove b0 è l'intersezione, b1 è il parametro per il quale l'età viene moltiplicata quando si ottiene la previsione di crescita, εi è il termine di errore. Ciò implica che l' altezza è prevista in base all'età con qualche errore.

Un modello valido deve corrispondere a tutti i punti dati. Quindi una linea retta (heighti=b0 + b1agei) non può essere un'equazione per un modello di dati, a meno che non si adatti esattamente a tutti i punti di dati, ovvero tutti i punti di dati giacciono perfettamente sulla linea. Il termine di errore εi deve essere incluso nell'equazione affinché il modello si adatti a tutti i punti dati.

statistiche di genere
statistiche di genere

Per fare un'inferenza statistica, dobbiamo prima assumere alcune distribuzioni di probabilità per εi. Ad esempio, possiamo assumere che le distribuzioni di εi siano gaussiane, con media nulla. In questo caso, il modello avrà 3 parametri: b0, b1 e la varianza della distribuzione gaussiana.

Descrizione generale

Un modello statistico è una classe speciale di modello matematico. Ciò che distingue un modello statistico da altri modelli matematici è che non è deterministico. Viene utilizzato per modellare dati statistici. Pertanto, in un modello statistico definito con equazioni matematiche, alcune variabili non hanno valori specifici, ma hanno invece distribuzioni di probabilità; cioè, alcune variabili sono stocastiche. Nell'esempio sopra, ε è una variabile stocastica; senza questa variabile, il modello erasarebbe deterministico.

I modelli statistici vengono spesso utilizzati nell'analisi statistica e nella modellazione, anche se il processo fisico modellato è deterministico. Ad esempio, lanciare monete è in linea di principio un processo deterministico; tuttavia è solitamente modellato come stocastico (tramite un processo di Bernoulli).

statistiche sul riscaldamento
statistiche sul riscaldamento

Modelli parametrici

I modelli parametrici sono i modelli statistici più comunemente usati. Per quanto riguarda i modelli semiparametrici e non parametrici, Sir David Cox ha affermato: "In genere includono meno ipotesi sulla struttura e la forma della distribuzione, ma di solito contengono forti ipotesi di indipendenza". Come tutti gli altri modelli citati, sono spesso utilizzati anche nel metodo statistico di modellazione matematica.

Modelli multilivello

I modelli multilivello (noti anche come modelli lineari gerarchici, modelli di dati nidificati, modelli misti, coefficienti casuali, modelli a effetti casuali, modelli a parametri casuali o modelli partizionati) sono modelli di parametri statistici che variano a più di un livello. Un esempio è un modello di rendimento degli studenti che contiene le metriche per i singoli studenti e le metriche per le classi in cui gli studenti sono raggruppati. Questi modelli possono essere pensati come generalizzazioni di modelli lineari (in particolare, regressione lineare), sebbene possano essere estesi anche a modelli non lineari. Questi modelli sono diventatimolto più popolare una volta che la potenza di calcolo e il software sono diventati disponibili.

Statistiche di segmento
Statistiche di segmento

I modelli multilivello sono particolarmente adatti a progetti di ricerca in cui i dati per i partecipanti sono organizzati a più livelli (ossia, dati annidati). Le unità di analisi sono generalmente individui (a un livello inferiore) che sono nidificati all'interno di unità di contesto/aggregate (a un livello superiore). Sebbene il livello più basso di dati nei modelli multilivello sia tipicamente individuale, possono essere prese in considerazione anche misurazioni ripetute di individui. Pertanto, i modelli multilivello forniscono un tipo alternativo di analisi per l'analisi di misure ripetute univariate o multivariate. Si possono considerare le differenze individuali nelle curve di crescita. Inoltre, i modelli multilivello possono essere utilizzati come alternativa all'ANCOVA, in cui i punteggi delle variabili dipendenti vengono adeguati per le covariate (ad es. differenze individuali) prima di testare le differenze di trattamento. I modelli multilivello sono in grado di analizzare questi esperimenti senza l'assunzione di pendenze di regressione uniformi richieste da ANCOVA.

I modelli multilivello possono essere utilizzati per dati con molti livelli, sebbene i modelli a due livelli siano i più comuni e il resto di questo articolo si concentra su questi. La variabile dipendente dovrebbe essere esaminata al livello di analisi più basso.

Grafico della pressione atmosferica
Grafico della pressione atmosferica

Selezione del modello

Selezione del modelloè il compito di selezionare da un insieme di modelli candidati dati i dati, svolto nell'ambito della modellizzazione statistica. Nei casi più semplici si considera un set di dati già esistente. Tuttavia, l'attività può anche comportare la progettazione di esperimenti in modo che i dati raccolti siano adatti all'attività di selezione del modello. Dati i modelli candidati con potere predittivo o esplicativo simile, è probabile che il modello più semplice sia la scelta migliore (il rasoio di Occam).

Konishi e Kitagawa affermano: "La maggior parte dei problemi di inferenza statistica possono essere considerati problemi relativi alla modellazione statistica". Allo stesso modo, Cox ha affermato: "Il modo in cui viene eseguita la traduzione dell'argomento nel modello statistico è spesso la parte più importante dell'analisi".

La selezione del modello può anche fare riferimento al problema di selezionare alcuni modelli rappresentativi da un ampio insieme di modelli computazionali per scopi decisionali o di ottimizzazione in condizioni di incertezza.

Modelli grafici

Il modello grafico, o modello grafico probabilistico, (PGM) o modello probabilistico strutturato, è un modello probabilistico per il quale il grafico esprime la struttura di una relazione condizionale tra variabili casuali. Sono comunemente usati nella teoria della probabilità, nella statistica (soprattutto nella statistica bayesiana) e nell'apprendimento automatico.

Modello statistico con un grafico
Modello statistico con un grafico

Modelli econometrici

I modelli econometrici sono modelli statistici utilizzati ineconometria. Un modello econometrico definisce le relazioni statistiche che si ritiene esistano tra varie grandezze economiche legate a un particolare fenomeno economico. Un modello econometrico può essere derivato da un modello economico deterministico che tenga conto dell'incertezza, o da un modello economico che è esso stesso stocastico. Tuttavia, è anche possibile utilizzare modelli econometrici che non sono legati ad alcuna teoria economica particolare.

Consigliato: