Un modello statistico è una proiezione matematica che incorpora un insieme di diverse ipotesi sulla generazione di alcuni dati campione. Il termine è spesso presentato in una forma molto idealizzata.
Le ipotesi espresse nel modello statistico mostrano un insieme di distribuzioni di probabilità. Molti dei quali hanno lo scopo di approssimare correttamente la distribuzione da cui viene tratto un particolare insieme di informazioni. Le distribuzioni di probabilità inerenti ai modelli statistici sono ciò che distingue la proiezione da altre modifiche matematiche.
Proiezione generale
Il modello matematico è una descrizione del sistema che utilizza determinati concetti e linguaggio. Si applicano alle scienze naturali (come fisica, biologia, scienze della terra, chimica) e alle discipline ingegneristiche (come informatica, ingegneria elettrica), nonché alle scienze sociali (come economia, psicologia, sociologia, scienze politiche).
Il modello può aiutare a spiegare il sistema estudia l'influenza dei vari componenti e fai previsioni sul comportamento.
I modelli matematici possono assumere molte forme, inclusi sistemi dinamici, proiezioni statistiche, equazioni differenziali o parametri di teoria dei giochi. Questi e altri tipi possono sovrapporsi e questo modello include molte strutture astratte. In generale, le proiezioni matematiche possono includere anche componenti logiche. In molti casi, la qualità di un campo scientifico dipende da quanto bene i modelli matematici sviluppati teoricamente concordano con i risultati di ripetuti esperimenti. La mancanza di accordo tra i processi teorici e le misurazioni sperimentali spesso porta a importanti progressi man mano che vengono sviluppate teorie migliori.
Nelle scienze fisiche, il modello matematico tradizionale contiene un gran numero dei seguenti elementi:
- Equazioni di controllo.
- Sottomodelli aggiuntivi.
- Definisci equazioni.
- Equazioni costituenti.
- Presupposti e limitazioni.
- Condizioni iniziali e al contorno.
- Vincoli classici ed equazioni cinematiche.
Formula
Un modello statistico, di regola, è impostato da equazioni matematiche che combinano una o più variabili casuali e, possibilmente, altre variabili naturali. Allo stesso modo, la proiezione è considerata "il concetto formale di un concetto".
Tutti i test di ipotesi statistiche e le valutazioni statistiche sono ottenuti da modelli matematici.
Introduzione
Informalmente, un modello statistico può essere visto come un'ipotesi (o un insieme di ipotesi) con una proprietà specifica: permette di calcolare la probabilità di qualsiasi evento. Ad esempio, considera una coppia di normali dadi a sei facce. È necessario esplorare due diverse ipotesi statistiche sull'osso.
La prima ipotesi è:
Per ciascuno dei dadi, la probabilità di ottenere uno dei numeri (1, 2, 3, 4, 5 e 6) è: 1/6.
Da questa ipotesi, possiamo calcolare la probabilità di entrambi i dadi: 1:1/6×1/6=1/36.
Più in generale, puoi calcolare la probabilità di qualsiasi evento. Tuttavia, dovrebbe essere chiaro che è impossibile calcolare la probabilità di qualsiasi altro evento non banale.
Solo il primo parere raccoglie un modello matematico statistico: per il fatto che con una sola ipotesi è possibile determinare la probabilità di ogni azione.
Nell'esempio sopra, previa autorizzazione iniziale, è facile determinare la possibilità di un evento. Con alcuni altri esempi, il calcolo può essere difficile o addirittura irrealistico (ad esempio, potrebbe richiedere molti anni di calcoli). Per una persona che progetta un modello di analisi statistica, tale complessità è considerata inaccettabile: l'implementazione dei calcoli non dovrebbe essere praticamente impossibile e teoricamente impossibile.
Definizione formale
In termini matematici, il modello statistico di un sistema è generalmente considerato come una coppia (S, P), dove S èl'insieme delle possibili osservazioni, ovvero lo spazio campionario, e P è l'insieme delle distribuzioni di probabilità su S.
L'intuizione di questa definizione è la seguente. Si presume che esista una "vera" distribuzione di probabilità causata dal processo che genera determinati dati.
Imposta
È lui che determina i parametri del modello. La parametrizzazione generalmente richiede valori diversi per ottenere distribuzioni diverse, ad es.
deve reggere (in altre parole, deve essere iniettivo). Si dice che una parametrizzazione che soddisfa il requisito sia identificabile.
Esempio
Supponiamo che ci sia un certo numero di studenti di età diverse. L' altezza del bambino sarà stocasticamente correlata all'anno di nascita: ad esempio, quando uno scolaro ha 7 anni, ciò influisce sulla probabilità di crescita, solo così che la persona sarà più alta di 3 centimetri.
Puoi formalizzare questo approccio in un modello di regressione lineare, ad esempio, come segue: altezza i=b 0 + b 1agei + εi, dove b 0 è l'intersezione, b 1 è il parametro di quale età viene moltiplicato quando si ottiene il monitoraggio dell'elevazione. Questo è un termine di errore. Cioè, presuppone che l' altezza sia prevista dall'età con un certo errore.
Un modulo valido deve corrispondere a tutti i punti informazioni. Pertanto, la direzione rettilinea (livello i=b 0 + b 1agei) non può essere un'equazione per un modello di dati - se non risponde chiaramente a tutti i punti. Cioèsenza eccezioni, tutte le informazioni giacciono perfettamente sulla linea. Il margine di errore εi deve essere inserito nell'equazione in modo che il modulo corrisponda assolutamente a tutte le informazioni.
Per fare un'inferenza statistica, dobbiamo prima assumere alcune distribuzioni di probabilità per ε i. Ad esempio, si può assumere che le distribuzioni di ε i abbiano una forma gaussiana con media nulla. In questo caso, il modello avrà 3 parametri: b 0, b 1 e la varianza della distribuzione gaussiana.
Puoi specificare formalmente il modello come (S, P).
In questo esempio, il modello è definito specificando S e quindi si possono fare alcune ipotesi su P. Ci sono due opzioni:
Questa crescita può essere approssimata da una funzione lineare dell'età;
Che gli errori nell'approssimazione siano distribuiti come all'interno di una gaussiana.
Osservazioni generali
I parametri statistici dei modelli sono una classe speciale di proiezione matematica. Cosa rende una specie diversa da un' altra? Quindi è che il modello statistico non è deterministico. Pertanto, in esso, a differenza delle equazioni matematiche, alcune variabili non hanno determinati valori, ma hanno invece una distribuzione di possibilità. Cioè, le singole variabili sono considerate stocastiche. Nell'esempio sopra, ε è una variabile stocastica. Senza di essa, la proiezione sarebbe deterministica.
La costruzione di un modello statistico viene spesso utilizzata, anche se il processo materiale è considerato deterministico. Ad esempio, lanciare monete è, in linea di principio, un'azione predeterminante. Tuttavia, questo è ancora nella maggior parte dei casi modellato come stocastico (attraverso un processo di Bernoulli).
Secondo Konishi e Kitagawa, ci sono tre obiettivi per un modello statistico:
- Pronostici.
- Estrazione di informazioni.
- Descrizione di strutture stocastiche.
Dimensione di proiezione
Supponiamo che ci sia un modello di previsione statistica, Il modello si dice parametrico se O ha una dimensione finita. Nella soluzione, devi scrivere che
dove k è un numero intero positivo (R sta per qualsiasi numero reale). Qui k è chiamata dimensione del modello.
Ad esempio, possiamo supporre che tutti i dati provengano da una distribuzione gaussiana univariata:
In questo esempio, la dimensione di k è 2.
E come altro esempio, si può presumere che i dati siano costituiti da (x, y) punti, che si presume siano distribuiti in linea retta con residui gaussiani (con media zero). Allora la dimensione del modello economico statistico è pari a 3: l'intersezione della retta, la sua pendenza e la varianza della distribuzione dei residui. Va notato che in geometria una retta ha una dimensione di 1.
Sebbene il valore sopra sia tecnicamente l'unico parametro che ha dimensione k, a volte si ritiene che contenga k valori distinti. Ad esempio, con una distribuzione gaussiana unidimensionale, O è l'unico parametro con una dimensione di 2, ma a volte si ritiene che ne contenga dueparametro individuale - valore medio e deviazione standard.
Un modello di processo statistico non è parametrico se l'insieme dei valori O è infinito-dimensionale. È anche semiparametrico se ha parametri sia a dimensione finita che a dimensione infinita. Formalmente, se k è una dimensione di O e n è il numero di campioni, i modelli semiparametrici e non parametrici hanno
allora il modello è semiparametrico. In caso contrario, la proiezione non è parametrica.
I modelli parametrici sono le statistiche più comunemente utilizzate. Per quanto riguarda le proiezioni semiparametriche e non parametriche, Sir David Cox ha dichiarato:
"In genere, implicano il minor numero di ipotesi sulla struttura e sulla forma della distribuzione, ma includono potenti teorie sull'autosufficienza."
Modelli nidificati
Non confonderli con le proiezioni multilivello.
Due modelli statistici vengono annidati se il primo può essere convertito nel secondo imponendo vincoli ai parametri del primo. Ad esempio, l'insieme di tutte le distribuzioni gaussiane ha un insieme nidificato di distribuzioni a media zero:
Ovvero, devi limitare la media nell'insieme di tutte le distribuzioni gaussiane per ottenere distribuzioni con media zero. Come secondo esempio, il modello quadratico y=b 0 + b 1 x + b 2 x 2 + ε, ε ~N (0, σ 2) ha un modello lineare incorporato y=b 0 + b 1 x + ε, ε ~ N (0,σ 2) - cioè il parametro b2 è uguale a 0.
In entrambi questi esempi, il primo modello ha una dimensionalità maggiore rispetto al secondo modello. Questo è spesso, ma non sempre. Un altro esempio è l'insieme delle distribuzioni gaussiane con media positiva, che ha dimensione 2.
Confronto di modelli
Si presume che esista una "vera" distribuzione di probabilità alla base dei dati osservati indotti dal processo che li ha generati.
E anche i modelli possono essere confrontati tra loro, utilizzando analisi esplorative o di conferma. In un'analisi esplorativa, vengono formulati diversi modelli e viene effettuata una valutazione di quanto bene ciascuno di essi descriva i dati. In un'analisi di conferma, l'ipotesi formulata in precedenza viene confrontata con quella originaria. I criteri comuni per questo includono P 2, fattore bayesiano e probabilità relativa.
Il pensiero di Konishi e Kitagawa
“La maggior parte dei problemi in un modello matematico statistico può essere pensata come domande predittive. Di solito sono formulati come confronti di diversi fattori.”
Inoltre, Sir David Cox ha detto: "Traducendo dall'argomento, il problema nel modello statistico è spesso la parte più importante dell'analisi."