Regressione logistica: modello e metodi

Sommario:

Regressione logistica: modello e metodi
Regressione logistica: modello e metodi
Anonim

I metodi di regressione logistica e analisi discriminante vengono utilizzati quando è necessario differenziare chiaramente gli intervistati per categorie target. In questo caso, i gruppi stessi sono rappresentati dai livelli di un parametro a singola variante. Diamo un'occhiata più da vicino al modello di regressione logistica e scopriamo perché è necessario.

regressione logistica
regressione logistica

Informazioni generali

Un esempio di problema in cui viene utilizzata la regressione logistica è la classificazione degli intervistati in gruppi che acquistano e non acquistano senape. La differenziazione viene effettuata in base alle caratteristiche socio-demografiche. Questi includono, in particolare, l'età, il sesso, il numero dei parenti, il reddito, ecc. Nell'attività ci sono criteri di differenziazione e una variabile. Quest'ultimo codifica le categorie target in cui, appunto, dovrebbero essere suddivisi gli intervistati.

Sfumature

Va detto che la gamma di casi in cui viene applicata la regressione logistica è molto più ristretta rispetto all'analisi discriminante. A questo proposito, si considera l'uso di quest'ultimo come metodo universale di differenziazionepiù preferito. Inoltre, gli esperti raccomandano di avviare studi di classificazione con analisi discriminanti. E solo in caso di incertezza sui risultati, puoi utilizzare la regressione logistica. Questa esigenza è dovuta a diversi fattori. La regressione logistica viene utilizzata quando c'è una chiara comprensione del tipo di variabili indipendenti e dipendenti. Di conseguenza, viene selezionata una delle 3 possibili procedure. Nell'analisi discriminante, il ricercatore si occupa sempre di un'operazione statica. Implica una variabile categoriale dipendente e diverse variabili indipendenti con qualsiasi tipo di scala.

Viste

Il compito di uno studio statistico che utilizza la regressione logistica è determinare la probabilità che un particolare intervistato venga assegnato a un particolare gruppo. La differenziazione viene effettuata in base a determinati parametri. In pratica, in base ai valori di uno o più fattori indipendenti, è possibile classificare gli intervistati in due gruppi. In questo caso avviene la regressione logistica binaria. Inoltre, i parametri specificati possono essere utilizzati quando si dividono in gruppi di più di due. In una situazione del genere, ha luogo la regressione logistica multinomiale. I gruppi risultanti sono espressi nei livelli di una singola variabile.

regressione logistica
regressione logistica

Esempio

Diciamo che ci sono risposte degli intervistati alla domanda se sono interessati all'offerta per l'acquisto di un appezzamento di terreno nella periferia di Mosca. Le opzioni sono "no"e sì. È necessario scoprire quali fattori hanno un'influenza predominante sulla decisione dei potenziali acquirenti. Per fare ciò, agli intervistati vengono poste domande sull'infrastruttura del territorio, la distanza dalla capitale, l'area del sito, la presenza/assenza di un edificio residenziale, ecc. Utilizzando la regressione binaria, è possibile distribuire gli intervistati in due gruppi. Il primo includerà coloro che sono interessati all'acquisizione - potenziali acquirenti e il secondo, rispettivamente, coloro che non sono interessati a tale offerta. Per ogni rispondente, inoltre, verrà calcolata la probabilità di essere assegnato all'una o all' altra categoria.

Caratteristiche comparative

La differenza dalle due opzioni sopra è il diverso numero di gruppi e il tipo di variabili dipendenti e indipendenti. Nella regressione binaria, ad esempio, viene studiata la dipendenza di un fattore dicotomico da una o più condizioni indipendenti. Quest'ultimo, inoltre, può avere qualsiasi tipo di scala. La regressione multinomiale è considerata una variazione di questa opzione di classificazione. In esso, più di 2 gruppi appartengono alla variabile dipendente. I fattori indipendenti devono avere una scala ordinale o nominale.

Regressione logistica in spss

Nel pacchetto statistico 11-12 è stata introdotta una nuova versione dell'analisi - ordinale. Questo metodo viene utilizzato quando il fattore dipendente appartiene alla scala con lo stesso nome (ordinale). In questo caso, vengono selezionate variabili indipendenti di un tipo specifico. Devono essere ordinali o nominali. La classificazione in più categorie è considerata la piùuniversale. Questo metodo può essere utilizzato in tutti gli studi che utilizzano la regressione logistica. Tuttavia, l'unico modo per migliorare la qualità di un modello è utilizzare tutte e tre le tecniche.

controllo qualità di adeguatezza e regressione logistica
controllo qualità di adeguatezza e regressione logistica

Classificazione ordinale

Va detto che in precedenza nel pacchetto statistico non c'era la possibilità tipica di eseguire analisi specializzate per fattori dipendenti con scala ordinale. Per tutte le variabili con più di 2 gruppi è stata utilizzata la variante multinominale. L'analisi ordinale introdotta di recente ha una serie di caratteristiche. Tengono conto delle specificità della scala. Nel frattempo, nei sussidi didattici, la regressione logistica ordinale spesso non è considerata una tecnica separata. Ciò è dovuto a quanto segue: l'analisi ordinale non presenta vantaggi significativi rispetto al multinomiale. Il ricercatore può benissimo utilizzare quest'ultimo in presenza sia di una variabile ordinale che di una variabile dipendente nominale. Allo stesso tempo, i processi di classificazione stessi quasi non differiscono l'uno dall' altro. Ciò significa che l'esecuzione dell'analisi ordinale non causerà alcuna difficoltà.

Opzione analisi

Consideriamo un caso semplice: la regressione binaria. Supponiamo che, nel processo di ricerca di mercato, venga valutata la domanda di laureati di una determinata università metropolitana. Nel questionario, agli intervistati sono state poste domande, tra cui:

  1. Sei impiegato? (ql).
  2. Inserisci l'anno di laurea (q 21).
  3. Qual è la mediapunteggio di laurea (media).
  4. Sesso (q22).

La regressione logistica valuterà l'impatto dei fattori indipendenti aver, q 21 e q 22 sulla variabile ql. In poche parole, lo scopo dell'analisi sarà quello di determinare la probabile occupazione dei laureati in base alle informazioni sul campo, sull'anno di laurea e sul GPA.

indicatore di regressione sigmoidea logistica
indicatore di regressione sigmoidea logistica

Regressione logistica

Per impostare i parametri utilizzando la regressione binaria, utilizzare il menu Analizza►Regressione►Logistica binaria. Nella finestra Regressione logistica, selezionare il fattore dipendente dall'elenco delle variabili disponibili a sinistra. È ql. Questa variabile deve essere inserita nel campo Dipendente. Successivamente, è necessario introdurre fattori indipendenti nel grafico delle Covariate - q 21, q 22, aver. Quindi devi scegliere come includerli nella tua analisi. Se il numero di fattori indipendenti è superiore a 2, viene utilizzato il metodo di introduzione simultanea di tutte le variabili, impostato per impostazione predefinita, ma passo dopo passo. Il modo più popolare è Indietro:LR. Usando il pulsante Seleziona, puoi includere nello studio non tutti gli intervistati, ma solo una specifica categoria target.

Definisci variabili categoriali

Il pulsante Categorico deve essere utilizzato quando una delle variabili indipendenti è nominale con più di 2 categorie. In questa situazione, nella finestra Definisci variabili categoriali, proprio tale parametro viene inserito nella sezione Covariate categoriali. In questo esempio, non esiste una tale variabile. Successivamente, nell'elenco a discesa segue Contrastoselezionare la voce Deviazione e premere il pulsante Modifica. Di conseguenza, da ciascun fattore nominale verranno formate diverse variabili dipendenti. Il loro numero corrisponde al numero di categorie della condizione iniziale.

Salva nuove variabili

Utilizzando il pulsante Salva nella finestra di dialogo principale dello studio, viene impostata la creazione di nuovi parametri. Conterranno gli indicatori calcolati nel processo di regressione. In particolare, puoi creare variabili che definiscono:

  1. Appartenente a una specifica categoria di classificazione (appartenenza al gruppo).
  2. Probabilità di assegnare un rispondente a ciascun gruppo di studio (Probabilità).

Quando si utilizza il pulsante Opzioni, il ricercatore non ottiene alcuna opzione significativa. Di conseguenza, può essere ignorato. Dopo aver cliccato sul pulsante "OK", i risultati dell'analisi verranno visualizzati nella finestra principale.

coefficiente di regressione logistica
coefficiente di regressione logistica

Controllo di qualità per l'adeguatezza e la regressione logistica

Considera la tabella Omnibus Testsof Model Coefficients. Visualizza i risultati dell'analisi della qualità dell'approssimazione del modello. A causa del fatto che è stata impostata un'opzione passo-passo, è necessario guardare i risultati dell'ultima fase (Fase 2). Un risultato positivo sarà considerato se si riscontra un aumento dell'indicatore Chi-quadrato quando si passa alla fase successiva con un alto grado di significatività (Sig. < 0,05). La qualità del modello viene valutata nella riga Modello. Se si ottiene un valore negativo, ma ritenuto non significativo con l'elevata materialità complessiva del modello, l'ultimopuò essere considerato praticamente idoneo.

Tabelle

Model Summary permette di stimare l'indice di varianza totale, che è descritto dal modello costruito (indice R Square). Si consiglia di utilizzare il valore di Nagelker. Il parametro Nagelkerke R Square può essere considerato un indicatore positivo se è superiore a 0,50. Successivamente vengono valutati i risultati della classificazione, in cui gli indicatori effettivi di appartenenza all'una o all' altra categoria oggetto di studio vengono confrontati con quelli previsti in base al modello di regressione. Per questo viene utilizzata la tabella di classificazione. Ci consente inoltre di trarre conclusioni sulla correttezza della differenziazione per ciascun gruppo in esame.

modello di regressione logistica
modello di regressione logistica

La tabella seguente offre l'opportunità di scoprire la significatività statistica dei fattori indipendenti inseriti nell'analisi, nonché di ciascun coefficiente di regressione logistica non standardizzato. Sulla base di questi indicatori è possibile prevedere l'appartenenza di ciascun intervistato del campione a un determinato gruppo. Usando il pulsante Salva, puoi inserire nuove variabili. Conterranno informazioni sull'appartenenza a una particolare categoria di classificazione (categoria prevista) e sulla probabilità di essere inclusi in questi gruppi (appartenenza alle probabilità previste). Dopo aver cliccato su "OK", i risultati del calcolo appariranno nella finestra principale di Regressione logistica multinomiale.

La prima tabella, che contiene indicatori importanti per il ricercatore, è Model Fitting Information. Un alto livello di significatività statistica indicherebbe un'elevata qualità eidoneità all'uso del modello nella risoluzione di problemi pratici. Un' altra tabella significativa è Pseudo R-Square. Consente di stimare la proporzione della varianza totale nel fattore dipendente, che è determinata dalle variabili indipendenti selezionate per l'analisi. Secondo la tabella dei test del rapporto di verosimiglianza, possiamo trarre conclusioni sulla significatività statistica di quest'ultimo. Le stime dei parametri riflettono coefficienti non standardizzati. Sono usati nella costruzione dell'equazione. Inoltre, per ciascuna combinazione di variabili è stata determinata la significatività statistica del loro impatto sul fattore dipendente. Nel frattempo, nelle ricerche di mercato, diventa spesso necessario differenziare gli intervistati per categoria non individualmente, ma come parte del gruppo target. Per questo viene utilizzata la tabella delle frequenze osservate e previste.

Applicazione pratica

Il metodo di analisi considerato è ampiamente utilizzato nel lavoro dei trader. Nel 1991 è stato sviluppato l'indicatore di regressione sigmoidea logistica. È uno strumento facile da usare ed efficace per prevedere i prezzi probabili prima che si "surriscaldano". L'indicatore è mostrato sul grafico come un canale formato da due linee parallele. Sono ugualmente distanziati dalla tendenza. La larghezza del corridoio dipenderà esclusivamente dal periodo di tempo. L'indicatore viene utilizzato quando si lavora con quasi tutti gli asset, dalle coppie di valute ai metalli preziosi.

regressione logistica in spss
regressione logistica in spss

In pratica sono state sviluppate 2 strategie chiave per l'utilizzo dello strumento: per breakout eper un turno. In quest'ultimo caso, il trader si concentrerà sulla dinamica delle variazioni di prezzo all'interno del canale. Quando il valore si avvicina alla linea di supporto o resistenza, si scommette sulla probabilità che il movimento inizi nella direzione opposta. Se il prezzo si avvicina al bordo superiore, puoi sbarazzarti dell'asset. Se è al limite inferiore, dovresti pensare all'acquisto. La strategia di breakout prevede l'uso degli ordini. Sono installati al di fuori dei limiti a una distanza relativamente piccola. Tenendo conto che il prezzo in alcuni casi li viola per un breve periodo, dovresti giocare sul sicuro e impostare stop loss. Allo stesso tempo, ovviamente, indipendentemente dalla strategia scelta, il trader deve percepire e valutare la situazione che si è creata sul mercato con la massima calma possibile.

Conclusione

Quindi, l'uso della regressione logistica consente di classificare rapidamente e facilmente gli intervistati in categorie in base ai parametri forniti. Durante l'analisi, è possibile utilizzare qualsiasi metodo particolare. In particolare, la regressione multinomiale è universale. Tuttavia, gli esperti raccomandano di utilizzare tutti i metodi sopra descritti in combinazione. Ciò è dovuto al fatto che in questo caso la qualità del modello sarà notevolmente superiore. Questo, a sua volta, amplierà la gamma della sua applicazione.

Consigliato: