Nel corso della storia delle statistiche, sono stati fatti vari tentativi per creare una tassonomia dei livelli di misurazione. Lo psicofisico Stanley Smith Stevens ha definito scale nominali, ordinali, di intervallo e proporzionali.
Le misurazioni nominali non hanno un ordine significativo di ranghi tra i valori e consentono qualsiasi conversione uno a uno.
Le dimensioni normali hanno differenze inesatte tra valori consecutivi, ma hanno un ordine specifico di quei valori e consentono qualsiasi trasformazione di conservazione dell'ordine.
Le misurazioni degli intervalli hanno distanze significative tra i punti, ma il valore zero è arbitrario (come nel caso delle misurazioni della longitudine e della temperatura in gradi Celsius o Fahrenheit) e consente qualsiasi trasformazione lineare.
Le dimensioni del rapporto hanno sia un valore zero significativo che distanze tra dimensioni diverse e consentono qualsiasi trasformazione in scala.
Variabili e classificazione delle informazioni
Perché le variabilicorrispondenti solo a misurazioni nominali o ordinali non possono essere ragionevolmente misurate numericamente e talvolta sono raggruppate come variabili categoriali. Le misurazioni del rapporto e dell'intervallo sono raggruppate come variabili quantitative, che possono essere discrete o continue a causa della loro natura numerica. Tali distinzioni sono spesso vagamente correlate al tipo di dati nell'informatica, poiché le variabili categoriali dicotomiche possono essere rappresentate da valori booleani, variabili categoriali politomiche con interi arbitrari in un tipo di dati integrale e variabili continue con componenti reali che implicano il calcolo in virgola mobile. Ma la visualizzazione dei tipi di dati delle informazioni statistiche dipende dalla classificazione applicata.
Altre classificazioni
Sono state create anche altre classificazioni di dati statistici (informazioni). Ad esempio, Mosteller e Tukey hanno distinto tra voti, gradi, azioni contate, conteggi, importi e saldi. Nelder una volta descrisse conteggi continui, rapporti continui, correlazione dei conteggi e modi categorici di comunicazione dei dati. Tutti questi metodi di classificazione vengono utilizzati nella raccolta di informazioni statistiche.
Problemi
La questione se sia opportuno applicare diversi tipi di metodi statistici ai dati ottenuti attraverso diverse procedure di misurazione (raccolta) è complicata da questioni relative alla conversione delle variabili e all'interpretazione precisa delle domandericerca. “La relazione tra i dati e ciò che descrive riflette semplicemente il fatto che alcuni tipi di affermazioni statistiche possono avere valori di verità che non sono invarianti rispetto a determinate trasformazioni. Se vale la pena considerare la trasformazione dipende dalla domanda a cui stai cercando di rispondere.
Che cos'è un tipo di dati
Il tipo di dati è una componente fondamentale del contenuto semantico di una variabile e controlla quali tipi di distribuzioni di probabilità possono essere logicamente utilizzate per descrivere la variabile, le operazioni consentite su di essa, il tipo di analisi di regressione utilizzata per prevederla, ecc. Il concetto di tipo di dati è simile sul concetto di livello di misurazione, ma più specifico: ad esempio, i conteggi dei dati richiedono una distribuzione diversa (Poisson o binomiale) rispetto ai valori reali non negativi, ma entrambi rientrano nella stessa livello di misura (scala del coefficiente).
Bilancia
Sono stati fatti vari tentativi per creare una tassonomia dei livelli di misurazione per l'elaborazione delle informazioni statistiche. Lo psicofisico Stanley Smith Stevens ha definito scale nominali, ordinali, di intervallo e proporzionali. Le misurazioni nominali non hanno un ordine di rango significativo tra i valori e consentono qualsiasi conversione uno a uno. Le misurazioni ordinarie hanno differenze imprecise tra valori successivi, ma differiscono nell'ordine significativo di quei valori e consentonoqualsiasi trasformazione di conservazione dell'ordine. Le misurazioni a intervalli hanno distanze significative tra le misurazioni, ma il valore zero è arbitrario (come nel caso delle misurazioni di longitudine e temperatura in Celsius o Fahrenheit) e consente qualsiasi trasformazione lineare. Le dimensioni del rapporto hanno sia un valore zero significativo che distanze tra diverse dimensioni definite e consentono qualsiasi trasformazione in scala.
I dati che non possono essere descritti utilizzando un singolo numero sono spesso inclusi nei vettori casuali di variabili casuali reali, sebbene vi sia una tendenza crescente a elaborarli da soli. Tali esempi saranno discussi di seguito.
Vettori casuali
I singoli elementi possono o non possono essere correlati. Esempi di distribuzioni utilizzate per descrivere vettori casuali correlati sono la distribuzione normale multivariata e la distribuzione t multivariata. In generale, possono esserci correlazioni arbitrarie tra qualsiasi elemento, tuttavia questo spesso diventa ingestibile al di sopra di una certa dimensione, richiedendo vincoli aggiuntivi sui componenti correlati.
Matrici casuali
Le matrici casuali possono essere disposte linearmente e trattate come vettori casuali, tuttavia questo potrebbe non essere un modo efficiente per rappresentare le correlazioni tra elementi diversi. Alcune distribuzioni di probabilità sono progettate specificamente per matrici casuali, come la matrice normaledistribuzione e distribuzione Wishart.
Sequenze casuali
A volte sono considerati come vettori casuali, ma in altri casi il termine viene applicato specificamente ai casi in cui ogni variabile casuale è correlata solo con variabili vicine (come in un modello di Markov). Questo è un caso speciale della rete bayesiana e viene utilizzato per sequenze molto lunghe, come catene di geni o lunghi documenti di testo. Numerosi modelli sono appositamente progettati per tali sequenze, come le sequenze Markov nascoste.
Processi casuali
Sono simili a sequenze casuali, ma solo quando la lunghezza della sequenza è indefinita o infinita e gli elementi nella sequenza vengono elaborati uno per uno. Viene spesso utilizzato per dati che possono essere descritti come serie temporali. Questo è vero quando si tratta, ad esempio, del prezzo delle azioni il giorno successivo.
Conclusione
L'analisi delle informazioni statistiche dipende interamente dalla qualità della loro raccolta. Quest'ultimo, a sua volta, è fortemente legato alle possibilità della sua classificazione. Naturalmente, ci sono molti tipi di classificazione delle informazioni statistiche, che il lettore potrebbe vedere da solo durante la lettura di questo articolo. Tuttavia, la presenza di strumenti efficaci e una buona padronanza della matematica, oltre a conoscenze nel campo della sociologia, faranno il loro lavoro, consentendo di condurre qualsiasi indagine o studio senza correzioni di errore significative. Fonti di informazioni statistiche nel modulopersone, organizzazioni e altri soggetti della sociologia, fortunatamente, sono rappresentati in grande abbondanza. E nessuna difficoltà può ostacolare un vero esploratore.