Ridimensionamento multidimensionale: definizione, obiettivi, obiettivi ed esempio

Sommario:

Ridimensionamento multidimensionale: definizione, obiettivi, obiettivi ed esempio
Ridimensionamento multidimensionale: definizione, obiettivi, obiettivi ed esempio
Anonim

Il ridimensionamento multivariato (MDS) è uno strumento per visualizzare il livello di somiglianza dei singoli casi in un set di dati. Si riferisce a un insieme di metodi di ordinazione correlati utilizzati nella visualizzazione delle informazioni, in particolare per visualizzare le informazioni contenute in una matrice di distanza. Questa è una forma di riduzione della dimensionalità non lineare. L'algoritmo MDS mira a posizionare ogni oggetto in uno spazio N-dimensionale in modo tale che le distanze tra gli oggetti siano preservate nel miglior modo possibile. A ogni oggetto vengono quindi assegnate le coordinate in ciascuna delle N dimensioni.

Il numero di dimensioni del grafico MDS può superare 2 ed è specificato a priori. Selezionando N=2 si ottimizza il posizionamento degli oggetti per il grafico a dispersione 2D. Puoi vedere esempi di ridimensionamento multidimensionale nelle immagini nell'articolo. Esempi con simboli in russo sono particolarmente illustrativi.

Ridimensionamento multidimensionale
Ridimensionamento multidimensionale

Essenza

Metodo di ridimensionamento multidimensionale (MMS,MDS) è un insieme esteso di strumenti classici che generalizza la procedura di ottimizzazione per un insieme di funzioni di perdita e matrici di input di distanze note con pesi e così via. In questo contesto, un'utile funzione di perdita è chiamata stress, che è spesso minimizzata da una procedura chiamata stress majorization.

Manuale

Ci sono diverse opzioni per il ridimensionamento multidimensionale. I programmi MDS riducono automaticamente al minimo il carico per ottenere una soluzione. Il nucleo dell'algoritmo MDS non metrico è un duplice processo di ottimizzazione. In primo luogo, deve essere trovata la trasformazione di prossimità monotona ottimale. In secondo luogo, i punti di configurazione devono essere posizionati in modo ottimale in modo che le loro distanze corrispondano il più possibile ai valori di prossimità scalati.

Esempio di ridimensionamento multidimensionale
Esempio di ridimensionamento multidimensionale

Espansione

Un'estensione del ridimensionamento multidimensionale metrico nelle statistiche in cui lo spazio target è uno spazio arbitrario liscio non euclideo. Dove le differenze sono distanze su una superficie e lo spazio target è una superficie diversa. I programmi tematici consentono di trovare un allegato con una distorsione minima di una superficie nell' altra.

Passaggi

Ci sono diversi passaggi per condurre uno studio utilizzando il ridimensionamento multivariato:

  1. Formulazione del problema. Quali variabili vuoi confrontare? Quante variabili vuoi confrontare? A quale scopo verrà utilizzato lo studio?
  2. Ottenere i dati di input. Agli intervistati vengono poste una serie di domande. Per ogni coppia di prodotti, viene chiesto loro di valutare la somiglianza (di solito su una scala Likert a 7 punti da molto simile a molto dissimile). La prima domanda potrebbe essere per Coca-Cola/Pepsi, ad esempio, la successiva per la birra, la successiva per Dr. Pepper, ecc. Il numero di domande dipende dal numero di marche.
Ridimensionamento della distanza
Ridimensionamento della distanza

Approcci alternativi

Ci sono altri due approcci. Esiste una tecnica chiamata "Dati percettivi: approccio derivato" in cui i prodotti vengono scomposti in attributi e la valutazione viene eseguita su una scala differenziale semantica. Un altro metodo è l'"approccio dei dati di preferenza", in cui agli intervistati vengono poste domande sulle preferenze piuttosto che sulle somiglianze.

Si compone dei seguenti passaggi:

  1. Lancio del programma statistico MDS. Il software per eseguire la procedura è disponibile in molti pacchetti software statistici. C'è spesso una scelta tra MDS metrici (che tratta dati a livello di intervallo o rapporto) e MDS non metrici (che tratta dati ordinali).
  2. Determinazione del numero di misurazioni. Il ricercatore deve determinare il numero di misurazioni che vuole creare sul computer. Maggiore è il numero di misurazioni, migliore è l'adattamento statistico, ma più difficile è interpretare i risultati.
  3. Visualizza i risultati e definisci le misurazioni - il programma statistico (o il relativo modulo) visualizzerà i risultati. La mappa visualizzerà ogni prodotto (di solito in 2D).spazio). La vicinanza dei prodotti tra loro indica la loro somiglianza o preferenza, a seconda dell'approccio utilizzato. Tuttavia, non è sempre chiaro come le misurazioni corrispondano effettivamente alle misurazioni del comportamento del sistema. Qui può essere espresso un giudizio soggettivo di conformità.
  4. Controlla l'affidabilità e la validità dei risultati: calcola R-quadrato per determinare la proporzione della varianza dei dati in scala che può essere considerata dalla procedura MDS. Il quadrato R 0,6 è considerato il livello minimo accettabile. R al quadrato 0,8 è considerato buono per il ridimensionamento metrico, mentre 0,9 è considerato buono per il ridimensionamento non metrico.
Risultati di ridimensionamento multivariato
Risultati di ridimensionamento multivariato

Test vari

Altri test possibili sono stress test di tipo Kruskal, test di dati divisi, test di stabilità dei dati e test di affidabilità di nuovo test. Scrivi in dettaglio i risultati del test. Insieme alla mappatura, deve essere specificata almeno una misura della distanza (es. indice di Sorenson, indice di Jaccard) e dell'affidabilità (es. valore dello stress).

È anche altamente desiderabile fornire un algoritmo (ad es. Kruskal, Mather) che è spesso determinato dal programma utilizzato (a volte sostituendo il rapporto dell'algoritmo), se hai fornito una configurazione iniziale o hai avuto una scelta casuale, numero di esecuzioni dimensionali, risultati Monte Carlo, numero di iterazioni, punteggio di stabilità e varianza proporzionale di ciascun asse (r-quadrato).

Informazioni visive e metodo di analisi dei datiridimensionamento multidimensionale

La visualizzazione delle informazioni è lo studio di rappresentazioni interattive (visive) di dati astratti per migliorare la cognizione umana. I dati astratti includono dati sia numerici che non numerici come informazioni testuali e geografiche. Tuttavia, la visualizzazione delle informazioni differisce dalla visualizzazione scientifica: "è informativa (visualizzazione delle informazioni) quando viene scelta una rappresentazione spaziale e scivis (visualizzazione scientifica) quando viene fornita una rappresentazione spaziale".

Il campo della visualizzazione delle informazioni è emerso dalla ricerca sull'interazione uomo-computer, sulle applicazioni informatiche, sulla grafica, sul design visivo, sulla psicologia e sui metodi aziendali. Viene sempre più utilizzato come componente essenziale nella ricerca scientifica, nelle biblioteche digitali, nel data mining, nei dati finanziari, nelle ricerche di mercato, nel controllo della produzione e così via.

Metodi e principi

La visualizzazione delle informazioni suggerisce che i metodi di visualizzazione e interazione traggono vantaggio dalla ricchezza della percezione umana, consentendo agli utenti di vedere, esplorare e comprendere simultaneamente grandi quantità di informazioni. La visualizzazione delle informazioni mira a creare approcci per comunicare dati astratti, informazioni in modo intuitivo.

Ridimensionamento multidimensionale del colore
Ridimensionamento multidimensionale del colore

L'analisi dei dati è parte integrante di tutta la ricerca applicata e la risoluzione dei problemi nell'industria. Maggior parteGli approcci fondamentali all'analisi dei dati sono la visualizzazione (istogrammi, grafici a dispersione, grafici di superficie, mappe ad albero, grafici a coordinate parallele, ecc.), la statistica (test di ipotesi, regressione, PCA, ecc.), l'analisi dei dati (matching, ecc.)..d.) e metodi di machine learning (clustering, classificazione, alberi decisionali, ecc.).

Tra questi approcci, la visualizzazione delle informazioni o l'analisi dei dati visivi è la più dipendente dalle capacità cognitive del personale analitico e consente la scoperta di intuizioni attuabili non strutturate che sono limitate solo dall'immaginazione e dalla creatività umana. Un analista non ha bisogno di apprendere tecniche complesse per essere in grado di interpretare le visualizzazioni dei dati. La visualizzazione delle informazioni è anche uno schema di generazione di ipotesi che può ed è solitamente accompagnato da analisi più analitiche o formali come la verifica di ipotesi statistiche.

Studio

Il moderno studio della visualizzazione è iniziato con la computer grafica, che "fin dall'inizio è stata utilizzata per studiare problemi scientifici. Tuttavia, nei primi anni, la mancanza di potenza grafica ne limitava spesso l'utilità. È iniziata la priorità sulla visualizzazione da sviluppare nel 1987, con il rilascio di un software speciale per la computer grafica e la visualizzazione nell'informatica scientifica Da allora, ci sono state diverse conferenze e workshop organizzati congiuntamente dalla IEEE Computer Society e ACM SIGGRAPH".

Hanno trattato gli argomenti generali della visualizzazione dei dati, della visualizzazione delle informazioni e della visualizzazione scientifica,così come aree più specifiche come il rendering del volume.

Ridimensionamento multidimensionale del marchio
Ridimensionamento multidimensionale del marchio

Riepilogo

Il ridimensionamento multidimensionale generalizzato (GMDS) è un'estensione del ridimensionamento multidimensionale metrico in cui lo spazio target non è euclideo. Quando le differenze sono le distanze su una superficie e lo spazio target è un' altra superficie, GMDS consente di trovare l'annidamento di una superficie nell' altra con una distorsione minima.

GMDS è una nuova linea di ricerca. Attualmente, le principali applicazioni sono il riconoscimento di oggetti deformabili (ad esempio per il riconoscimento facciale 3D) e la mappatura delle texture.

Lo scopo del ridimensionamento multidimensionale è rappresentare dati multidimensionali. I dati multidimensionali, ovvero i dati che richiedono più di due o tre dimensioni per essere rappresentati, possono essere difficili da interpretare. Un approccio alla semplificazione consiste nell'assumere che i dati di interesse si trovino su una varietà non lineare incorporata in uno spazio ad alta dimensione. Se il raccoglitore ha una dimensione sufficientemente bassa, i dati possono essere visualizzati in uno spazio a bassa dimensione.

Molti dei metodi di riduzione della dimensionalità non lineare sono correlati a metodi lineari. I metodi non lineari possono essere classificati in due gruppi: quelli che forniscono la mappatura (da uno spazio ad alta dimensione all'incorporamento a bassa dimensione o viceversa) e quelli che forniscono semplicemente la visualizzazione. Nel contesto dell'apprendimento automatico, i metodi di mappatura possono essere visti comeuna fase preliminare di estrazione delle caratteristiche, dopo la quale vengono applicati algoritmi di riconoscimento dei modelli. Di solito quelli che forniscono solo visualizzazioni si basano su dati di prossimità, ovvero misurazioni della distanza. Il ridimensionamento multidimensionale è anche abbastanza comune in psicologia e altre discipline umanistiche.

Ridimensionamento multidimensionale diagonale
Ridimensionamento multidimensionale diagonale

Se il numero di attributi è grande, anche lo spazio delle possibili stringhe univoche è esponenzialmente grande. Pertanto, più grande è la dimensione, più difficile diventa rappresentare lo spazio. Questo causa molti problemi. Gli algoritmi che operano su dati ad alta dimensione tendono ad avere una complessità temporale molto elevata. La riduzione dei dati a un numero inferiore di dimensioni spesso rende gli algoritmi di analisi più efficienti e può aiutare gli algoritmi di apprendimento automatico a fare previsioni più accurate. Questo è il motivo per cui il ridimensionamento dei dati multidimensionali è così popolare.

Consigliato: