Il metodo di raggruppamento è il compito di raggruppare un insieme di oggetti in modo tale che nello stesso gruppo siano più simili tra loro rispetto agli oggetti di altri settori. È il compito principale del data mining e una tecnica di analisi statistica generale utilizzata in molti campi, tra cui l'apprendimento automatico, il riconoscimento di modelli, il riconoscimento di immagini, il recupero di informazioni, la compressione dei dati e la computer grafica.
Problema di ottimizzazione
Il metodo di raggruppamento in sé non è un algoritmo specifico, ma un compito generale che deve essere risolto. Ciò può essere ottenuto con vari algoritmi che differiscono in modo significativo nella comprensione di cosa costituisce un gruppo e come trovarlo in modo efficiente. L'uso del metodo del clustering per la formazione di metasoggetti include l'uso di un gruppo conpiccole distanze tra membri, regioni dense di spazio, intervalli o determinate distribuzioni statistiche. Pertanto, il clustering può essere formulato come un problema di ottimizzazione multi-obiettivo.
Il metodo appropriato e le impostazioni dei parametri (inclusi elementi come la funzione di distanza da utilizzare, la soglia di densità o il numero di cluster previsti) dipendono dal singolo set di dati e dall'uso previsto dei risultati. L'analisi in quanto tale non è un compito automatico, ma un processo iterativo di scoperta della conoscenza o di ottimizzazione interattiva multi-obiettivo. Questo metodo di clustering include tentativi di tentativi ed errori. Spesso è necessario modificare la preelaborazione dei dati e i parametri del modello finché il risultato non raggiunge le proprietà desiderate.
Oltre al termine "raggruppamento", ci sono un certo numero di parole con significati simili, tra cui classificazione automatica, tassonomia numerica, siariologia e analisi tipologica. Sottili differenze risiedono spesso nell'uso del metodo di raggruppamento per formare relazioni di metasoggetto. Mentre nell'estrazione dei dati interessano i gruppi risultanti, nella classificazione automatica è già il potere discriminatorio che svolge queste funzioni.
L'analisi del cluster si basava su numerose opere di Kroeber nel 1932. Fu introdotto in psicologia da Zubin nel 1938 e da Robert Tryon nel 1939. E questi lavori sono stati utilizzati da Cattell dal 1943 per indicare la classificazione teorica dei metodi di raggruppamento.
Durata
Il concetto di "cluster" non può essere definito con precisione. Questo è uno dei motivi per cui esistono così tanti metodi di clustering. C'è un denominatore comune: un gruppo di oggetti dati. Tuttavia, diversi ricercatori utilizzano modelli diversi. E ciascuno di questi usi dei metodi di clustering coinvolge dati diversi. Il concetto trovato da vari algoritmi differisce significativamente nelle sue proprietà.
L'uso del metodo di raggruppamento è la chiave per comprendere le differenze tra le istruzioni. Tipici modelli di cluster includono:
- Centroide s. Questo è, ad esempio, quando k-medie clustering rappresenta ogni cluster con un vettore medio.
- Modelli di connettività s. Questo è, ad esempio, il clustering gerarchico, che costruisce modelli basati sulla connettività a distanza.
- Modello distributivo s. In questo caso, i cluster vengono modellati utilizzando il metodo del clustering per formare distribuzioni statistiche di metasoggetto. Come la separazione normale multivariata, applicabile all'algoritmo di massimizzazione delle aspettative.
- Modello di densità s. Questi sono, ad esempio, DBSCAN (Spatial Clustering Algorithm with Noise) e OPTICS (Order Points for Structure Detection), che definiscono i cluster come regioni dense connesse nello spazio dati.
- Modello subspaziale c. Nel biclustering (noto anche come co-clustering o due modalità), i gruppi sono modellati con entrambi gli elementi e con gli attributi appropriati.
- Modelli s. Alcuni algoritmi norelazione raffinata per il loro metodo di raggruppamento per generare risultati di meta-soggetto e fornire semplicemente raggruppamento di informazioni.
- Modello basato sul grafico s. Una cricca, cioè un sottoinsieme di nodi, tale che ogni due connessioni nella parte di bordo può essere considerata come un prototipo della forma del cluster. L'indebolimento della domanda totale è noto come quasi cricche. Esattamente lo stesso nome è presentato nell'algoritmo di clustering HCS.
- Modelli neurali s. La rete non supervisionata più conosciuta è la mappa auto-organizzata. E sono questi modelli che di solito possono essere caratterizzati come simili a uno o più dei metodi di raggruppamento di cui sopra per la formazione di risultati di meta-soggetto. Include i sistemi subspaziali quando le reti neurali implementano la forma necessaria di analisi dei componenti principali o indipendenti.
Questo termine è, in effetti, un insieme di tali gruppi, che di solito contengono tutti gli oggetti nell'insieme dei metodi di clustering dei dati. Inoltre, può indicare la relazione tra i cluster, ad esempio una gerarchia di sistemi integrati l'uno nell' altro. Il raggruppamento può essere suddiviso nei seguenti aspetti:
- Metodo di clustering del centroide rigido. Qui, ogni oggetto appartiene a un gruppo o ne è al di fuori.
- Sistema morbido o sfocato. A questo punto, ogni oggetto appartiene già in una certa misura a qualsiasi cluster. Viene anche chiamato metodo di clustering fuzzy c-means.
E sono anche possibili differenze più sottili. Ad esempio:
- Cluster di partizionamento rigoroso. Quiogni oggetto appartiene esattamente a un gruppo.
- Clustering di partizionamento rigoroso con valori anomali. In questo caso, gli oggetti potrebbero anche non appartenere a nessun cluster ed essere considerati non necessari.
- Clustering sovrapposto (anche alternativo, con viste multiple). Qui, gli oggetti possono appartenere a più di un ramo. Tipicamente coinvolgendo cluster solidi.
- Metodi di raggruppamento gerarchico. Gli oggetti appartenenti a un gruppo figlio appartengono anche al sottosistema padre.
- Formazione del sottospazio. Sebbene simili ai cluster sovrapposti, all'interno di un sistema definito in modo univoco, i gruppi reciproci non dovrebbero sovrapporsi.
Istruzioni
Come affermato sopra, gli algoritmi di clustering possono essere classificati in base al loro modello di cluster. La recensione seguente elencherà solo gli esempi più importanti di queste istruzioni. Dal momento che potrebbero esserci oltre 100 algoritmi pubblicati, non tutti forniscono modelli per i loro cluster e quindi non possono essere facilmente classificati.
Non esiste un algoritmo di clustering oggettivamente corretto. Ma, come notato sopra, l'istruzione è sempre nel campo visivo dell'osservatore. L'algoritmo di clustering più adatto per un particolare problema deve spesso essere scelto sperimentalmente, a meno che non vi sia una ragione matematica per preferire un modello rispetto a un altro. Va notato che un algoritmo progettato per un singolo tipo di solito non funziona conun set di dati che contiene un soggetto radicalmente diverso. Ad esempio, k-mean non riesce a trovare gruppi non convessi.
Cluster basato sulla connessione
Questa unione è anche conosciuta con il suo nome, il modello gerarchico. Si basa sull'idea tipica che gli oggetti siano più connessi alle parti vicine che a quelle molto più lontane. Questi algoritmi collegano gli oggetti, formando diversi cluster, a seconda della loro distanza. Un gruppo può essere descritto principalmente dalla distanza massima necessaria per collegare le diverse parti del cluster. A tutte le distanze possibili si formeranno altri gruppi, che possono essere rappresentati utilizzando un dendrogramma. Questo spiega da dove viene il nome comune "cluster gerarchico". Cioè, questi algoritmi non forniscono una singola partizione del set di dati, ma forniscono invece un ampio ordine di autorità. È grazie a lui che c'è uno scarico l'uno con l' altro a determinate distanze. In un dendrogramma, l'asse y indica la distanza alla quale i cluster si uniscono. E gli oggetti sono disposti lungo la linea X in modo che i gruppi non si mescolino.
Il clustering basato sulla connessione è un'intera famiglia di metodi che differiscono nel modo in cui calcolano le distanze. Oltre alla consueta scelta delle funzioni di distanza, l'utente deve anche decidere il criterio di connessione. Poiché un cluster è costituito da diversi oggetti, ci sono molte opzioni per calcolarlo. Una scelta popolare è nota come raggruppamento a leva singola, questo è il metodocollegamento completo, che contiene UPGMA o WPGMA (insieme non ponderato o pesato di coppie con media aritmetica, noto anche come raggruppamento di collegamenti medi). Inoltre, il sistema gerarchico può essere agglomerato (iniziando con singoli elementi e combinandoli in gruppi) o dividente (iniziando con un set di dati completo e suddividendolo in sezioni).
Raggruppamento distribuito
Questi modelli sono più strettamente correlati alle statistiche basate sulle divisioni. I cluster possono essere facilmente definiti come oggetti che molto probabilmente appartengono alla stessa distribuzione. Una caratteristica utile di questo approccio è che è molto simile al modo in cui vengono creati i set di dati artificiali. Campionando oggetti casuali da una distribuzione.
Sebbene le basi teoriche di questi metodi siano eccellenti, soffrono di un problema chiave, noto come overfitting, a meno che non vengano imposti limiti alla complessità del modello. Un'associazione più ampia di solito spiegherà meglio i dati, rendendo difficile la scelta del metodo giusto.
Modello di miscela gaussiana
Questo metodo utilizza tutti i tipi di algoritmi di massimizzazione delle aspettative. Qui, il set di dati viene solitamente modellato con un numero fisso (per evitare di sovrascrivere) di distribuzioni gaussiane inizializzate in modo casuale e i cui parametri sono ottimizzati in modo iterativo per adattarsi meglio al set di dati. Questo sistema convergerà verso un ottimo locale. Ecco perché diverse corse possono darerisultati diversi. Per ottenere il clustering più stretto, le funzionalità vengono spesso assegnate alla distribuzione gaussiana a cui è più probabile che appartengano. E per i gruppi più soft, questo non è necessario.
Il clustering basato sulla distribuzione crea modelli complessi che possono in definitiva catturare la correlazione e la dipendenza tra gli attributi. Tuttavia, questi algoritmi impongono un onere aggiuntivo per l'utente. Per molti set di dati del mondo reale, potrebbe non esserci un modello matematico definito in modo conciso (ad esempio, supponendo che una distribuzione gaussiana sia un'ipotesi abbastanza forte).
Raggruppamento basato sulla densità
In questo esempio, i gruppi sono sostanzialmente definiti come aree con un'impermeabilità maggiore rispetto al resto del set di dati. Gli oggetti in queste parti rare, che sono necessarie per separare tutti i componenti, sono generalmente considerati punti di disturbo e bordi.
Il metodo di clustering basato sulla densità più diffuso è DBSCAN (Spatial Noise Clustering Algorithm). A differenza di molti metodi più recenti, ha un componente cluster ben definito chiamato "raggiungibilità densità". Simile al clustering basato su collegamenti, si basa su punti di connessione entro determinate soglie di distanza. Tuttavia, questo metodo raccoglie solo gli elementi che soddisfano il criterio di densità. Nella versione originale, definita come il numero minimo di altri oggetti in questo raggio, il cluster è composto da tuttielementi relativi alla densità (che possono formare un gruppo in formato libero, a differenza di molti altri metodi) e tutti gli oggetti che rientrano nell'intervallo consentito.
Un' altra proprietà interessante di DBSCAN è che la sua complessità è piuttosto bassa - richiede un numero lineare di query di intervallo sul database. E anche insolito è che troverà essenzialmente gli stessi risultati (questo è deterministico per i punti core e noise, ma non per gli elementi di confine) in ogni corsa. Pertanto, non è necessario eseguirlo più volte.
Lo svantaggio principale di DBSCAN e OPTICS è che si aspettano un calo di densità per rilevare i confini dei cluster. Ad esempio, nei set di dati con distribuzioni gaussiane sovrapposte, un caso d'uso comune per gli oggetti artificiali, i confini dei cluster generati da questi algoritmi appaiono spesso arbitrari. Ciò accade perché la densità dei gruppi è in continua diminuzione. E in un set di dati misto gaussiano, questi algoritmi superano quasi sempre metodi come il clustering EM, che sono in grado di modellare accuratamente questi tipi di sistemi.
Lo spostamento medio è un approccio di raggruppamento in cui ogni oggetto si sposta nell'area più densa del vicinato sulla base di una stima dell'intero kernel. Alla fine, gli oggetti convergono ai massimi di impenetrabilità locale. Simile al clustering k-mean, questi "attrattori di densità" possono fungere da rappresentanti per un set di dati. Ma il cambiamento mediopuò rilevare cluster di forma arbitraria simili a DBSCAN. A causa della costosa procedura iterativa e della stima della densità, lo spostamento medio è solitamente più lento di DBSCAN o k-Means. Inoltre, l'applicabilità del tipico algoritmo di spostamento ai dati ad alta dimensione è difficile a causa del comportamento non uniforme della stima della densità del kernel, che porta a un'eccessiva frammentazione delle code del cluster.
Valutazione
Verificare i risultati del clustering è difficile quanto il clustering stesso. Gli approcci più diffusi includono il punteggio "interno" (in cui il sistema è ridotto a un'unica misura di qualità) e, naturalmente, il punteggio "esterno" (in cui il raggruppamento viene confrontato con una classificazione esistente di "verità di base"). E il punteggio manuale e il punteggio indiretto dell'esperto umano si trovano esaminando l'utilità del raggruppamento nell'applicazione prevista.
Le misure di bandiera interne soffrono del problema di rappresentare caratteristiche che possono essere considerate a loro volta obiettivi di clustering. Ad esempio, è possibile raggruppare i dati forniti dal coefficiente Silhouette, tranne per il fatto che non è noto un algoritmo efficiente per farlo. Utilizzando una tale misura interna per la valutazione, è meglio confrontare la somiglianza dei problemi di ottimizzazione.
Il segno esterno ha problemi simili. Se ci sono tali etichette di "verità di base", non è necessario raggruppare. E nelle applicazioni pratiche, di solito non ci sono tali concetti. D' altra parte, le etichette riflettono solo una possibile partizione del set di dati, il che non significache non ci sono altri cluster (forse anche migliori).
Quindi nessuno di questi approcci può in definitiva giudicare la qualità effettiva. Ma questo richiede una valutazione umana, che è altamente soggettiva. Tuttavia, tali statistiche possono essere utili per identificare i cluster danneggiati. Ma non si dovrebbe scartare la valutazione soggettiva di una persona.
Segno interno
Quando il risultato di un raggruppamento viene valutato in base ai dati che sono stati raggruppati a sua volta, questo termine viene chiamato. Questi metodi generalmente assegnano il miglior risultato a un algoritmo che crea gruppi con elevata somiglianza all'interno e bassa tra i gruppi. Uno degli svantaggi dell'utilizzo di criteri interni nella valutazione dei cluster è che i punteggi elevati non portano necessariamente a efficaci applicazioni di recupero delle informazioni. Inoltre, questo punteggio è sbilanciato verso algoritmi che utilizzano lo stesso modello. Ad esempio, il clustering di k-medie ottimizza naturalmente le distanze degli elementi ed è probabile che un criterio interno basato su di esso sovrastimi il clustering risultante.
Pertanto, queste misure di valutazione sono più adatte per avere un'idea delle situazioni in cui un algoritmo funziona meglio di un altro. Ma questo non significa che ogni informazione dia risultati più affidabili di altre. Il periodo di validità misurato da tale indice dipende dall'affermazione che la struttura esiste nel set di dati. Un algoritmo sviluppato per alcuni tipi non ha possibilità se l'insieme contiene radicalmentecomposizione diversa o se la valutazione misura criteri diversi. Ad esempio, il clustering di k-medie può trovare solo cluster convessi e molti indici di punteggio assumono lo stesso formato. In un set di dati con modelli non convessi, non è appropriato utilizzare k-medie e criteri di valutazione tipici.
Valutazione esterna
Con questo tipo di raggruppamento, i risultati del raggruppamento vengono valutati in base ai dati che non sono stati utilizzati per il raggruppamento. Ovvero, come etichette di classi note e test esterni. Tali domande consistono in un insieme di elementi pre-classificati e sono spesso creati da esperti (umani). In quanto tali, i kit di riferimento possono essere visti come il gold standard per la valutazione. Questi tipi di metodi di punteggio misurano la vicinanza del raggruppamento a determinate classi di riferimento. Tuttavia, è stato recentemente discusso se questo sia adeguato per dati reali o solo per insiemi sintetici con verità di base effettiva. Poiché le classi possono contenere una struttura interna e gli attributi esistenti potrebbero non consentire la separazione dei cluster. Inoltre, dal punto di vista della scoperta della conoscenza, la riproduzione di fatti noti potrebbe non produrre necessariamente il risultato atteso. In uno speciale scenario di clustering vincolato in cui le meta-informazioni (come le etichette di classe) sono già utilizzate nel processo di raggruppamento, non è banale conservare tutte le informazioni a scopo di valutazione.
Ora è chiaro cosa non si applica ai metodi di clustering e quali modelli vengono utilizzati per questi scopi.