Il data mining è Concetto, analisi dell'algoritmo, scopo e applicazione

2026 Autore: Angel Austin | austin@vogueindustry.com. Ultima modifica: 2025-01-23 12:25:53

Lo sviluppo della tecnologia dell'informazione porta risultati pratici. Ma attività come la ricerca, l'analisi e l'utilizzo delle informazioni non hanno ancora ricevuto uno strumento efficace e di alta qualità. Ci sono strumenti analitici e quantitativi, funzionano davvero. Ma una rivoluzione qualitativa nell'uso delle informazioni non è ancora avvenuta.

Molto prima dell'avvento della tecnologia informatica, una persona aveva bisogno di elaborare grandi quantità di informazioni e gestirle al meglio della sua esperienza e delle capacità tecniche disponibili.

Lo sviluppo delle conoscenze e delle abilità ha sempre soddisfatto i bisogni reali e corrispondeva ai compiti attuali. Il data mining è un nome collettivo utilizzato per riferirsi a un insieme di metodi per scoprire conoscenze precedentemente sconosciute, non banali, praticamente utili e accessibili nei dati, necessarie per prendere decisioni in varie aree dell'attività umana.

Umano, intelligenza, programmazione

Una persona sa sempre come agire in ogni situazione. L'ignoranza o una situazione non familiare non gli impediscono di prendere una decisione. L'obiettività e la ragionevolezza di qualsiasi decisione umana possono essere messe in dubbio, ma sarà accettata.

L'intelligenza si basa su: "meccanismo" ereditario, conoscenza acquisita, attiva. La conoscenza viene applicata per risolvere i problemi che sorgono prima di una persona.

L'intelligenza è un insieme unico di conoscenze e abilità: opportunità e basi per la vita umana e il lavoro.
L'intelligenza è in continua evoluzione e le azioni umane hanno un impatto sulle altre persone.

La programmazione è il primo tentativo di formalizzare la rappresentazione dei dati e il processo di creazione degli algoritmi.

L'intelligenza artificiale (AI) è una perdita di tempo e risorse, ma i risultati dei tentativi falliti del secolo scorso nel campo dell'IA sono rimasti nella memoria, sono stati utilizzati in vari sistemi esperti (intelligenti) e sono stati trasformati, in particolare, negli algoritmi (regole) e nell'analisi dei dati matematici (logici) e nel Data Mining.

Informazioni e la solita ricerca di una soluzione

Una normale biblioteca è un deposito di conoscenza, e la parola stampata e la grafica non hanno ancora ceduto il palmo alla tecnologia informatica. I libri di fisica, chimica, meccanica teorica, design, storia naturale, filosofia, scienze naturali, botanica, libri di testo, monografie, opere di scienziati, materiali per conferenze, relazioni sul lavoro di sviluppo, ecc. sono sempre pertinenti e affidabili.

La libreria contiene molte fonti diverse che differisconoforma di presentazione del materiale, origine, struttura, contenuto, stile di presentazione, ecc.

Biblioteca: libri, riviste e altri stampati

Esteriormente tutto è visibile (leggibile, accessibile) per essere compreso e utilizzato. Puoi risolvere qualsiasi problema, impostare correttamente il compito, giustificare la soluzione, scrivere un saggio o una tesina, selezionare materiale per un diploma, analizzare le fonti sull'argomento di una dissertazione o di una relazione scientifica e analitica.

Qualsiasi problema di informazioni può essere risolto. Con la dovuta costanza e competenza si otterrà un risultato accurato e affidabile. In questo contesto, il Data Mining è un approccio completamente diverso.

Oltre al risultato, una persona riceve "collegamenti attivi" a tutto ciò che è stato visualizzato nel processo di raggiungimento dell'obiettivo. Le fonti che ha utilizzato per risolvere il problema possono essere riferite e nessuno contesterà il fatto dell'esistenza della fonte. Questa non è una garanzia di autenticità, ma è una testimonianza certa a cui è “cancellata” la responsabilità dell'autenticità. Da questo punto di vista, Data Mining significa grossi dubbi sull'affidabilità e nessun link "attivo".

Risolvendo diversi problemi, una persona ottiene risultati ed espande il suo potenziale intellettuale a molti "collegamenti attivi". Se un nuovo compito “attiva” un link già esistente, la persona saprà come risolverlo: non è necessario cercare nulla di nuovo.

"Link attivo" è un'associazione fissa: come e cosa fare in un caso particolare. Il cervello umano ricorda automaticamente tutto ciò che gli sembra potenzialmente interessante, utile.o probabilmente sarà necessario in futuro. In molti modi, questo accade a livello inconscio, ma non appena sorge un compito che può essere associato a un "collegamento attivo", viene immediatamente visualizzato nella mente e si otterrà una soluzione senza ulteriori ricerche di informazioni. Il data mining è sempre una ripetizione dell'algoritmo di ricerca e questo algoritmo non cambia.

Ricerca regolare: problemi "artistici"

Libreria di matematica e la ricerca di informazioni in essa è un compito relativamente debole. Trovare un modo o nell' altro per risolvere un integrale, costruire una matrice o eseguire l'operazione di somma di due numeri immaginari è laborioso, ma semplice. Devi ordinare un certo numero di libri, molti dei quali sono scritti in una lingua specifica, trovare il testo giusto, studiarlo e ottenere la soluzione richiesta.

Nel tempo, l'enumerazione diventerà familiare e l'esperienza accumulata ti consentirà di navigare tra le informazioni della biblioteca e altri problemi matematici. Questo è uno spazio informativo limitato di domande e risposte. Una caratteristica: una tale ricerca di informazioni accumula conoscenze per risolvere problemi simili. La ricerca di informazioni da parte di una persona lascia tracce ("collegamenti attivi") nella sua memoria su possibili soluzioni ad altri problemi.

Nella narrativa, trova la risposta alla domanda: "Come vivevano le persone nel gennaio 1248?" molto difficile. È ancora più difficile rispondere alla domanda su cosa c'era sugli scaffali dei negozi e come era organizzato il commercio alimentare. Anche se qualche scrittore ne ha scritto in modo chiaro e diretto nel suo romanzo, se si potesse trovare il nome di questo scrittore, allora i dubbi sul'affidabilità dei dati ricevuti rimarrà. L'affidabilità è una caratteristica fondamentale di qualsiasi quantità di informazioni. La fonte, l'autore e le prove che escludono la falsità del risultato sono importanti.

Costanze oggettive di una situazione particolare

L'uomo vede, sente, sente. Alcuni specialisti parlano correntemente una sensazione unica: l'intuizione. L'affermazione del problema richiede informazioni, il processo di risoluzione del problema è spesso accompagnato da un perfezionamento dell'affermazione del problema. Questo è il problema minore che deriva dallo spostamento di informazioni nelle viscere di un sistema informatico.

La biblioteca ei colleghi di lavoro sono partecipanti indiretti nel processo decisionale. Il design del libro (fonte), la grafica nel testo, le caratteristiche di dividere le informazioni in titoli, note a piè di pagina per frasi, l'indice delle materie, l'elenco delle fonti primarie: tutto evoca associazioni in una persona che influenzano indirettamente il processo di risoluzione il problema.

Il momento e il luogo in cui risolvere il problema sono essenziali. Una persona è così organizzata che presta involontariamente attenzione a tutto ciò che lo circonda nel processo di risoluzione di un problema. Può essere fonte di distrazione o può essere stimolante. Il data mining non "capirà mai".

Informazioni nello spazio virtuale

Una persona è sempre stata interessata solo a informazioni affidabili su un evento, fenomeno, oggetto, algoritmo per risolvere un problema. L'uomo ha sempre immaginato esattamente come raggiungere l'obiettivo desiderato.

L'aspetto dei computer e dei sistemi informativi avrebbe dovuto semplificare la vita a una persona, ma tutto è solo diventato più complicato. Le informazioni sono migrate nelle viscere dei sistemi informatici e sono scomparse dalla vista. Per selezionare i dati necessari, è necessario creare un algoritmo corretto o formulare una query nel database.

Dati all'interno del sistema informativo

La domanda deve essere corretta. Solo così potrai avere una risposta. Ma restano i dubbi sull'autenticità. In questo senso, il Data Mining è proprio "scavi", è "estrazione di informazioni". Ecco come è di moda tradurre questa frase. La versione russa è data mining o tecnologia di data mining.

Nei lavori di autorevoli specialisti, i compiti di Data Mining sono indicati come segue:

classificazione;
raggruppamento;
associazione;
sequenza;
previsione.

Dal punto di vista della pratica che guida una persona nell'elaborazione manuale delle informazioni, tutte queste posizioni sono discutibili. In ogni caso, una persona elabora le informazioni automaticamente e non pensa alla classificazione dei dati, alla compilazione di gruppi tematici di oggetti (clustering), alla ricerca di schemi temporali (sequenza) o alla previsione del risultato.

Tutte queste posizioni nella mente umana sono rappresentate dalla conoscenza attiva, che copre più posizioni e utilizza dinamicamente la logica di elaborazione dei dati iniziali. Il subconscio di una persona gioca un ruolo importante, specialmente quando è uno specialista in un particolare campo della conoscenza.

Esempio: vendita all'ingrosso di apparecchiature informatiche

Il compito è semplice. Ce ne sono diversidecine di fornitori di apparecchiature informatiche e periferiche. Ognuno ha un listino in formato xls (file Excel), scaricabile dal sito ufficiale del fornitore. È necessario creare una risorsa Web che legga i file Excel, li converta in tabelle di database e consenta ai clienti di selezionare i prodotti desiderati ai prezzi più bassi.

I problemi sorgono immediatamente. Ogni fornitore offre la propria versione della struttura e del contenuto del file xls. Puoi ottenere il file scaricandolo dal sito Web del fornitore, ordinandolo via e-mail o ottenendo un link per il download tramite il tuo account personale, ovvero registrandoti ufficialmente con il fornitore.

La soluzione del problema (all'inizio) è tecnologicamente semplice. Caricando i file (dati iniziali), viene scritto un algoritmo di riconoscimento dei file per ciascun fornitore e i dati vengono inseriti in un'unica grande tabella di dati iniziali. Dopo che tutti i dati sono stati ricevuti, dopo che è stato stabilito il meccanismo di scambio continuo (giornaliero, settimanale o al cambio) di nuovi dati:

cambia assortimento;
cambiamenti di prezzo;
Chiarimento della quantità in magazzino;
adeguamento di termini di garanzia, specifiche, ecc.

È qui che iniziano i veri problemi. Il fatto è che il fornitore può scrivere:

taccuino Acer;
taccuino Asus;
Laptop Dell.

Stiamo parlando dello stesso prodotto, ma di produttori diversi. Come abbinare notebook=laptop o come rimuovere Acer, Asus e Dell da una linea di prodotti?

Perumano non è un problema, ma come farà l'algoritmo a "capire" che Acer, Asus, Dell, Samsung, LG, HP, Sony sono marchi o fornitori? Come abbinare "stampante" e stampante, "scanner" e "MFP", "copiatrice" e "MFP", "cuffie" con "auricolare", "accessori" con "accessori"?

Costruire un albero di categorie basato sui dati di origine (file di origine) è già un problema quando devi impostare tutto su automatico.

Campionamento dati: scavi del "fresco versato"

Il compito di creare un database di fornitori di apparecchiature informatiche è stato risolto. È stato costruito un albero di categorie, è funzionante una tabella comune con le offerte di tutti i fornitori.

Tipiche attività di data mining nel contesto di questo esempio:

trova un prodotto al prezzo più basso;
seleziona l'articolo con il costo e il prezzo di spedizione più bassi;
analisi del prodotto: caratteristiche e prezzi per criteri.

Nel lavoro reale di un manager che utilizza i dati di diverse dozzine di fornitori, ci saranno molte variazioni di questi compiti e situazioni ancora più reali.

Ad esempio, c'è un fornitore "A" che vende ASUS VivoBook S15: pagamento anticipato, consegna 5 giorni dopo l'effettivo ricevimento del denaro. Esiste un fornitore "B" dello stesso prodotto dello stesso modello: pagamento al ricevimento, consegna dopo la conclusione del contratto entro un giorno, il prezzo è una volta e mezzo superiore.

Inizia il data mining - "scavi". Espressioni figurative: "scavi" o "data mining" sono sinonimi. Si tratta di come trovare una ragione per prendere una decisione.

I fornitori "A" e "B" hanno una cronologia delle consegne. Gradopagamento anticipato nel primo caso contro pagamento in contrassegno nel secondo caso, tenendo conto che la mancata consegna nel secondo caso è superiore del 65%. Il rischio di sanzioni da parte del cliente è maggiore/minore. Come e cosa determinare e quale decisione prendere?

D' altra parte: il database è stato creato da un programmatore e un manager. Se il programmatore e il manager sono cambiati, come determinare lo stato attuale del database e imparare a usarlo correttamente? Dovrai anche fare data mining. Data Mining offre una varietà di metodi matematici e logici che non si preoccupano del tipo di dati oggetto di ricerca. Questo fornisce la soluzione corretta in alcuni casi, ma non in tutti.

Muoversi nella virtualità e trovare un significato

I metodi di data mining diventano significativi non appena le informazioni vengono scritte nel database e scompaiono dal "campo visivo". Il commercio di apparecchiature informatiche è un compito interessante, ma è solo un affare. Quanto bene è organizzato in azienda dipende dal suo successo.

I cambiamenti climatici sul pianeta e il tempo in una particolare città interessano a tutti, non solo agli esperti di clima professionisti. Migliaia di sensori acquisiscono letture di vento, umidità, pressione, dati dai satelliti artificiali della Terra e c'è una storia di dati per anni e secoli.

I dati meteorologici non riguardano solo la decisione se portare o meno un ombrello al lavoro. Le tecnologie di data mining sono il volo sicuro di un aereo di linea, il funzionamento stabile di un'autostrada e la fornitura affidabile di prodotti petroliferi via mare.

I dati "grezzi" vengono inviati alle informazionisistema. I compiti di Data Mining sono trasformarli in un sistema sistematico di tabelle, stabilire collegamenti, evidenziare gruppi di dati omogenei e rilevare modelli.

I metodi matematici e logici fin dai tempi dell'analisi quantitativa OLAP (On-line Analytical Processing) hanno dimostrato la loro praticità. Qui, la tecnologia ti consente di trovare un significato e di non perderlo, come nell'esempio della vendita di apparecchiature informatiche.

Inoltre, nelle attività globali:

affari transnazionali;
gestione del trasporto aereo;
studio delle viscere della terra o problemi sociali (a livello statale);
studio dell'effetto dei farmaci su un organismo vivente;
prevedere le conseguenze della costruzione di un'impresa industriale, ecc.

Le tecnologie di Data Mine e la trasformazione di dati "privi di significato" in dati reali che ti consentono di prendere decisioni obiettive sono l'unica opzione.

Le possibilità umane finiscono dove c'è una grande quantità di informazioni grezze. I sistemi di data mining perdono la loro utilità laddove è necessario vedere, comprendere e sentire le informazioni.

Distribuzione ragionevole di funzioni e obiettività

Uomo e computer dovrebbero completarsi a vicenda - questo è un assioma. Scrivere una tesi è una priorità per una persona e un sistema informativo è un aiuto. Qui, i dati che la tecnologia di Data Mining ha sono euristica, regole, algoritmi.

Preparare una previsione meteo settimanale è la priorità del sistema informativo. L'uomo gestisce i dati, ma basa le sue decisioni sui risultati dei calcoli del sistema. Combina metodi di Data Mining, classificazione specialistica dei dati, controllo manuale dell'applicazione di algoritmi, confronto automatico dei dati passati, previsioni matematiche e molte conoscenze e abilità di persone reali coinvolte nell'applicazione del sistema informativo.

La teoria della probabilità e la statistica matematica non sono le aree di conoscenza più "preferite" e comprensibili. Molti specialisti sono molto lontani da loro, ma i metodi sviluppati in queste aree danno risultati quasi al 100% corretti. Applicando sistemi basati sulle idee, sui metodi e sugli algoritmi del Data Mining, le soluzioni possono essere ottenute in modo obiettivo e affidabile. Altrimenti, è semplicemente impossibile trovare una soluzione.

Faraoni e misteri dei secoli passati

La storia veniva periodicamente riscritta:

stati - per il bene dei loro interessi strategici;
scienziati autorevoli - per il bene delle loro convinzioni soggettive.

È difficile dire cosa è vero e cosa è falso. L'uso del Data Mining ci permette di risolvere questo problema. Ad esempio, la tecnologia di costruzione delle piramidi è stata descritta da cronisti e studiata da scienziati in diversi secoli. Non tutti i materiali sono stati trovati su Internet, non tutto è univoco qui e molti dati potrebbero non avere:

momento descritto;
tempo di scrittura della descrizione;
date su cui si basa la descrizione;
autori, opinioni (link) presi in considerazione;
conferma di obiettività.

Bbiblioteche, templi e "luoghi inaspettati" puoi trovare manoscritti di diversi secoli e testimonianze materiali del passato.

Obiettivo interessante: mettere tutto insieme e portare alla luce la "verità". Caratteristica del problema: le informazioni possono essere ottenute dalla prima descrizione di un cronista, durante la vita dei faraoni, fino al secolo attuale, in cui questo problema viene risolto con metodi moderni da molti scienziati.

Razionale per l'utilizzo di Data Mining: il lavoro manuale non è possibile. Troppe quantità:

fonti di informazione;
linguaggi di rappresentazione;
ricercatori che descrivono la stessa cosa in modi diversi;
date, eventi e termini;
problemi di correlazione a termine;
l'analisi delle statistiche per gruppi di dati nel tempo potrebbe differire, ecc.

Alla fine del secolo scorso, quando un altro fiasco dell'idea dell'intelligenza artificiale divenne evidente non solo per il profano, ma anche per uno specialista sofisticato, apparve l'idea: "ricreare la personalità".

Ad esempio, secondo le opere di Pushkin, Gogol, Cechov, si forma un certo sistema di regole, logiche di comportamento e si crea un sistema informativo in grado di rispondere a determinate domande come farebbe una persona: Pushkin, Gogol o Cechov. Teoricamente, un compito del genere è interessante, ma in pratica è estremamente difficile da implementare.

Tuttavia, l'idea di un tale compito suggerisce un'idea molto pratica: "come creare una ricerca intelligente di informazioni". Internet è un sacco di risorse in via di sviluppo, un enorme database e questa è una grande opportunità per applicare il Data Mining in combinazione con l'essere umanologica sotto forma di sviluppo congiunto.

Una macchina e un uomo accoppiati è un ottimo compito e un indubbio successo nel campo dell'"archeologia dell'informazione", scavi di alta qualità nei dati e nei risultati che metteranno in dubbio qualcosa, ma senza dubbio ti permetteranno per acquisire nuove conoscenze e sarà richiesto dalla società.