Differenza tra KDD e data mining

Differenza tra KDD e data mining
Differenza tra KDD e data mining

Video: Differenza tra KDD e data mining

Video: Differenza tra KDD e data mining
Video: TALASSEMIA (Anemia Mediterranea): epidemiologia, sintomatologia, trattamento. 2024, Novembre
Anonim

KDD vs Data mining

KDD (Knowledge Discovery in Databases) è un campo dell'informatica, che include gli strumenti e le teorie per aiutare gli esseri umani a estrarre informazioni utili e precedentemente sconosciute (cioè la conoscenza) da grandi raccolte di dati digitalizzati. KDD consiste in diversi passaggi e il data mining è uno di questi. Il Data Mining è l'applicazione di un algoritmo specifico per estrarre pattern dai dati. Tuttavia, KDD e Data Mining sono usati in modo intercambiabile.

Cos'è KDD?

Come accennato in precedenza, KDD è un campo dell'informatica, che si occupa dell'estrazione di informazioni precedentemente sconosciute e interessanti da dati grezzi. KDD è l'intero processo di cercare di dare un senso ai dati sviluppando metodi o tecniche appropriati. Questo processo si occupa della mappatura dei dati di basso livello in altre forme che sono più compatte, astratte e utili. Ciò si ottiene creando brevi report, modellando il processo di generazione dei dati e sviluppando modelli predittivi in grado di prevedere casi futuri. A causa della crescita esponenziale dei dati, specialmente in aree come il business, KDD è diventato un processo molto importante per convertire questa grande quantità di dati in business intelligence, poiché l'estrazione manuale dei modelli è diventata apparentemente impossibile negli ultimi decenni. Ad esempio, è attualmente utilizzato per varie applicazioni come l'analisi dei social network, il rilevamento di frodi, la scienza, gli investimenti, la produzione, le telecomunicazioni, la pulizia dei dati, lo sport, il recupero di informazioni e soprattutto per il marketing. KDD viene solitamente utilizzato per rispondere a domande come quali sono i principali prodotti che potrebbero aiutare a ottenere profitti elevati il prossimo anno in Wal-Mart?. Questo processo ha diversi passaggi. Inizia con lo sviluppo di una comprensione del dominio dell'applicazione e dell'obiettivo e quindi la creazione di un set di dati di destinazione. Segue la pulizia, la preelaborazione, la riduzione e la proiezione dei dati. Il passaggio successivo consiste nell'utilizzare il data mining (spiegato di seguito) per identificare il modello. Infine, la conoscenza scoperta si consolida visualizzando e/o interpretando.

Cos'è il data mining?

Come accennato in precedenza, il data mining è solo un passaggio all'interno del processo KDD generale. Esistono due principali obiettivi di data mining definiti dall'obiettivo dell'applicazione e sono la verifica o l'individuazione. La verifica sta verificando l'ipotesi dell'utente sui dati, mentre la scoperta trova automaticamente modelli interessanti. Esistono quattro attività principali di data mining: raggruppamento, classificazione, regressione e associazione (riepilogo). Il clustering identifica gruppi simili da dati non strutturati. La classificazione è l'apprendimento di regole che possono essere applicate a nuovi dati. La regressione sta trovando funzioni con un errore minimo per modellare i dati. E l'associazione cerca relazioni tra variabili. Quindi, è necessario selezionare l'algoritmo di data mining specifico. A seconda dell'obiettivo, possono essere selezionati diversi algoritmi come la regressione lineare, la regressione logistica, gli alberi decisionali e Naïve Bayes. Quindi vengono ricercati i modelli di interesse in una o più forme rappresentative. Infine, i modelli vengono valutati utilizzando l'accuratezza predittiva o la comprensibilità.

Qual è la differenza tra KDD e data mining?

Anche se i due termini KDD e Data Mining sono ampiamente usati in modo intercambiabile, si riferiscono a due concetti correlati ma leggermente diversi. KDD è il processo generale di estrazione della conoscenza dai dati mentre il Data Mining è un passaggio all'interno del processo KDD, che si occupa di identificare i modelli nei dati. In altre parole, il Data Mining è solo l'applicazione di un algoritmo specifico basato sull'obiettivo generale del processo KDD.

Consigliato: