La differenza fondamentale tra la classificazione e l'albero di regressione è che nella classificazione le variabili dipendenti sono categoriali e non ordinate mentre nella regressione le variabili dipendenti sono valori interi continui o ordinati.
La classificazione e la regressione sono tecniche di apprendimento per creare modelli di previsione dai dati raccolti. Entrambe le tecniche sono presentate graficamente come alberi di classificazione e regressione, o meglio diagrammi di flusso con suddivisioni dei dati dopo ogni passaggio, o meglio, "rami" nell'albero. Questo processo è chiamato partizionamento ricorsivo. Campi come l'estrazione mineraria utilizzano queste tecniche di classificazione e apprendimento della regressione. Questo articolo si concentra sull'albero di classificazione e sull'albero di regressione.
Cos'è la classificazione?
La classificazione è una tecnica utilizzata per arrivare a uno schema che mostra l'organizzazione dei dati a partire da una variabile precursore. Le variabili dipendenti sono ciò che classifica i dati.
Figura 01: Data mining
L'albero di classificazione inizia con la variabile indipendente, che si dirama in due gruppi come determinato dalle variabili dipendenti esistenti. Ha lo scopo di chiarire le risposte sotto forma di categorizzazione determinata dalle variabili dipendenti.
Cos'è la regressione
La regressione è un metodo di previsione basato su un valore di output numerico presunto o noto. Questo valore di output è il risultato di una serie di partizioni ricorsive, in cui ogni passaggio ha un valore numerico e un altro gruppo di variabili dipendenti che si ramificano in un' altra coppia come questa.
L'albero di regressione inizia con una o più variabili precursori e termina con una variabile di output finale. Le variabili dipendenti sono variabili numeriche continue o discrete.
Qual è la differenza tra classificazione e regressione?
Classificazione vs Regressione |
|
Un modello ad albero in cui la variabile target può assumere un insieme discreto di valori. | Un modello ad albero in cui la variabile target può assumere valori continui tipicamente numeri reali. |
Variabile dipendente | |
Per l'albero di classificazione, le variabili dipendenti sono categoriali. | Per l'albero di regressione, le variabili dipendenti sono numeriche. |
Valori | |
Ha una quantità prestabilita di valori non ordinati. | Ha valori discreti ma ordinati o valori indiscreti. |
Scopo della costruzione | |
Lo scopo della costruzione dell'albero di regressione è quello di adattare un sistema di regressione a ciascun ramo determinante in modo tale che il valore di output atteso risulti. | Un albero di classificazione si ramifica come determinato da una variabile dipendente derivata dal nodo precedente. |
Riepilogo – Classificazione vs Regressione
Gli alberi di regressione e classificazione sono tecniche utili per mappare il processo che punta a un risultato studiato, sia nella classificazione che in un singolo valore numerico. La differenza tra l'albero di classificazione e l'albero di regressione è la loro variabile dipendente. Gli alberi di classificazione hanno variabili dipendenti che sono categoriali e non ordinate. Gli alberi di regressione hanno variabili dipendenti che sono valori continui o valori interi ordinati.