Gerarchico vs Clustering partizionato
Il clustering è una tecnica di apprendimento automatico per analizzare i dati e dividerli in gruppi di dati simili. Questi gruppi o insiemi di dati simili sono noti come cluster. L'analisi dei cluster esamina gli algoritmi di clustering in grado di identificare i cluster automaticamente. Gerarchico e Partizionale sono due di queste classi di algoritmi di clustering. Gli algoritmi di clustering gerarchico suddividono i dati in una gerarchia di cluster. Gli algoritmi paritari dividono il set di dati in partizioni mutuamente disgiunte.
Cos'è il clustering gerarchico?
Gli algoritmi di clustering gerarchico ripetono il ciclo di fusione di cluster più piccoli in cluster più grandi o di divisione di cluster più grandi in cluster più piccoli. In ogni caso, produce una gerarchia di cluster chiamata dendogramma. La strategia di clustering agglomerato utilizza l'approccio dal basso verso l' alto di unire i cluster in quelli più grandi, mentre la strategia di clustering divisivo utilizza l'approccio dall' alto verso il basso di dividerli in quelli più piccoli. In genere, l'approccio avido viene utilizzato per decidere quali cluster più grandi/piccoli vengono utilizzati per la fusione/divisione. La distanza euclidea, la distanza di Manhattan e la somiglianza del coseno sono alcune delle metriche di somiglianza più comunemente utilizzate per i dati numerici. Per i dati non numerici, vengono utilizzate metriche come la distanza di Hamming. È importante notare che le osservazioni effettive (istanze) non sono necessarie per il raggruppamento gerarchico, perché solo la matrice delle distanze è sufficiente. Il dendogramma è una rappresentazione visiva dei cluster, che mostra la gerarchia in modo molto chiaro. L'utente può ottenere un clustering diverso a seconda del livello a cui viene tagliato il dendogramma.
Cos'è il clustering partizionale?
Gli algoritmi di clustering partizionali generano varie partizioni e quindi le valutano in base a un criterio. Sono anche indicati come non gerarchici poiché ogni istanza è collocata esattamente in uno dei k cluster che si escludono a vicenda. Poiché solo un insieme di cluster è l'output di un tipico algoritmo di clustering partizionale, all'utente viene richiesto di immettere il numero desiderato di cluster (di solito chiamato k). Uno degli algoritmi di clustering partizionale più comunemente usati è l'algoritmo di clustering k-means. L'utente è tenuto a fornire il numero di cluster (k) prima di iniziare e l'algoritmo avvia prima i centri (o centroidi) delle k partizioni. In poche parole, l'algoritmo di clustering k-means assegna quindi i membri in base ai centri attuali e ristima i centri in base ai membri attuali. Questi due passaggi vengono ripetuti fino a quando una certa funzione obiettivo di somiglianza intra-cluster e una funzione obiettivo di dissomiglianza inter-cluster non vengono ottimizzate. Pertanto, un'inizializzazione sensata dei centri è un fattore molto importante per ottenere risultati di qualità dagli algoritmi di clustering partizionale.
Qual è la differenza tra il clustering gerarchico e quello partizionale?
Il clustering gerarchico e partizionale presenta differenze chiave in termini di tempo di esecuzione, ipotesi, parametri di input e cluster risultanti. In genere, il clustering partizionale è più veloce del clustering gerarchico. Il clustering gerarchico richiede solo una misura di somiglianza, mentre il clustering partizionale richiede ipotesi più solide come il numero di cluster e i centri iniziali. Il clustering gerarchico non richiede alcun parametro di input, mentre gli algoritmi di clustering partizionale richiedono il numero di cluster per iniziare l'esecuzione. Il clustering gerarchico restituisce una divisione molto più significativa e soggettiva dei cluster, ma il clustering partizionale produce esattamente k cluster. Gli algoritmi di clustering gerarchico sono più adatti per dati categoriali purché sia possibile definire di conseguenza una misura di somiglianza.