Il clustering gerarchico è uno dei metodi di clustering più basilari nell’apprendimento statistico. Se il tuo set di dati non è molto grande e desideri vedere non solo l’etichetta del cluster di ciascun punto ma anche una struttura interna dell’intera immagine, il clustering gerarchico è un buon punto di partenza.
Per essere chiari, esistono due tipi di metodi di clustering gerarchico, agglomerante E divisivo raggruppamento.
L’unica differenza in termini di progettazione dell’algoritmo è il direzione della procedura di clustering.
Agglomerante il clustering è a dal basso verso l’alto approccio in cui ogni punto dati è il proprio cluster all’inizio e poi unire iterativamente a cluster più grandi;
Al contrario, il divisivo il clustering è a dall’alto al basso approccio in cui l’intero set di dati è un singolo cluster all’inizio e i cluster più grandi lo sono dividere ricorsivamente mentre procede.
Poiché il clustering agglomerativo è più popolare per rappresentare il clustering gerarchico, grazie alla sua implementazione più semplice, alla migliore gestione del rumore e all’efficienza computazionale con set di dati di dimensioni ragionevoli, ne discuteremo principalmente in questo post.
Idea base
Pensiamo a come i bambini formano gruppi di gioco in una comunità. All’inizio non si sanno molto l’uno dell’altro, quindi ognuno è il proprio gruppo.
Dopo un po’, ogni bambino conosce le caratteristiche e gli interessi di tutti gli altri, tende a riunirsi con ragazzi simili a lui. Quindi, in questa fase, ogni due individui iniziano a fondersi in un piccolo gruppo e il piccolo gruppo stesso può poi essere fuso in un gruppo più grande unendosi con un altro individuo/piccolo gruppo.
Quindi il processo di fusione avviene in modo iterativo in base a quanto due gruppi di bambini sono simili tra loro. Il processo può essere interrotto ad un certo punto quando i ragazzi pensano che il numero di grandi gruppi sia ragionevolmente piccolo o che non ci siano due gruppi…
Fonte: towardsdatascience.com