Oltre il teorema dell'impossibilità del clustering di Kleinberg: la mia nota di studio su un quadro di valutazione del clustering pragmatico | di Michio Suginoo | Giugno 2024 | Intelligenza-Artificiale

Ora concentriamoci sulla convalida interna e sulla convalida esterna. Di seguito, elencherò alcune metriche di mia scelta con collegamenti ipertestuali dove è possibile rintracciare le loro definizioni e formule in dettaglio.

Poiché non tratterò le formule per queste metriche, si consiglia ai lettori di seguire i collegamenti ipertestuali forniti di seguito per scoprirli!

A. Metriche utilizzate per la convalida interna

L'obiettivo della convalida interna è stabilire la qualità della struttura di clustering esclusivamente sulla base del set di dati fornito.

Classificazione dei metodi di valutazione interna:

I metodi di convalida interna possono essere classificati in base alle classi delle metodologie di clustering. Una tipica classificazione del clustering può essere formulata come segue:

Metodi di partizionamento (ad esempio K-medie),
Metodi gerarchici (ad esempio clustering agglomerativo),
Metodi basati sulla densità (ad esempio DBSCAN) e
il riposo

Qui tratterò i primi due: partizionamento del clustering e clustering gerarchico.

a) Metodi di partizionamento: ad esempio K-medie

Per i metodi di partizionamento, esistono tre basi di metrica di valutazione: coesione, separazione e loro ibrido.

Coesione:

La coesione valuta la vicinanza della struttura dati del cluster interno. Minore è il valore delle metriche di coesione, migliore è la qualità dei cluster. Un esempio di metrica di coesione è:

SSW: somma degli errori quadratici all'interno del cluster.

Separazione:

La separazione è una metrica tra cluster e valuta la dispersione della struttura dei dati tra cluster. L'idea alla base di una metrica di separazione è massimizzare la distanza tra i cluster. Un esempio di metrica di coesione è:

SSB: somma degli errori quadratici tra cluster.

Ibrido di coesione e separazione:

Il tipo ibrido quantifica il livello di separazione e coesione in un'unica metrica. Ecco un elenco di esempi:

io) Il coefficiente di sagoma: nell'intervallo (-1, 1)

Questa metrica è una misura relativa della distanza tra cluster e cluster vicini.

Ecco un'interpretazione generale della metrica:

Il miglior valore: 1
Il valore peggiore: -1.
Valori prossimi a 0: cluster sovrapposti.
Valori negativi: alta possibilità che un campione sia assegnato ad un cluster sbagliato.

Ecco un esempio di caso d'uso della metrica: https://www.geeksforgeeks.org/silhouette-index-cluster-validity-index-set-2/?ref=ml_lbp

ii) Il coefficiente di Calisnki-Harabasz:

Conosciuto anche come criterio del rapporto di varianza, questo parametro misura il rapporto tra la somma della dispersione tra cluster e la dispersione intra-cluster per tutti i cluster.

Per una data assegnazione di cluster, maggiore è il valore della metrica, migliore è il risultato del clustering: poiché un valore più alto indica che i cluster risultanti sono compatti e ben separati.

Ecco un esempio di caso d'uso della metrica: https://www.geeksforgeeks.org/dunn-index-and-db-index-cluster-validity-indices-set-1/?ref=ml_lbp

iii) Poi Indice:

Per una determinata assegnazione di cluster, un indice Dunn più alto indica un clustering migliore.

Ecco un esempio di caso d'uso della metrica: https://www.geeksforgeeks.org/dunn-index-and-db-index-cluster-validity-indices-set-1/?ref=ml_lbp

iv) Punteggio di Davies Bouldin:

La metrica misura il rapporto tra la somiglianza intra-cluster e la somiglianza tra cluster. Logicamente, una metrica più alta suggerisce una struttura intra-cluster più densa e una struttura inter-cluster più separata, quindi un risultato di clustering migliore.

Ecco un esempio di caso d'uso della metrica: https://www.geeksforgeeks.org/davies-bouldin-index/

b) Metodi gerarchici: ad esempio algoritmo di clustering di agglomerati

i) Giudizio umano basato sulla rappresentazione visiva del dendrogramma.

Sebbene Palacio-Niño e Berzal non includessero il giudizio umano; è uno degli strumenti più utili per la validazione interna del clustering gerarchico basato sul dendrogramma.

Invece, i coautori hanno elencato i seguenti due parametri di coefficiente di correlazione specializzati nella valutazione dei risultati di un clustering gerarchico.

Per entrambi, i valori più alti indicano risultati migliori. Entrambi assumono valori nell'intervallo (-1, 1).

ii) Il coefficiente di correlazione cofenetica (CPCC): (-1, 1)

Misura la distanza tra le osservazioni nel clustering gerarchico definito dal collegamento.

iii) Statistica di Hubert: (-1, 1)

Un valore di Hubert più alto corrisponde ad un migliore clustering dei dati.

c) Categoria potenziale: Apprendimento autosuperato

L'apprendimento autosupervisionato può generare rappresentazioni di caratteristiche che possono essere utilizzate per il clustering. Gli apprendimenti autosupervisionati non hanno etichette esplicite nel set di dati ma utilizzano i dati di input stessi come etichette per l'apprendimento. Palacio-Niño & Berzal non hanno incluso framework autosupervisionati, come autoencoder e GAN, per la loro proposta in questa sezione. Bene, non sono algoritmi di clustering di per sé. Tuttavia, terrò questo particolare dominio in sospeso per la mia nota. Il tempo dirà se emergeranno parametri specializzati da questo particolare dominio.

Prima di chiudere la sezione della validazione interna, ecco un avvertimento di Gere (2023).

“La scelta del corretto algoritmo di clustering gerarchico e del numero di cluster è sempre una questione chiave…. In molti casi, i ricercatori non pubblicano alcuna ragione per cui è stata scelta una determinata misura di distanza e una regola di collegamento insieme ai numeri dei cluster. La ragione di ciò potrebbe essere che diverse tecniche di convalida e confronto dei cluster danno risultati contraddittori nella maggior parte dei casi. … I risultati dei metodi di validazione divergono, suggerendo che il clustering dipende fortemente dal set di dati in questione. Sebbene la distanza euclidea, il metodo di Ward sembri una scelta sicura, si consiglia vivamente di testare e validare diverse combinazioni di clustering.â€

Sì, è un compito difficile.

Passiamo ora alla convalida esterna.

Fonte: towardsdatascience.com