
Quando le gerarchie di codice possono migliorare la codifica di destinazione per le funzionalità categoriali ad alta cardinalità?
Win che quartiere vivi? Che farmaco ti è stato prescritto? Perché hai annullato il tuo abbonamento allo streaming? Al giorno d'oggi, esiste un codice per questo, archiviato nei database di qualunque agenzia governativa, azienda, ecc. con cui interagisci. Se lavori sui dati, probabilmente incontrerai molti codici simili. Quando possono assumere molti valori possibili, tali codici sono chiamati “caratteristiche categoriche ad alta cardinalità”.
Alcuni categorici ad alta cardinalità hanno a gerarchico struttura. La Figura 1 illustra una struttura di questo tipo, il North American Industry Classification System (NAICS), utilizzato dal governo degli Stati Uniti per classificare le imprese (1).
Molti set di codici possono essere rappresentati come una gerarchia. Ad esempio, le regioni geografiche degli Stati Uniti possono essere suddivise in aree più piccole con molti valori di codice (codici postali) o in aree molto grandi con pochi (Regioni del censimento degli Stati Unitiad esempio “Ovest”). Oppure, l'American Medical Association definisce ~475 aree di specializzazione del fornitoreche sono raggruppati in classificazioni, raggruppamenti e sezioni.
Sebbene le categorie ad alta cardinalità (gerarchiche o meno) abbiano troppi gradi di libertà per l'incorporazione diretta nei modelli di machine learning, i metodi di codifica o incorporamento possono sfruttare le informazioni in queste funzionalità. La codifica target (chiamata anche “codifica media” o “codifica impatto”) è una scelta popolare per i modelli basati su alberi. Le reti neurali utilizzano spesso incorporamenti di entità che mappano i codici su un vettore di dimensionalità inferiore. Tuttavia, queste tecniche non incorporano informazioni provenienti da strutture di codice gerarchiche.
Esistono alcuni metodi di ricerca interessanti per le categorie gerarchiche nell'apprendimento automatico, ad esempio trattando i raggruppamenti di alto livello in modo analogo agli effetti casuali nella modellazione mista (2). Ma questi non sono ancora ampiamente utilizzati.
Un'opzione più semplice rilevante per i modelli basati su alberi è suggerita da a Articolo Verso la scienza dei dati di Daniele Micci-Barreca, che coinvolge unendo le informazioni generali del gruppo…
Fonte: towardsdatascience.com