Incorporamenti efficienti in termini di memoria. Creazione di modelli più piccoli con un nuovo tipo… | del Dott. Robert Kübler | Gennaio 2024 | Intelligenza-Artificiale

Creazione di modelli più piccoli con un nuovo tipo di livello di incorporamento

fotografato da Kostiantyn Vierkieev SU Unsplash

Ogni volta che si ha a che fare con dati categorici, i principianti ricorrono a codifica one-hot. Questo spesso va bene, ma se hai a che fare con migliaia o addirittura milioni di categorie, questo approccio lo diventa infattibile. Ciò ha i seguenti motivi:

Maggiore dimensionalità: Per ogni categoria, ottieni una funzionalità aggiuntiva. Ciò può portare al maledizione della dimensionalità. I dati diventano più scarsi e il modello potrebbe soffrire di una maggiore complessità computazionale e di una diminuzione delle prestazioni di generalizzazione.
Perdita di semantica: La codifica one-hot tratta ogni categoria come una caratteristica indipendente, ignorando qualsiasi potenziale relazione semantica tra le categorie. Perdiamo le relazioni significative presenti nella variabile categoriale originale.

Questi problemi si verificano nell’area dell’elaborazione del linguaggio naturale (abbiamo un sacco di parole) o dei sistemi di raccomandazione (abbiamo un sacco di clienti e/o articoli) e possono essere risolti con l’aiuto di incastri. Tuttavia, se disponi di molti di questi incorporamenti, i requisiti di memoria per il tuo modello possono salire alle stelle fino a diversi gigabyte.

In questo articolo, voglio mostrarti diversi modi per ridurre l’impronta di memoria. Uno di questi modi viene da un articolo interessante Incorporamenti compositivi che utilizzano partizioni complementari per sistemi di raccomandazione efficienti in termini di memoria di Shi et al. Faremo anche alcuni esperimenti per vedere come si comportano questi metodi in un compito di previsione della valutazione.

In breve, invece di vettori lunghi e sparsi, vogliamo vettori corti e densi di una certa lunghezza D – i nostri incorporamenti. La dimensione dell’incorporamento D è un iperparametro che possiamo scegliere liberamente noi stessi.

Fonte: towardsdatascience.com