Gli incorporamenti sono rappresentazioni vettoriali che catturano il significato semantico di parole o frasi. Oltre ad avere dati di qualità, scegliere un buon modello di incorporamento è il passo più importante e sottovalutato per ottimizzare la tua applicazione RAG. I modelli multilingue sono particolarmente impegnativi poiché la maggior parte sono pre-addestrati su dati inglesi. Gli incorporamenti giusti fanno un’enorme differenza: non limitarti a prendere il primo modello che vedi!
Lo spazio semantico determina le relazioni tra parole e concetti. Uno spazio semantico accurato migliora le prestazioni di recupero. Incorporamenti imprecisi portano a blocchi irrilevanti o informazioni mancanti. Un modello migliore migliora direttamente le capacità del tuo sistema RAG.
In questo articolo creeremo un set di dati domanda-risposta da documenti PDF per trovare il modello migliore per il nostro compito e la nostra lingua. Durante il RAG, se viene recuperata la risposta attesa, significa che il modello di incorporamento ha posizionato la domanda e la risposta abbastanza vicine nello spazio semantico.
Anche se ci concentriamo su francese e italiano, il processo può essere adattato a qualsiasi lingua poiché i migliori incorporamenti potrebbero differire.
Modelli di incorporamento
Esistono due tipi principali di modelli di incorporamento: statici e dinamici. Incorporamenti statici come word2vec genera un vettore per ogni parola. I vettori vengono combinati, spesso facendo una media, per creare un incorporamento finale. Questi tipi di incorporamenti non vengono più utilizzati spesso nella produzione perché non tengono conto di come il significato di una parola possa cambiare in funzione delle parole circostanti.
Incorporamenti dinamici si basano su Transformers come BERT, che incorporano la consapevolezza del contesto attraverso livelli di auto-attenzione, consentendo loro di rappresentare le parole in base al contesto circostante.
La maggior parte dei modelli perfezionati attuali utilizza l’apprendimento contrastivo. Il modello apprende la somiglianza semantica vedendo coppie di testo sia positive che negative durante l’addestramento.
Fonte: towardsdatascience.com