Adatta un modello pre-addestrato a un nuovo dominio utilizzando HuggingFace

Immagine da unsplash

I modelli linguistici di grandi dimensioni (LLM) come BERT sono generalmente pre-addestrati su corpora di dominio generale come Wikipedia e BookCorpus. Se li applichiamo a settori più specializzati come quello medico, spesso si riscontra un calo di prestazioni rispetto ai modelli adattato per quei domini.

In questo articolo, esploreremo come adattare un LLM pre-addestrato come la base Deberta al dominio medico utilizzando la libreria HuggingFace Transformers. Nello specifico, tratteremo una tecnica efficace chiamata pre-formazione intermedia in cui eseguiamo ulteriore pre-formazione del LLM sui dati del nostro dominio di destinazione. Ciò adatta il modello al nuovo dominio e ne migliora le prestazioni.

Questa è una tecnica semplice ma efficace per ottimizzare gli LLM sul tuo dominio e ottenere miglioramenti significativi nelle prestazioni delle attività downstream.

Iniziamo.

Il primo passo in qualsiasi progetto è preparare i dati. Poiché il nostro set di dati è di dominio medico, contiene i seguenti campi e molti altri:

immagine per autore

Inserire qui l’elenco completo dei campi è impossibile, poiché i campi sono molti. Ma anche questo sguardo ai campi esistenti ci aiuta a formare la sequenza di input per un LLM.

Il primo punto da tenere a mente è che l’input deve essere una sequenza perché gli LLM leggono l’input come sequenze di testo.

Per formare questo in una sequenza, possiamo inserire tag speciali per dire al LLM quale informazione verrà dopo. Considera il seguente esempio: <patient>name:John, surname: Doer, patientID:1234, age:34</patient> IL <patient> è un tag speciale che indica a LLM che ciò che segue sono informazioni su un paziente.

Quindi formiamo la sequenza di input come segue:

Immagine dell’autore

Come vedi, abbiamo inserito quattro tag:

  1. <patient> </patient>: contenere…

Fonte: towardsdatascience.com

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *