Utilizza i componenti di inferenza di SageMaker per lavorare in modo efficiente con più LLM

Immagine da Unsplash

I Large Language Models (LLM) sono estremamente potenti e possono aiutare a risolvere una varietà di attività di PNL come la risposta alle domande, il riepilogo, l’estrazione di entità e altro ancora. Poiché i casi d’uso dell’intelligenza artificiale generativa continuano ad espandersi, spesso le applicazioni del mondo reale richiederanno la capacità di risolvere molteplici di questi compiti di PNL. Ad esempio, se disponi di un chatbot con cui gli utenti possono interfacciarsi, una richiesta comune è riassumere la conversazione con il chatbot. Questo può essere utilizzato in molte impostazioni come trascrizioni medico-paziente, telefonate/appuntamenti virtuali e altro ancora.

Come possiamo costruire qualcosa che risolva questo tipo di problemi? Potremmo avere più LLM, uno per la risposta alle domande e l’altro per il riepilogo. Un altro approccio sarebbe quello di prendere lo stesso LLM e perfezionarlo nei diversi domini, ma per questo caso d’uso ci concentreremo sul primo approccio. Con più LLM, tuttavia, ci sono alcune sfide che devono essere affrontate.

Ospitare anche un singolo modello è costoso dal punto di vista computazionale e richiede istanze GPU di grandi dimensioni. Nel caso di più LLM sarà necessario un endpoint/hardware persistente per entrambi. Ciò comporta anche un sovraccarico dovuto alla gestione di più endpoint e al pagamento dell’infrastruttura per servirli entrambi.

Con Componenti di inferenza di SageMaker possiamo affrontare questo problema. I componenti di inferenza consentono di ospitare più modelli diversi su un singolo endpoint. Ogni modello ha il proprio contenitore dedicato ed è possibile allocare una certa quantità di hardware e scalabilità in base al modello. Ciò ci consente di avere entrambi i modelli dietro un singolo endpoint ottimizzando costi e prestazioni.

Nell’articolo di oggi daremo un’occhiata a come possiamo costruire un chatbot multiuso basato sull’intelligenza artificiale generativa che viene fornito con la risposta alle domande e il riepilogo abilitati. Diamo una rapida occhiata ad alcuni degli strumenti che utilizzeremo qui:

  • Componenti di inferenza di SageMaker: Utilizzeremo per ospitare i nostri modelli Inferenza in tempo reale di SageMaker. All’interno di Real-Time Inference utilizzeremo la funzionalità Inference Components per ospitare più modelli allocando l’hardware per ciascun modello. Se non conosci i componenti di inferenza…

Fonte: towardsdatascience.com

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *