Gli LLM continuano a diventare sempre più popolari, così come i modi per ospitarli e distribuirli per l’inferenza. Le sfide con l’hosting LLM sono state ben documentate, soprattutto a causa delle dimensioni del modello e della garanzia di un utilizzo ottimale dell’hardware su cui sono distribuiti. Anche i casi d’uso LLM variano. Alcuni potrebbero richiedere tempi di risposta basati sul tempo reale, mentre altri hanno requisiti di latenza basati più quasi sul tempo reale.
Per quest’ultimo e per altri casi d’uso di inferenza offline, Inferenza asincrona SageMaker serve come un’ottima opzione. Con l’inferenza asincrona, come suggerisce il nome, ci concentriamo su un carico di lavoro basato più vicino al tempo reale in cui la latenza non è necessariamente estremamente rigida, ma richiede comunque un endpoint attivo che può essere richiamato e scalato secondo necessità. Nello specifico all’interno degli LLM questi tipi di carichi di lavoro stanno diventando sempre più popolari con casi d’uso come modifica/generazione di contenuti, riepilogo e altro ancora. Tutti questi carichi di lavoro non necessitano di risposte inferiori al secondo, ma richiedono comunque un’inferenza tempestiva che possono invocare secondo necessità rispetto a una natura completamente offline come quella di un Trasformazione batch SageMaker.
In questo esempio, daremo un’occhiata a come possiamo utilizzare il file Server di inferenza per la generazione di testo HuggingFace in combinazione con SageMaker Asynchronous Endpoints per ospitare il Modello Flan-T-5-XXL.
NOTA: questo articolo presuppone una conoscenza di base di Python, LLM e Amazon SageMaker. Per iniziare con Amazon SageMaker Inference, farei riferimento a quanto segue guida. Tratteremo le nozioni di base dell’inferenza asincrona di SageMaker, ma per un’introduzione più approfondita fare riferimento all’esempio iniziale Qui su cui costruiremo.
DISCLAIMER: Sono un Machine Learning Architect presso AWS e le mie opinioni sono mie.
- Quando utilizzare l’inferenza asincrona SageMaker
- Implementazione dell’inferenza asincrona TGI
UN. Configurazione e distribuzione degli endpoint
B. Invocazione di inferenza asincrona
C. Configurazione della scalabilità automatica - Risorse aggiuntive e conclusioni
Fonte: towardsdatascience.com