Utilizza i componenti di inferenza di SageMaker per ospitare Flan e Falcon in modo efficiente in termini di costi e prestazioni
L’anno scorso abbiamo assistito a un’esplosione nello spazio del Large Language Model (LLM) con una serie di nuovi modelli abbinati a varie tecnologie e strumenti per aiutare ad addestrare, ospitare e valutare questi modelli. Nello specifico, Hosting/Inferenza è il luogo in cui viene riconosciuta la potenza di questi LLM e del Machine Learning in generale, poiché senza inferenza non vi è alcun risultato o scopo visivo per questi modelli.
Come ho documentato in passato, ospitare questi LLM può essere piuttosto impegnativo a causa delle dimensioni del modello e dell’utilizzo efficiente dell’hardware associato dietro un modello. Mentre abbiamo lavorato con tecnologie di modellazione come Servizio DJL, Inferenza sulla generazione di testo (TGI)E Tritone insieme a una piattaforma di hosting modello/infrastruttura come Amazon SageMaker per poter ospitare questi LLM, sorge un’altra domanda mentre proviamo a produrre i nostri casi d’uso LLM. Come possiamo farlo per più LLM?
Perché sorge la domanda iniziale? Quando arriviamo ai casi d’uso a livello di produzione, è comune avere più modelli che possono essere utilizzati. Ad esempio, forse un modello Llama viene utilizzato per il tuo caso d’uso di riepilogo, mentre un modello Falcon alimenta il tuo chatbot. Anche se possiamo ospitare questi modelli ciascuno sul proprio endpoint persistente, ciò comporta pesanti implicazioni in termini di costi. È necessaria una soluzione in cui siano presi in considerazione sia i costi che l’allocazione e l’ottimizzazione delle prestazioni/risorse.
In questo articolo esploreremo come utilizzare un’opzione di hosting avanzata nota come Componenti di inferenza di SageMaker per affrontare questo problema e creare un esempio in cui ospitiamo sia a Flan E Falco modello su un endpoint singolare.
NOTA: questo articolo presuppone una conoscenza intermedia di Python, LLM e Amazon SageMaker Inference. Suggerirei di seguire questo articolo per iniziare a utilizzare Amazon SageMaker Inference.
DISCLAIMER: Sono un Machine Learning Architect presso AWS e le mie opinioni sono mie.
- Introduzione ai componenti di inferenza
- Altre opzioni di hosting di inferenza SageMaker multimodello
Fonte: towardsdatascience.com