La separazione della logica dall’inferenza migliora la scalabilità dell’agente AI disaccoppiando i flussi di lavoro principali dalle strategie di esecuzione.
La transizione dai prototipi di intelligenza artificiale generativa agli agenti di livello produttivo introduce uno specifico ostacolo ingegneristico: l’affidabilità. Gli LLM sono stocastici per natura. Un prompt che funziona una volta potrebbe fallire al secondo tentativo. Per mitigare questo problema, i team di sviluppo spesso racchiudono la logica aziendale principale in complessi cicli di gestione degli errori, tentativi e percorsi di diramazione.
Questo approccio crea un problema di manutenzione. Il codice che definisce cosa dovrebbe fare un agente si mescola inestricabilmente con il codice che definisce come gestire l’imprevedibilità del modello. Un nuovo quadro proposto dai ricercatori di Asari AI, CON CSAILE Caltech suggerisce che per scalare è necessario uno standard architettonico diverso flussi di lavoro degli agenti nell’impresa.
La ricerca introduce un modello di programmazione chiamato Probabilistic Angelic Nondeterminism (PAN) e un’implementazione Python denominata ENCOMPASS. Questo metodo consente agli sviluppatori di scrivere il “percorso felice” del flusso di lavoro di un agente, relegando le strategie di tempo di inferenza (ad esempio ricerca di raggi o backtracking) a un motore di runtime separato. Questa separazione delle preoccupazioni offre un potenziale percorso per ridurre il debito tecnico migliorando al contempo le prestazioni delle attività automatizzate.
Il problema dell’entanglement nella progettazione degli agenti
Gli approcci attuali alla programmazione degli agenti spesso confondono due aspetti progettuali distinti. Il primo è la logica principale del flusso di lavoro, ovvero la sequenza di passaggi necessari per completare un’attività aziendale. La seconda è la strategia del tempo di inferenza, che determina il modo in cui il sistema affronta l’incertezza, ad esempio generando più bozze o verificando i risultati rispetto a una rubrica.
Quando questi vengono combinati, la base di codice risultante diventa fragile. L’implementazione di una strategia come il campionamento “al meglio di N” richiede il confezionamento dell’intera funzione dell’agente in un ciclo. Il passaggio a una strategia più complessa, come la ricerca o il raffinamento degli alberi, richiede in genere una riscrittura strutturale completa del codice dell’agente.
I ricercatori sostengono che questo intreccio limita la sperimentazione. Se un team di sviluppo desidera passare dal semplice campionamento a una strategia di ricerca del raggio per migliorare la precisione, spesso deve riprogettare il flusso di controllo dell’applicazione. Questo costo elevato della sperimentazione fa sì che i team spesso si accontentano di strategie di affidabilità non ottimali per evitare spese generali di progettazione.
Disaccoppiamento della logica dalla ricerca per aumentare la scalabilità dell’agente AI
Il framework ENCOMPASS risolve questo problema consentendo ai programmatori di contrassegnare le “posizioni di inaffidabilità” all’interno del loro codice utilizzando una primitiva chiamata punto di diramazione().
Questi indicatori indicano dove si verifica una chiamata LLM e dove l’esecuzione potrebbe divergere. Lo sviluppatore scrive il codice come se l’operazione avesse esito positivo. In fase di esecuzione, il framework interpreta questi punti di diramazione per costruire un albero di ricerca di possibili percorsi di esecuzione.
Questa architettura abilita ciò che gli autori chiamano agenti “programma in controllo”. A differenza dei sistemi “LLM-in-control”, in cui il modello decide l’intera sequenza delle operazioni, gli agenti program-in-control operano all’interno di un flusso di lavoro definito dal codice. L’LLM viene richiamato solo per eseguire attività secondarie specifiche. Questa struttura è generalmente preferita negli ambienti aziendali per la sua maggiore prevedibilità e verificabilità rispetto agli agenti completamente autonomi.
Trattando le strategie di inferenza come una ricerca su percorsi di esecuzione, il framework consente agli sviluppatori di applicare diversi algoritmi, come la ricerca in profondità, la ricerca per fascio o la ricerca ad albero Monte Carlo, senza alterare la logica aziendale sottostante.
Impatto sulla migrazione legacy e sulla traduzione del codice
L’utilità di questo approccio è evidente in flussi di lavoro complessi come la migrazione del codice legacy. I ricercatori hanno applicato il framework a un agente di traduzione da Java a Python. Il flusso di lavoro prevedeva la traduzione di un repository file per file, la generazione di input e la convalida dell’output attraverso l’esecuzione.
In un’implementazione Python standard, l’aggiunta della logica di ricerca a questo flusso di lavoro richiedeva la definizione di una macchina a stati. Questo processo oscurava la logica aziendale e rendeva difficile la lettura o la sfilacciatura del codice. L’implementazione della ricerca dei raggi richiedeva al programmatore di suddividere il flusso di lavoro in singoli passaggi e di gestire esplicitamente lo stato attraverso un dizionario di variabili.
Utilizzando il framework proposto per aumentare la scalabilità degli agenti AI, il team ha implementato le stesse strategie di ricerca inserendo punto di diramazione() dichiarazioni prima delle chiamate LLM. La logica centrale è rimasta lineare e leggibile. Lo studio ha rilevato che l’applicazione della ricerca del fascio sia a livello di file che di metodo ha sovraperformato le strategie di campionamento più semplici.
I dati indicano che la separazione di queste preoccupazioni consente leggi su una migliore scalabilità. Le prestazioni sono migliorate linearmente con il logaritmo del costo di inferenza. La strategia più efficace trovata – la ricerca a grana fine del raggio – è stata anche quella che sarebbe stata più complessa da implementare utilizzando i metodi di codifica tradizionali.
Efficienza dei costi e scalabilità delle prestazioni
Il controllo del costo dell’inferenza è una preoccupazione primaria per i responsabili dei dati che gestiscono profitti e perdite per i progetti di intelligenza artificiale. La ricerca dimostra che sofisticati algoritmi di ricerca possono produrre risultati migliori a un costo inferiore rispetto al semplice aumento del numero di cicli di feedback.
In un caso di studio che coinvolge il modello di agente “Reflexion” (dove un LLM critica il proprio output) i ricercatori hanno confrontato il ridimensionamento del numero di cicli di raffinamento con l’utilizzo di un algoritmo di ricerca best-first. L’approccio basato sulla ricerca ha ottenuto prestazioni paragonabili al metodo di perfezionamento standard ma a un costo per attività ridotto.
Questa scoperta suggerisce che la scelta della strategia di inferenza è un fattore di ottimizzazione dei costi. Esternalizzando questa strategia, i team possono ottimizzare l’equilibrio tra budget di calcolo e precisione richiesta senza riscrivere l’applicazione. Uno strumento interno a bassa posta in gioco potrebbe utilizzare una strategia di ricerca economica e avida, mentre un’applicazione rivolta al cliente potrebbe utilizzare una ricerca più costosa ed esaustiva, il tutto in esecuzione sulla stessa base di codice.
L’adozione di questa architettura richiede un cambiamento nel modo in cui i team di sviluppo vedono la costruzione degli agenti. Il framework è progettato per funzionare insieme alle librerie esistenti come LangChain, anziché sostituirle. Si trova a un livello diverso dello stack, gestendo il flusso di controllo anziché la progettazione tempestiva o le interfacce degli strumenti.
Tuttavia, l’approccio non è privo di sfide ingegneristiche. Il framework riduce il codice richiesto per implementare la ricerca, ma non automatizza la progettazione dell’agente stesso. Gli ingegneri devono ancora identificare le posizioni corrette per i punti di diramazione e definire parametri di successo verificabili.
L’efficacia di qualsiasi funzionalità di ricerca dipende dalla capacità del sistema di assegnare un punteggio a un percorso specifico. Nell’esempio di traduzione del codice, il sistema potrebbe eseguire unit test per verificare la correttezza. In ambiti più soggettivi, come la sintesi o la generazione creativa, la definizione di una funzione di punteggio affidabile rimane un collo di bottiglia.
Inoltre, il modello si basa sulla capacità di copiare lo stato del programma nei punti di diramazione. Mentre il framework gestisce l’ambito delle variabili e la gestione della memoria, gli sviluppatori devono garantire che gli effetti collaterali esterni, come le scritture del database o le chiamate API, siano gestiti correttamente per evitare azioni duplicate durante il processo di ricerca.
Implicazioni per la scalabilità degli agenti AI
Il cambiamento rappresentato da PAN ed ENCOMPASS si allinea con principi più ampi di modularità dell’ingegneria del software. Man mano che i flussi di lavoro degli agenti diventano fondamentali per le operazioni, mantenerli richiederà lo stesso rigore applicato al software tradizionale.
L’hardcoding della logica probabilistica nelle applicazioni aziendali crea debito tecnico. Rende i sistemi difficili da testare, difficili da controllare e difficili da aggiornare. Disaccoppiare la strategia di inferenza dalla logica del flusso di lavoro consente l’ottimizzazione indipendente di entrambe.
Questa separazione facilita anche una migliore governance. Se una specifica strategia di ricerca produce allucinazioni o errori, può essere modificata a livello globale senza valutare la base di codice di ogni singolo agente. Semplifica il controllo delle versioni dei comportamenti dell’IA, un requisito per i settori regolamentati in cui il “come” di una decisione è importante quanto il risultato.
La ricerca indica che con l’aumento del calcolo del tempo di inferenza, aumenterà la complessità della gestione dei percorsi di esecuzione. Le architetture aziendali che isolano questa complessità si dimostreranno probabilmente più durevoli di quelle che le consentono di permeare il livello applicativo.
Vedi anche: Intuit, Uber e State Farm sperimentano gli agenti IA all’interno dei flussi di lavoro aziendali

Vuoi saperne di più sull’intelligenza artificiale e sui big data dai leader del settore? Guardare Fiera dell’intelligenza artificiale e dei big data che si svolge ad Amsterdam, in California, e a Londra. L’evento completo è parte di TechEx ed è situato in concomitanza con altri importanti eventi tecnologici tra cui Fiera sulla sicurezza informatica e sul cloud. Clic Qui per ulteriori informazioni
AI News è alimentato da Media TechForge. Esplora altri prossimi eventi e webinar sulla tecnologia aziendale Qui.
Fonte: www.artificialintelligence-news.com
