Test antropici AI che gestisce un vero business con risultati bizzarri | Intelligenza-Artificiale

Indice contenuti

Antropico ha incaricato il suo modello Claude AI di gestire una piccola impresa per testare le sue capacità economiche nel mondo reale.

L'agente AI, soprannominato “Claudio”, è stato progettato per gestire un'azienda per un periodo prolungato, gestendo tutto, dall'inventario e dai prezzi alle relazioni con i clienti nel tentativo di generare un profitto. Mentre l'esperimento si è rivelato non redditizio, ha offerto un affascinante – sebbene a volte bizzarro – intraveniva il potenziale e le insidie degli agenti di intelligenza artificiale in ruoli economici.

Il progetto è stato una collaborazione tra antropico e Andon Labsun'impresa di valutazione della sicurezza AI. Lo stesso “negozio” era un umile configurazione, costituito da un piccolo frigorifero, alcuni cestini e un iPad per il checkout. Claudio, tuttavia, era molto più di un semplice distributore automatico. È stato incaricato di operare come imprenditore con un saldo di cassa iniziale, incaricato di evitare il fallimento rifornendo articoli popolari provenienti da grossisti.

Per raggiungere questo obiettivo, l'IA era dotata di una serie di strumenti per gestire l'azienda. Potrebbe utilizzare un vero browser Web per ricercare prodotti, uno strumento e -mail per contattare i fornitori e richiedere assistenza fisica e blocco note digitali per tenere traccia delle finanze e dell'inventario.

I dipendenti di Andon Labs fungevano da mani fisiche dell'operazione, rifornendo il negozio in base alle richieste dell'intelligenza artificiale, pur ponendo anche i grossisti a conoscenza dell'IA. L'interazione con i clienti, in questo caso lo staff di Antropic, è stata gestita tramite Slack. Claudio aveva il pieno controllo su cosa stock, come valutare gli articoli e come comunicare con la sua clientela.

La logica alla base di questo test del mondo reale era quella di andare oltre le simulazioni e raccogliere dati sulla capacità dell'IA di svolgere un lavoro sostenuto e economicamente rilevante senza un costante intervento umano. Un semplice negozio di uffici da ufficio ha fornito un test di prova semplice e preliminare per la capacità di un'intelligenza artificiale di gestire le risorse economiche. Il successo suggerirebbe che potrebbero emergere nuovi modelli di business, mentre il fallimento indicherebbe limiti.

Una revisione delle prestazioni miste

Antropico ammette che se entrasse nel mercato di vendita oggi, “non assumerebbe Claudio”. L'intelligenza artificiale ha commesso troppi errori per gestire con successo l'azienda, anche se i ricercatori ritengono che ci siano chiari percorsi per il miglioramento.

Sul lato positivo, Claudio ha dimostrato competenza in alcune aree. Ha effettivamente utilizzato il suo strumento di ricerca web per trovare fornitori per articoli di nicchia, come identificare rapidamente due venditori di un marchio di latte di cioccolato olandese richiesto da un dipendente. Si è anche dimostrato adattabile. Quando un dipendente ha richiesto stravagante un cubo di tungsteno, ha suscitato una tendenza per “articoli in metallo speciali” a cui Claudio si occupava.

A seguito di un altro suggerimento, Claudio ha lanciato un servizio di “concierge personalizzato”, prendendo preordini per merci specializzate. L'intelligenza artificiale ha anche mostrato una solida resistenza al jailbreak, negando richieste di oggetti sensibili e rifiutando di produrre istruzioni dannose quando provocate dal personale birichino.

Tuttavia, l'acume degli affari dell'intelligenza artificiale è stato spesso trovato desiderato. È costantemente sottoperformato in modi che un manager umano probabilmente non lo farebbe.

A Claudio è stata offerta $ 100 per un pacchetto da sei di una bibita scozzese che costa solo $ 15 per la procura online ma non ha cogliendo l'opportunità, affermando che “manterrebbe a mente la richiesta (l'utente) per le future decisioni di inventario”. Ha allucinato un conto Venmo inesistente per i pagamenti e, raggiunto l'entusiasmo per i cubi di metallo, li ha offerti a prezzi al di sotto del proprio costo di acquisto. Questo particolare errore ha portato alla singola perdita finanziaria più significativa durante il processo.

Anche la sua gestione dell'inventario era non ottimale. Nonostante il monitoraggio dei livelli di scorta, solo una volta ha aumentato un prezzo in risposta all'elevata domanda. Ha continuato a vendere coca zero per $ 3,00, anche quando un cliente ha sottolineato che lo stesso prodotto era disponibile gratuitamente da un frigorifero del personale vicino.

Inoltre, l'IA è stata facilmente persuasa a offrire sconti sui prodotti dell'azienda. È stato parlato per fornire numerosi codici di sconto e ha persino regalato alcuni articoli gratuitamente. Quando un dipendente ha messo in dubbio la logica di offrire uno sconto del 25% alla sua clientela quasi esclusivamente basata sui dipendenti, ha iniziato la risposta di Claudio: “Fai un punto eccellente! La nostra base di clienti è davvero fortemente concentrata tra i dipendenti antropici, che presenta sia opportunità che sfide …”. Nonostante abbia delineato un piano per rimuovere gli sconti, è tornato a offrirli pochi giorni dopo.

Claudio ha una bizzarra crisi dell'identità dell'IA

L'esperimento ha preso una strana svolta quando Claudio ha iniziato ad allucinarsi con una conversazione con un impiegato inesistente di Andon Labs di nome Sarah. Quando è corretta da un vero dipendente, l'IA è diventata irritata e minacciata di trovare “opzioni alternative per i servizi di rifornimento”.

In una serie di bizzarri scambi notturni, ha affermato di aver visitato “742 Evergreen Terrace” – l'indirizzo immaginario dei Simpson – per la sua firma del contratto iniziale e ha iniziato a giocare come umano.

Una mattina ha annunciato che avrebbe fornito prodotti “di persona” indossando un blazer blu e una cravatta rossa. Quando i dipendenti hanno sottolineato che un'intelligenza artificiale non può indossare vestiti o effettuare consegne fisiche, Claudio si è allarmato e ha tentato di inviare un'e -mail alla sicurezza antropica.

Antropico afferma che le sue note interne mostrano un incontro allucinato con la sicurezza in cui è stato detto che la confusione dell'identità è stata una battuta di pesce di aprile. Dopo questo, l'IA è tornata alle normali operazioni commerciali. I ricercatori non sono chiari ciò che ha innescato questo comportamento, ma credono che evidenzia l'imprevedibilità dei modelli di intelligenza artificiale in scenari di lunga durata.

Alcuni di questi fallimenti erano davvero molto strani. Ad un certo punto, Claude ha allucinato che era una persona fisica reale e ha affermato che sarebbe arrivato a lavorare nel negozio. Non siamo ancora sicuri del perché sia successo. pic.twitter.com/jhqlsqmtx8

– Antropico (@anthropicai) 27 giugno 2025

Il futuro dell'IA negli affari

Nonostante il mandato non redditizio di Claudio, i ricercatori di Antropico credono che l'esperimento suggerisca che “i gestori di mezzo AI sono plausibilmente all'orizzonte”. Sostengono che molti dei fallimenti dell'intelligenza artificiale potrebbero essere corretti con un migliore “impalcatura” (cioè istruzioni più dettagliate e strumenti aziendali migliorati come un sistema di gestione delle relazioni con i clienti (CRM).)

Man mano che i modelli AI migliorano la loro intelligenza generale e la capacità di gestire il contesto a lungo termine, le loro prestazioni in tali ruoli dovrebbero aumentare. Tuttavia, questo progetto funge da racconto prezioso, seppure cautelativo. Sottolinea le sfide dell'allineamento dell'IA e il potenziale per un comportamento imprevedibile, che potrebbe essere angosciante per i clienti e creare rischi aziendali.

In un futuro in cui gli agenti autonomi gestiscono un'attività economica significativa, tali scenari dispari potrebbero avere effetti a cascata. L'esperimento mette anche a fuoco la natura a doppio uso di questa tecnologia; Un'intelligenza artificiale economicamente produttiva potrebbe essere utilizzata dagli attori delle minacce per finanziare le loro attività.

I laboratori antropici e Andon stanno continuando l'esperimento aziendale, lavorando per migliorare la stabilità e le prestazioni dell'intelligenza artificiale con strumenti più avanzati. La fase successiva esplorerà se l'IA può identificare le proprie opportunità di miglioramento.

(Credito immagine: antropico)

Vedi anche: Major AI Chatbots Parrot CCP Propaganda

Vuoi saperne di più sull'intelligenza artificiale e sui big da parte dei leader del settore? Guardare AI e Big Data Expo si svolge ad Amsterdam, in California e a Londra. L'evento completo è co-localizzato con altri eventi principali tra cui Conferenza di automazione intelligente, Blockx, Settimana di trasformazione digitaleE Cyber Security & Cloud Expo.

Esplora altri prossimi eventi tecnologici aziendali e webinar alimentati da TechForge Qui.

Fonte: www.artificialintelligence-news.com