OpenAI, Google, Strumenti di lancio antropico | Intelligenza-Artificiale

Indice contenuti

Questo mese OpenAI, Google e Anthropic hanno annunciato capacità specializzate di IA medica a pochi giorni di distanza l’una dall’altra, un cluster che suggerisce una pressione competitiva piuttosto che una tempistica casuale. Eppure nessuno di questi prodotti è autorizzato come dispositivo medico, approvato per uso clinico o disponibile per la diagnosi diretta del paziente, nonostante il linguaggio del marketing enfatizzi la trasformazione dell’assistenza sanitaria.

OpenAI introdotto ChatGPT Health il 7 gennaio, consentendo agli utenti statunitensi di collegare le cartelle cliniche attraverso partnership con b.well, Apple Health, Function e MyFitnessPal. Google rilasciato MedGemma 1.5 il 13 gennaio, espandendo il suo modello aperto di intelligenza artificiale medica per interpretare scansioni TC e MRI tridimensionali insieme a immagini istopatologiche dell’intero vetrino.

Antropico seguito l’11 gennaio con Claude for Healthcare, che offre connettori conformi HIPAA ai database di copertura CMS, ai sistemi di codifica ICD-10 e al National Provider Identifier Registry.

Tutte e tre le società stanno prendendo di mira gli stessi punti critici del flusso di lavoro (revisioni delle autorizzazioni preventive, elaborazione delle richieste di risarcimento, documentazione clinica) con approcci tecnici simili ma diverse strategie di go-to-market.

Piattaforme per sviluppatori, non prodotti diagnostici

Le somiglianze architettoniche sono notevoli. Ciascun sistema utilizza modelli linguistici multimodali di grandi dimensioni ottimizzati sulla letteratura medica e sui set di dati clinici. Ciascuno enfatizza la tutela della privacy e le dichiarazioni di non responsabilità normative. Ciascuno si posiziona come supporto piuttosto che come sostituzione del giudizio clinico.

Le differenze risiedono nei modelli di distribuzione e accesso. ChatGPT Health di OpenAI opera come servizio rivolto ai consumatori con una lista d’attesa per gli abbonati ChatGPT Free, Plus e Pro al di fuori del SEE, della Svizzera e del Regno Unito. MedGemma 1.5 di Google viene rilasciato come modello aperto attraverso il programma Health AI Developer Foundations, disponibile per il download tramite Hugging Face o la distribuzione tramite Vertex AI di Google Cloud.

Claude for Healthcare di Anthropic si integra nei flussi di lavoro aziendali esistenti attraverso Claude for Enterprise, rivolgendosi agli acquirenti istituzionali piuttosto che ai singoli consumatori. Il posizionamento normativo è coerente in tutti e tre i paesi.

OpenAI afferma esplicitamente che la Salute “non è intesa per la diagnosi o il trattamento”. Google posiziona MedGemma come “punto di partenza per gli sviluppatori per valutare e adattare i loro casi d’uso medici”. Anthropic sottolinea che i risultati “non sono destinati a fornire informazioni direttamente sulla diagnosi clinica, sulle decisioni sulla gestione del paziente, sulle raccomandazioni terapeutiche o su qualsiasi altra applicazione diretta della pratica clinica”.

Prestazioni di riferimento rispetto alla validazione clinica

I risultati dei benchmark sull’intelligenza artificiale medica sono migliorati sostanzialmente in tutte e tre le versioni, anche se il divario tra le prestazioni dei test e l’implementazione clinica rimane significativo. Google segnala che MedGemma 1.5 ha raggiunto una precisione del 92,3% su MedAgentBench, il benchmark di completamento delle attività degli agenti medici di Stanford, rispetto al 69,6% del precedente livello di base di Sonnet 3.5.

Il modello è migliorato di 14 punti percentuali sulla classificazione della malattia alla risonanza magnetica e di 3 punti percentuali sui risultati della TC nei test interni. Claude Opus 4.5 di Anthropic ha ottenuto il 61,3% nei test di precisione dei calcoli medici MedCalc con l’esecuzione del codice Python abilitata e il 92,3% su MedAgentBench.

L’azienda afferma inoltre miglioramenti nelle “valutazioni di onestà” relative ad allucinazioni reali, sebbene non siano stati divulgati parametri specifici.

OpenAI non ha pubblicato confronti di benchmark specifici per ChatGPT Health, rilevando invece che “oltre 230 milioni di persone in tutto il mondo pongono domande relative alla salute e al benessere su ChatGPT ogni settimana” sulla base di un’analisi non identificata dei modelli di utilizzo esistenti.

Questi benchmark misurano le prestazioni su set di dati di test selezionati, non i risultati clinici nella pratica. Gli errori medici possono avere conseguenze pericolose per la vita, traducendo l’accuratezza dei benchmark in un’utilità clinica più complessa che in altri domini di applicazione dell’IA.

Il percorso normativo rimane poco chiaro

Il quadro normativo per questi strumenti di IA medica rimane ambiguo. Negli Stati Uniti, la supervisione della FDA dipende dall’uso previsto. Il software che “supporta o fornisce raccomandazioni a un operatore sanitario in merito alla prevenzione, diagnosi o trattamento di una malattia” potrebbe richiedere una revisione prima dell’immissione sul mercato come dispositivo medico. Nessuno degli strumenti annunciati ha l’autorizzazione della FDA.

Le questioni relative alla responsabilità sono altrettanto irrisolte. Quando Mike Reagin, CTO di Banner Health, afferma che il sistema sanitario è stato “attratto dall’attenzione di Anthropic sulla sicurezza dell’intelligenza artificiale”, ciò riguarda i criteri di selezione della tecnologia, non i quadri di responsabilità legale.

Se un medico fa affidamento sull’analisi dell’autorizzazione preventiva di Claude e un paziente subisce un danno a causa del ritardo delle cure, la giurisprudenza esistente fornisce indicazioni limitate sull’assegnazione delle responsabilità.

Gli approcci normativi variano in modo significativo tra i mercati. Sebbene la FDA e il regolamento europeo sui dispositivi medici forniscano quadri consolidati per il software come dispositivo medico, molti regolatori dell’APAC non hanno pubblicato linee guida specifiche sugli strumenti diagnostici dell’intelligenza artificiale generativa.

Questa ambiguità normativa influisce sui tempi di adozione nei mercati in cui le lacune delle infrastrutture sanitarie potrebbero altrimenti accelerarne l’implementazione, creando una tensione tra necessità clinica e cautela normativa.

Flussi di lavoro amministrativi, non decisioni cliniche

Le distribuzioni reali rimangono circoscritte con attenzione. Louise Lind Skov di Novo Nordisk, direttrice della digitalizzazione dei contenuti, ha descritto l’utilizzo di Claude per “l’automazione di documenti e contenuti nello sviluppo farmaceutico”, concentrandosi sui documenti di presentazione delle normative piuttosto che sulla diagnosi dei pazienti.

L’Amministrazione nazionale dell’assicurazione sanitaria di Taiwan ha utilizzato MedGemma per estrarre dati da 30.000 rapporti patologici per l’analisi politica, non per decisioni terapeutiche.

Lo schema suggerisce che l’adozione istituzionale si sta concentrando sui flussi di lavoro amministrativi in cui gli errori sono meno immediatamente pericolosi – fatturazione, documentazione, stesura di protocolli – piuttosto che sul supporto diretto alle decisioni cliniche dove le capacità di intelligenza artificiale medica avrebbero l’impatto più drammatico sugli esiti dei pazienti.

Le capacità dell’intelligenza artificiale medica stanno avanzando più velocemente di quanto le istituzioni che le implementano possano affrontare le complessità normative, di responsabilità e di integrazione del flusso di lavoro. La tecnologia esiste. L’abbonamento mensile di 20 dollari fornisce l’accesso a sofisticati strumenti di ragionamento medico.

Se ciò si tradurrà in una trasformazione dell’erogazione dell’assistenza sanitaria dipende dalle domande che questi annunci coordinati lasciano irrisolti.

Vedi anche: AstraZeneca scommette sull’intelligenza artificiale interna per accelerare la ricerca oncologica

Vuoi saperne di più sull’intelligenza artificiale e sui big data dai leader del settore? Guardare Fiera dell’intelligenza artificiale e dei big data che si svolge ad Amsterdam, in California, e a Londra. L’evento completo è parte di TechEx ed è situato in concomitanza con altri importanti eventi tecnologici. Clic Qui per ulteriori informazioni

AI News è alimentato da Media TechForge. Esplora altri prossimi eventi e webinar sulla tecnologia aziendale Qui.

Fonte: www.artificialintelligence-news.com