AlphaFold: utilizzare l'intelligenza artificiale per la scoperta scientifica | Intelligenza-Artificiale

Indice contenuti

Ricerca

Pubblicato: 15 gennaio 2022
Autori: Andrew Senior, John Jumper, Demis Hassabis

Nel luglio 2022, abbiamo pubblicato le previsioni sulla struttura delle proteine AlphaFold per quasi tutte le proteine catalogate conosciute dalla scienza. Leggi l’ultimo blog Qui.

Siamo entusiasti di condividere la prima pietra miliare significativa di DeepMind nel dimostrare come la ricerca sull’intelligenza artificiale può guidare e accelerare nuove scoperte scientifiche. Con un approccio fortemente interdisciplinare al nostro lavoro, DeepMind ha riunito esperti nei campi della biologia strutturale, della fisica e dell’apprendimento automatico per applicare tecniche all’avanguardia per prevedere la struttura 3D di una proteina basandosi esclusivamente sulla sua sequenza genetica.

Il nostro sistema, AlphaFoldsu cui abbiamo lavorato negli ultimi due anni, si basa su anni di ricerca precedente nell’utilizzo di vasti dati genomici per prevedere la struttura delle proteine. I modelli 3D delle proteine generati da AlphaFold sono molto più accurati di tutti quelli precedenti, consentendo progressi significativi in una delle sfide fondamentali della biologia.

Qual è il problema del ripiegamento delle proteine?

Le proteine sono molecole grandi e complesse essenziali per sostenere la vita. Quasi tutte le funzioni svolte dal nostro corpo – contrarre i muscoli, percepire la luce o trasformare il cibo in energia – possono essere ricondotte a una o più proteine e al modo in cui si muovono e cambiano. Le ricette per quelle proteine, chiamate geni, sono codificate nel nostro DNA.

Ciò che una determinata proteina può fare dipende dalla sua struttura 3D unica. Ad esempio, le proteine anticorpali che costituiscono il nostro sistema immunitario sono “a forma di Y” e sono simili a ganci unici. Aggrappandosi a virus e batteri, le proteine anticorpali sono in grado di rilevare e contrassegnare i microrganismi patogeni per lo sterminio. Allo stesso modo, le proteine del collagene hanno la forma di corde che trasmettono la tensione tra cartilagine, legamenti, ossa e pelle. Altri tipi di proteine includono Cas9, che, utilizzando le sequenze CRISPR come guida, agiscono come forbici per tagliare e incollare sezioni di DNA; proteine antigelo, la cui struttura 3D permette loro di legarsi ai cristalli di ghiaccio e impedire il congelamento degli organismi; e ribosomi che agiscono come una catena di montaggio programmata, che aiuta a costruire le proteine stesse.

Ma capire la forma 3D di una proteina esclusivamente dalla sua sequenza genetica è un compito complesso che gli scienziati trovano impegnativo da decenni. La sfida è che il DNA contiene solo informazioni sulla sequenza degli elementi costitutivi di una proteina chiamati residui di amminoacidi, che formano lunghe catene. Prevedere come queste catene si piegheranno nell’intricata struttura 3D di una proteina è ciò che è noto come il “problema del ripiegamento delle proteine”.

Più grande è la proteina, più complicato e difficile è modellarla perché ci sono più interazioni tra amminoacidi di cui tenere conto. Come notato in Il paradosso di Levinthalci vorrebbe più tempo dell’età dell’universo per enumerare tutte le possibili configurazioni di una tipica proteina prima di raggiungere la giusta struttura 3D.

Perché è importante il ripiegamento delle proteine?

La capacità di prevedere la forma di una proteina è utile agli scienziati perché è fondamentale per comprendere il suo ruolo all’interno del corpo, nonché per diagnosticare e curare malattie che si ritiene siano causate da proteine mal ripiegate, come Alzheimer, Parkinson, Quella di Huntington E fibrosi cistica.

Siamo particolarmente entusiasti di come potrebbe migliorare la nostra comprensione del corpo e del suo funzionamento, consentendo agli scienziati di progettare cure nuove ed efficaci per le malattie in modo più efficiente. Man mano che acquisiamo maggiori conoscenze sulla forma delle proteine e sul modo in cui funzionano attraverso simulazioni e modelli, si aprono nuove potenzialità nella scoperta di farmaci, riducendo al tempo stesso i costi associati alla sperimentazione. Ciò potrebbe in definitiva migliorare la qualità della vita di milioni di pazienti in tutto il mondo.

La comprensione del ripiegamento delle proteine aiuterà anche nella progettazione delle proteine, che potrebbe sbloccare un enorme numero di vantaggi. Ad esempio, i progressi negli enzimi biodegradabili – che possono essere resi possibili dalla progettazione delle proteine – potrebbero aiutare a gestire gli inquinanti come la plastica e il petrolio, aiutandoci a scomporre i rifiuti in modi più rispettosi del nostro ambiente. In effetti, i ricercatori hanno già iniziato batteri ingegneristici per secernere proteine che renderanno i rifiuti biodegradabili e più facili da trattare.

Per catalizzare la ricerca e misurare i progressi sui metodi più recenti per migliorare l’accuratezza delle previsioni, è stato organizzato un concorso biennale globale chiamato CASP (Valutazione critica della previsione della struttura delle proteine) è stato istituito nel 1994 ed è diventato il gold standard per la valutazione delle tecniche.

In che modo l’intelligenza artificiale può fare la differenza?

Negli ultimi cinquant’anni, gli scienziati sono stati in grado di determinare la forma delle proteine in laboratorio utilizzando tecniche sperimentali come microscopia crioelettronica, risonanza magnetica nucleare O Cristallografia a raggi Xma ogni metodo dipende da molti tentativi ed errori, che possono richiedere anni e costare decine di migliaia di dollari per struttura. Questo è il motivo per cui i biologi si rivolgono ai metodi di intelligenza artificiale come alternativa a questo processo lungo e laborioso per le proteine difficili.

Fortunatamente, il campo della genomica è piuttosto ricco di dati grazie alla rapida riduzione dei costi del sequenziamento genetico. Di conseguenza, apprendimento profondo approcci al problema della previsione che si basa sui dati genomici è diventato sempre più popolare negli ultimi anni. Il lavoro di DeepMind su questo problema ha prodotto AlphaFold, che abbiamo presentato quest’anno al CASP. Siamo orgogliosi di far parte di quello che gli organizzatori del CASP hanno definito “progressi senza precedenti nella capacità dei metodi computazionali di prevedere la struttura delle proteine”, ponendo Primo in classifica tra le squadre iscritte (la nostra voce è A7D).

Il nostro team si è concentrato specificamente sul difficile problema di modellare le forme target da zero, senza utilizzare proteine precedentemente risolte come modelli. Abbiamo raggiunto un elevato grado di precisione nel prevedere le proprietà fisiche di una struttura proteica e quindi abbiamo utilizzato due metodi distinti per costruire previsioni di strutture proteiche complete.

Utilizzo delle reti neurali per prevedere le proprietà fisiche

Entrambi questi metodi si basavano su reti neurali profonde addestrate a prevedere le proprietà della proteina dalla sua sequenza genetica. Le proprietà previste dalle nostre reti sono: (a) le distanze tra coppie di amminoacidi e (b) gli angoli tra i legami chimici che collegano tali amminoacidi. Il primo sviluppo è un progresso rispetto alle tecniche comunemente utilizzate che stimano se le coppie di amminoacidi sono vicine l’una all’altra.

Abbiamo addestrato una rete neurale a prevedere una distribuzione separata delle distanze tra ogni coppia di residui in una proteina. Queste probabilità sono state poi combinate in un punteggio che stima quanto sia accurata la struttura proteica proposta. Abbiamo anche addestrato una rete neurale separata che utilizza tutte le distanze in modo aggregato per stimare quanto la struttura proposta sia vicina alla risposta giusta.

Nuovi metodi per costruire previsioni delle strutture proteiche

Utilizzando queste funzioni di punteggio, siamo stati in grado di esplorare il panorama proteico per trovare strutture che corrispondessero alle nostre previsioni. Il nostro primo metodo si basava su tecniche comunemente utilizzate nella biologia strutturale e sostituiva ripetutamente pezzi di una struttura proteica con nuovi frammenti proteici. Abbiamo addestrato una rete neurale generativa per inventare nuovi frammenti, che sono stati utilizzati per migliorare continuamente il punteggio della struttura proteica proposta.

Il secondo metodo ha ottimizzato i punteggi discesa del gradiente-una tecnica matematica comunemente utilizzata nell’apprendimento automatico per apportare piccoli miglioramenti incrementali, che ha prodotto strutture altamente accurate. Questa tecnica è stata applicata a intere catene proteiche anziché a pezzi che devono essere piegati separatamente prima di essere assemblati, riducendo la complessità del processo di previsione.

Cosa succede dopo?

Il successo della nostra prima incursione nel ripiegamento delle proteine è indicativo di come i sistemi di apprendimento automatico possano integrare diverse fonti di informazione per aiutare gli scienziati a trovare rapidamente soluzioni creative a problemi complessi. Proprio come abbiamo visto come l’intelligenza artificiale può aiutare le persone a padroneggiare giochi complessi attraverso sistemi come AlphaGo E AlphaZeroallo stesso modo speriamo che un giorno le scoperte dell’intelligenza artificiale ci aiuteranno anche a padroneggiare problemi scientifici fondamentali.

È emozionante vedere questi primi segnali di progresso nel ripiegamento delle proteine, a dimostrazione dell’utilità dell’intelligenza artificiale per la scoperta scientifica. Anche se c’è ancora molto lavoro da fare prima di poter avere un impatto quantificabile sulla cura delle malattie, sulla gestione dell’ambiente e altro ancora, sappiamo che il potenziale è enorme. Con un team dedicato focalizzato sullo studio di come l’apprendimento automatico possa far progredire il mondo della scienza, non vediamo l’ora di vedere i molti modi in cui la nostra tecnologia può fare la differenza.

Appunti

Fino a quando non avremo pubblicato un articolo su questo lavoro, citatelo come:

Previsione della struttura de novo con punteggio basato sul deep learning

R.Evans, J.Jumper, J.Kirkpatrick, L.Sifre, TFGGreen, C.Qin, A.Zidek, A.Nelson, A.Bridgland, H.Penedones, S.Petersen, K.Simonyan, S.Crossan, DTJones, D.Silver, K.Kavukcuoglu, D.Hassabis, AWSenior

Nella tredicesima valutazione critica delle tecniche per la previsione della struttura delle proteine (abstract) 1-4 dicembre 2018. Estratto da qui Qui.

Questo lavoro è stato realizzato in collaborazione con Richard Evans, John Jumper, James Kirkpatrick, Laurent Sifre, Tim Green, Chongli Qin, Augustin Zidek, Sandy Nelson, Alex Bridgland, Hugo Penedones, Stig Petersen, Karen Simonyan, Steve Crossan, David Jones, David Argento, Koray Kavukcuoglu, Demis Hassabis e Andrew Senior.