Abilitazione della previsione della struttura proteica ad alta precisione su scala del proteoma | Intelligenza-Artificiale

Indice contenuti

Il metodo AlphaFold

Molte nuove innovazioni di apprendimento automatico contribuiscono all’attuale livello di precisione di AlphaFold. Di seguito forniamo una panoramica di alto livello del sistema; per una descrizione tecnica dell’architettura di rete vedere il nostro AlphaFold carta sui metodi e soprattutto le sue ampie informazioni supplementari.

La rete AlphaFold è composta da due fasi principali. La fase 1 prende come input la sequenza di amminoacidi e un allineamento di sequenze multiple (MSA). Il suo obiettivo è apprendere una ricca “rappresentazione a coppie” che fornisca informazioni su quali coppie di residui sono vicine nello spazio 3D.

La fase 2 utilizza questa rappresentazione per produrre direttamente le coordinate atomiche trattando ciascun residuo come un oggetto separato, prevedendo la rotazione e la traslazione necessarie per posizionare ciascun residuo e, infine, assemblando una catena strutturata. La progettazione della rete si basa sulle nostre intuizioni sulla fisica e sulla geometria delle proteine, ad esempio, nella forma degli aggiornamenti applicati e nella scelta della perdita.

È interessante notare che possiamo produrre una struttura 3D basata sulla rappresentazione negli strati intermedi della rete. I video della “traiettoria” risultante mostrano come la convinzione di AlphaFold sulla struttura corretta si sviluppa durante l’inferenza, strato dopo strato. In genere un’ipotesi emerge dopo i primi strati seguiti da un lungo processo di perfezionamento, sebbene alcuni obiettivi richiedano l’intera profondità della rete per arrivare a una buona previsione.

La struttura prevista per CASP14 ha come target T1044, T1024 e T1064 a livelli successivi della rete. Le strutture sono colorate in base al numero di residui e il contatore mostra lo strato corrente.

Precisione e fiducia

AlphaFold è stato rigorosamente valutato nel CASP14 esperimento, in cui i partecipanti prevedono ciecamente strutture proteiche che sono state risolte ma non ancora rese pubbliche. Il metodo ha raggiunto un’elevata precisione nella maggior parte dei casi, con una media del 95% di RMSD-Cα rispetto alla struttura sperimentale inferiore a 1Å. Nei nostri articoli, valutiamo ulteriormente il modello su un insieme molto più ampio di voci recenti del PDB. Tra i risultati vi sono ottime prestazioni sulle proteine di grandi dimensioni e una buona precisione della catena laterale laddove la struttura principale è ben prevista.

Precisione CASP14 di AlphaFold rispetto ad altri metodi. RMSD-Cα basato sul 95% dei residui meglio previsto per ciascun target.

Un fattore importante nell’utilità delle previsioni sulla struttura è la qualità delle misure di confidenza associate. Il modello è in grado di identificare le parti della sua previsione che potrebbero essere affidabili? Abbiamo sviluppato due misure di fiducia sulla rete AlphaFold per rispondere a questa domanda.

Il primo è pLDDT (lDDT-Cα previsto), una misura per residuo della confidenza locale su una scala da 0 a 100. pLDDT può variare notevolmente lungo una catena, consentendo al modello di esprimere, ad esempio, un’elevata confidenza sui domini strutturati ma una bassa confidenza sui collegamenti tra di loro. Nel nostro cartapresentiamo prove che alcune regioni con basso pLDDT potrebbero non essere strutturate in isolamento; o intrinsecamente disordinato o strutturato solo nel contesto di un complesso più ampio. Le regioni con pLDDT <50 non dovrebbero essere interpretate se non come una possibile previsione di un disturbo.

La seconda metrica è PAE (Predicted Aligned Error), che riporta l’errore di posizione previsto di AlphaFold sul residuo x, quando le strutture previste e reali sono allineate sul residuo y. Ciò è utile per valutare la fiducia nelle funzionalità globali, in particolare nel confezionamento dei domini. Per i residui xey estratti da due domini diversi, un PAE costantemente basso in (x, y) suggerisce che AlphaFold è sicuro delle posizioni relative dei domini. Il PAE costantemente elevato in (x, y) suggerisce che le posizioni relative dei domini non dovrebbero essere interpretate. L’approccio generale utilizzato per produrre PAE può essere adattato per prevedere una varietà di parametri basati sulla sovrapposizione, inclusi Punteggio TM E GDT.

Confidenza per residuo (pLDDT) ed errore allineato previsto (PAE) per due proteine di esempio (P54725, Q5VSL9). Entrambi hanno domini individuali sicuri, ma il secondo ha anche posizioni di dominio relative fiduciose. Nota: Q5VSL9 è stato risolto dopo la produzione di questa previsione.

Da sottolineare, i modelli AlphaFold sono in definitiva delle previsioni: sebbene spesso siano altamente accurati, a volte saranno errati. Le coordinate atomiche previste dovrebbero essere interpretate con attenzione e nel contesto di queste misure di confidenza.

Fonte aperta

A fianco del nostro documento di metodoabbiamo reso disponibile il codice sorgente AlphaFold su GitHub. Ciò include l’accesso a un modello addestrato e a uno script per fare previsioni su nuove sequenze di input. Crediamo che questo sia un passo importante che consentirà alla comunità di utilizzare e sviluppare il nostro lavoro. Il modo più semplice per ripiegare una singola nuova proteina con AlphaFold è utilizzare il nostro Taccuino di Colab.

Il codice open source è una versione aggiornata del nostro sistema CASP14 basato su quadro JAXe raggiunge una precisione altrettanto elevata. Incorpora anche alcuni recenti miglioramenti delle prestazioni. La velocità di AlphaFold è sempre dipesa fortemente dalla lunghezza della sequenza di input, con proteine corte che impiegano minuti per essere elaborate e solo proteine molto lunghe che impiegano ore. Una volta assemblato l’MSA, la versione open source può ora prevedere la struttura di una proteina con 400 residui in poco più di un minuto di tempo GPU su un V100.

Scala del proteoma e AlphaFold DB

I rapidi tempi di inferenza di AlphaFold consentono di applicare il metodo su scala dell’intero proteoma. Nel nostro cartadiscutiamo delle previsioni di AlphaFold per il proteoma umano. Tuttavia, da allora abbiamo generato previsioni per i proteomi di riferimento di un certo numero di organismi modello, agenti patogeni e specie economicamente significativee la previsione su larga scala è ormai una routine. È interessante notare che osserviamo una differenza nella distribuzione del pLDDT tra le specie, con una fiducia generalmente maggiore su batteri e archaea e una minore fiducia sugli eucarioti, che ipotizziamo possa essere correlata alla prevalenza del disordine in questi proteomi.

Nessun singolo gruppo di ricerca può esplorare completamente un set di dati così ampio, per questo abbiamo collaborato EMBL-EBI per rendere i pronostici liberamente disponibili tramite il AlphaFoldDB. Ogni previsione può essere visualizzata insieme ai parametri di confidenza descritti sopra. Per ciascuna specie viene inoltre fornito un download collettivo e tutti i dati sono coperti da una licenza CC-BY-4.0 (che li rende liberamente disponibili sia per uso accademico che commerciale). Siamo estremamente grati all’EMBL-EBI per il lavoro svolto con noi per sviluppare questa nuova risorsa. Nel corso dei prossimi mesi prevediamo di espandere il set di dati per coprire gli oltre 100 milioni di proteine presenti UniRef90.

Esempio: previsioni AlphaFold DB da una varietà di organismi.

Distribuzione della confidenza per residuo per 14 specie; da sinistra a destra: batteri/archaea, animali e protisti.

In AlphaFold DB, abbiamo scelto di condividere le previsioni di catene proteiche complete fino a 2700 aminoacidi di lunghezza, anziché ritagliarle in singoli domini. La logica è che ciò evita di perdere regioni strutturate che devono ancora essere annotate. Fornisce inoltre il contesto dall’intera sequenza di aminoacidi e consente al modello di tentare una previsione dell’impaccamento del dominio. L’accuratezza intra-dominio di AlphaFold è stata valutata in modo più approfondito in CASP14 e si prevede che sarà superiore all’accuratezza inter-dominio. Tuttavia, AlphaFold è stato il metodo migliore nella valutazione interdominio e ci aspettiamo che in alcuni casi produca una previsione informativa. Incoraggiamo gli utenti a visualizzare il grafico PAE per determinare se è probabile che il posizionamento del dominio sia significativo.

Lavoro futuro

Siamo entusiasti del futuro della biologia strutturale computazionale. Rimangono molti argomenti importanti da affrontare: prevedere la struttura dei complessi, incorporare componenti non proteici e catturare le dinamiche e la risposta alle mutazioni puntiformi. Lo sviluppo di architetture di rete come AlphaFold che eccellono nel compito di comprendere la struttura delle proteine è motivo di ottimismo sulla possibilità di compiere progressi sui problemi correlati.

Consideriamo AlphaFold una tecnologia complementare alla biologia strutturale sperimentale. Ciò è forse meglio illustrato dal suo ruolo nel contribuire a risolvere strutture sperimentali, attraverso la sostituzione molecolare e l’aggancio a volumi crio-EM. Entrambe le applicazioni possono accelerare la ricerca esistente, risparmiando mesi di impegno. Da una prospettiva bioinformatica, la velocità di AlphaFold consente la generazione di strutture previste su vasta scala. Ciò ha il potenziale per sbloccare nuove strade di ricerca, supportando indagini strutturali sui contenuti di database di grandi sequenze.

In definitiva, speriamo che AlphaFold si riveli uno strumento utile per illuminare lo spazio proteico e non vediamo l’ora di vedere come verrà applicato nei prossimi mesi e anni.

‍

Ci piacerebbe sentire il tuo feedback e capire come AlphaFold e AlphaFold DB sono stati utili nella tua ricerca. Condividi le tue storie su alphafold@deepmind.com.