Basata su Transformers, la nostra nuova architettura Enformer fa avanzare la ricerca genetica migliorando la capacità di prevedere come la sequenza del DNA influenza l’espressione genetica.
Quando il Progetto genoma umano riusciti a mappare la sequenza del DNA del genoma umano, la comunità di ricerca internazionale era entusiasta dell’opportunità di comprendere meglio le istruzioni genetiche che influenzano la salute e lo sviluppo umano. Il DNA trasporta le informazioni genetiche che determinano tutto, dal colore degli occhi alla suscettibilità a determinate malattie e disturbi. Le circa 20.000 sezioni di DNA del corpo umano conosciute come geni contengono istruzioni sulla sequenza aminoacidica delle proteine, che svolgono numerose funzioni essenziali nelle nostre cellule. Eppure questi geni costituiscono meno del 2% del genoma. Le rimanenti coppie di basi – che rappresentano il 98% dei 3 miliardi di “lettere” del genoma – sono chiamate “non codificanti” e contengono istruzioni meno chiare su quando e dove i geni dovrebbero essere prodotti o espressi nel corpo umano. Noi di DeepMind crediamo che l’intelligenza artificiale possa sbloccare una comprensione più profonda di ambiti così complessi, accelerando il progresso scientifico e offrendo potenziali benefici per la salute umana.
Oggi Nature Methods ha pubblicato “Predizione efficace dell’espressione genica dalla sequenza integrando interazioni a lungo raggio” (condiviso per la prima volta come prestampa su bioRxiv), in cui noi — in collaborazione con i nostri colleghi di Alphabet presso Calicò — introdurre un’architettura di rete neurale chiamata Enformer che ha portato a una precisione notevolmente maggiore nella previsione dell’espressione genetica dalla sequenza del DNA. Per portare avanti ulteriori studi sulla regolazione genetica e sui fattori causali nelle malattie, abbiamo anche realizzato il nostro modello e le sue previsioni iniziali sulle varianti genetiche comuni apertamente disponibile qui.
Il lavoro precedente sull’espressione genica ha tipicamente utilizzato le reti neurali convoluzionali come elementi costitutivi fondamentali, ma i loro limiti nel modellare l’influenza degli stimolatori distali sull’espressione genica ne hanno ostacolato l’accuratezza e l’applicazione. Le nostre esplorazioni iniziali si basavano su Basenji2che potrebbe prevedere l’attività regolatoria da sequenze di DNA relativamente lunghe di 40.000 paia di basi. Motivati da questo lavoro e dalla consapevolezza che gli elementi regolatori del DNA possono influenzare l’espressione a distanze maggiori, abbiamo visto la necessità di un cambiamento architettonico fondamentale per catturare lunghe sequenze.
Abbiamo sviluppato un nuovo modello basato su Trasformatoricomune nell’elaborazione del linguaggio naturale, per utilizzare meccanismi di auto-attenzione che potrebbero integrare un contesto del DNA molto più ampio. Poiché i Transformer sono ideali per leggere lunghi passaggi di testo, li abbiamo adattati per “leggere” sequenze di DNA molto estese. Elaborando in modo efficace le sequenze per considerare le interazioni a distanze che sono più di 5 volte (cioè 200.000 paia di basi) la lunghezza dei metodi precedenti, la nostra architettura può modellare l’influenza di importanti elementi regolatori chiamati potenziatori sull’espressione genica da più lontano all’interno della sequenza del DNA .
Per comprendere meglio come Enformer interpreta la sequenza del DNA per arrivare a previsioni più accurate, abbiamo utilizzato i punteggi di contributo per evidenziare quali parti della sequenza di input erano più influenti per la previsione. Coerentemente con l’intuizione biologica, abbiamo osservato che il modello prestava attenzione agli potenziatori anche se situati a più di 50.000 paia di basi di distanza dal gene. Prevedere quali potenziatori regolano quali geni rimane uno dei principali problemi irrisolti in genomica, quindi siamo stati lieti di vedere che i punteggi dei contributi di Enformer si comportano in modo comparabile con i metodi esistenti sviluppati appositamente per questo compito (utilizzando i dati sperimentali come input). Enformer ha anche appreso degli elementi isolanti, che separano due regioni del DNA regolate in modo indipendente.
Anche se oggi è possibile studiare il DNA di un organismo nella sua interezza, per comprenderne il genoma sono necessari esperimenti complessi. Nonostante un enorme sforzo sperimentale, la stragrande maggioranza del controllo del DNA sull’espressione genetica rimane un mistero. Con l’intelligenza artificiale possiamo esplorare nuove possibilità per trovare modelli nel genoma e fornire ipotesi meccanicistiche sui cambiamenti di sequenza. Similmente a un correttore ortografico, Enformer comprende parzialmente il vocabolario della sequenza del DNA e può quindi evidenziare le modifiche che potrebbero portare a un’espressione genetica alterata.
La principale applicazione di questo nuovo modello è prevedere quali cambiamenti nelle lettere del DNA, chiamate anche varianti genetiche, altereranno l’espressione del gene. Rispetto ai modelli precedenti, Enformer è significativamente più accurato nel prevedere gli effetti delle varianti sull’espressione genica, sia nel caso di varianti genetiche naturali che di varianti sintetiche che alterano importanti sequenze regolatrici. Questa proprietà è utile per interpretare il numero crescente di varianti associate alla malattia ottenute da studi di associazione sull’intero genoma. Le varianti associate a malattie genetiche complesse si trovano prevalentemente nella regione non codificante del genoma e probabilmente causano la malattia alterando l’espressione genetica. Ma a causa delle correlazioni intrinseche tra le varianti, molte di queste varianti associate alla malattia sono correlate solo in modo spurio piuttosto che causative. Gli strumenti computazionali possono ora aiutare a distinguere le vere associazioni dai falsi positivi.
Siamo lontani dal risolvere gli enigmi indicibili che rimangono nel genoma umano, ma Enformer rappresenta un passo avanti nella comprensione della complessità delle sequenze genomiche. Se sei interessato a utilizzare l’intelligenza artificiale per esplorare come funzionano i processi cellulari fondamentali, come sono codificati nella sequenza del DNA e come costruire nuovi sistemi per far avanzare la genomica e la nostra comprensione delle malattie, stiamo assumendo. Non vediamo l’ora di espandere le nostre collaborazioni con altri ricercatori e organizzazioni desiderosi di esplorare modelli computazionali per contribuire a risolvere le domande aperte nel cuore della genomica.