AlphaFold, Inteligencia Artificial para Descubrimiento Científico

Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1de 8

AlphaFold: uso de la inteligencia artificial

para el descubrimiento científico


Autores

Andrew Senior

John puente

Demis Hassabis

Pushmeet Kohli

La investigación en inteligencia artificial puede impulsar y acelerar nuevos descubrimientos


científicos. Hemos creado un equipo interdisciplinario dedicado con la esperanza de utilizar
la inteligencia artificial para impulsar la investigación básica: reunir a expertos de los
campos de la biología estructural, la física y el aprendizaje automático para aplicar técnicas
de vanguardia para predecir la estructura 3D de una proteína basada únicamente en su
secuencia genética.

Nuestro sistema, AlphaFold, que se describe en artículos revisados por pares que ahora se
publican en Nature y PROTEINS, es la culminación de varios años de trabajo y se basa en
décadas de investigación previa que utiliza grandes conjuntos de datos genómicos para
predecir la estructura de las proteínas. Los modelos 3D de proteínas que genera AlphaFold
son mucho más precisos que los anteriores, lo que marca un progreso significativo en uno
de los principales desafíos de la biología. El código AlphaFold utilizado en CASP13 está
disponible en Github para cualquier persona interesada en aprender más o replicar nuestros
resultados. También estamos entusiasmados por el hecho de que este trabajo ya ha
inspirado otras implementaciones independientes.

¿Cuál es el problema del plegamiento de proteínas?

Las proteínas son moléculas grandes y complejas esenciales para toda la vida. Casi todas
las funciones que realiza nuestro cuerpo (contraer los músculos, sentir la luz o convertir los
alimentos en energía) dependen de las proteínas y de cómo se mueven y cambian. Lo que
puede hacer una proteína determinada depende de su estructura 3D única. Por ejemplo, las
proteínas de anticuerpos utilizadas por nuestro sistema inmunológico tienen "forma de Y" y
forman ganchos únicos. Al adherirse a virus y bacterias, estas proteínas de anticuerpos
pueden detectar y marcar microorganismos causantes de enfermedades para su eliminación.
Las proteínas de colágeno tienen forma de cordones, que transmiten tensión entre
cartílagos, ligamentos, huesos y piel. Otros tipos de proteínas incluyen Cas9, que,
utilizando secuencias CRISPR como guía, actúa como tijeras para cortar y pegar secciones
de ADN; proteínas anticongelantes, cuya estructura 3D les permite unirse a los cristales de
hielo y evitar que los organismos se congelen; y ribosomas, que actúan como una línea de
ensamblaje programada, ayudando a construir las propias proteínas.
Las recetas de esas proteínas, llamadas genes, están codificadas en nuestro ADN. Un error
en la receta genética puede resultar en una proteína mal formada, lo que podría resultar en
una enfermedad o la muerte de un organismo. Muchas enfermedades, por tanto, están
fundamentalmente ligadas a las proteínas. Pero el hecho de que conozca la receta genética
de una proteína no significa que sepa automáticamente su forma. Las proteínas están
compuestas por cadenas de aminoácidos (también conocidas como residuos de
aminoácidos). Pero el ADN solo contiene información sobre la secuencia de aminoácidos,
no sobre cómo se pliegan. Cuanto más grande es la proteína, más difícil es modelar, porque
hay más interacciones entre los aminoácidos a tener en cuenta. Como lo demuestra la
paradoja de Levinthal, tomaría más tiempo que la edad del universo conocido enumerar
aleatoriamente todas las configuraciones posibles de una proteína típica antes de alcanzar la
verdadera estructura 3D; sin embargo, las proteínas mismas se pliegan espontáneamente, en
milisegundos. Predecir cómo estas cadenas se plegarán en la intrincada estructura 3D de
una proteína es lo que se conoce como el "problema del plegamiento de proteínas", un
desafío en el que los científicos han trabajado durante décadas. Este problema no resuelto
ya ha inspirado innumerables desarrollos, desde estimular los esfuerzos de IBM en
supercomputación ( BlueGene ), nuevos esfuerzos de ciencia ciudadana ( Folding @ Home
y FoldIt ) hasta nuevos dominios de ingeniería, como el diseño racional de proteínas.

¿Por qué es importante el plegamiento de proteínas?

Creo que seremos capaces de obtener una comprensión más profunda de la naturaleza de la
enfermedad en general mediante la investigación de las moléculas que componen el cuerpo
humano, incluidas las moléculas anormales, y que esta comprensión permitirá que... el
problema de la enfermedad ser atacado de una manera más directa de modo que se
desarrollen nuevos métodos de terapia.

“Creo que seremos capaces de obtener una comprensión más profunda de la naturaleza de
la enfermedad en general mediante la investigación de las moléculas que componen el
cuerpo humano, incluidas las moléculas anormales, y que esta comprensión permitirá
que... el problema de la enfermedad ser atacado de una manera más directa de modo que
se desarrollen nuevos métodos de terapia. “ Linus Pauling, 1960

Los científicos han estado interesados durante mucho tiempo en determinar las estructuras
de las proteínas porque se cree que la forma de una proteína dicta su función. Una vez que
se comprende la forma de una proteína, se puede adivinar su función dentro de la célula y
los científicos pueden desarrollar medicamentos que funcionen con la forma única de la
proteína.

Durante las últimas cinco décadas, los investigadores han podido determinar formas de
proteínas en laboratorios utilizando técnicas experimentales como microscopía
crioelectrónica, resonancia magnética nuclear y cristalografía de rayos X, pero cada método
depende de una gran cantidad de ensayo y error, que puede tomar años de trabajo y cuestan
decenas o cientos de miles de dólares por estructura proteica. Es por eso que los biólogos
están recurriendo a los métodos de IA como una alternativa a este largo y laborioso proceso
para proteínas difíciles. La capacidad de predecir computacionalmente la forma de una
proteína a partir de su código genético solo, en lugar de determinarla mediante una
experimentación costosa, podría ayudar a acelerar la investigación.

Figura 1: Las formas complejas en 3D surgen de una cadena de aminoácidos.

¿Cómo puede la IA marcar la diferencia?

Afortunadamente, el campo de la genómica es bastante rico en datos gracias a la rápida


reducción del coste de la secuenciación genética. Como resultado, los enfoques de
aprendizaje profundo para el problema de la predicción que se basan en datos genómicos se
han vuelto cada vez más populares en los últimos años. Para catalizar la investigación y
medir el progreso en los métodos más nuevos para mejorar la precisión de las predicciones,
en 1994 se estableció una competencia mundial bienal llamada CASP (Evaluación crítica
de la predicción de la estructura de la proteína), que se ha convertido en el estándar de
oro para evaluar las técnicas predictivas. Estamos en deuda con décadas de trabajo previo
de los organizadores del CASP, así como con los miles de experimentalistas cuyas
estructuras permiten este tipo de evaluación.

El trabajo de DeepMind sobre este problema resultó en AlphaFold, que enviamos a


CASP13. Estamos orgullosos de ser parte de lo que los organizadores de CASP han
llamado “progreso sin precedentes en la capacidad de los métodos computacionales para
predecir la estructura de las proteínas”, ubicándonos en primer lugar en la clasificación
entre los equipos que ingresaron (nuestra entrada es A7D).

Nuestro equipo se centró específicamente en el problema de modelar formas objetivo desde


cero, sin utilizar proteínas previamente resueltas como plantillas. Logramos un alto grado
de precisión al predecir las propiedades físicas de una estructura de proteína y luego
usamos dos métodos distintos para construir predicciones de estructuras de proteína
completas.
Usar redes neuronales para predecir propiedades físicas

Ambos métodos se basaron en redes neuronales profundas que están capacitadas para
predecir las propiedades de la proteína a partir de su secuencia genética. Las propiedades
que predicen nuestras redes son: (a) las distancias entre pares de aminoácidos y (b) los
ángulos entre los enlaces químicos que conectan esos aminoácidos. El primer desarrollo es
un avance en las técnicas de uso común que estiman si los pares de aminoácidos están cerca
unos de otros.

Entrenamos una red neuronal para predecir una distribución de distancias entre cada par de
residuos en una proteína (visualizada en la Figura 2). Estas probabilidades se combinaron
luego en una puntuación que estima la precisión de la estructura de una proteína propuesta.
También entrenamos una red neuronal separada que usa todas las distancias en conjunto
para estimar qué tan cerca está la estructura propuesta de la respuesta correcta.
Figura 2: dos formas de visualizar la precisión de las predicciones de AlphaFold. La figura
superior presenta las matrices de distancia para tres proteínas. El brillo de cada píxel
representa la distancia entre los aminoácidos en la secuencia que comprende la proteína:
cuanto más brillante es el píxel, más cerca está el par. En la fila superior se muestran las
distancias reales determinadas experimentalmente y, en la fila inferior, el promedio de las
distribuciones de distancia predichas por AlphaFold. Es importante destacar que estos
combinan bien tanto a escala global como local. Los paneles inferiores representan la
misma comparación utilizando modelos 3D, con las predicciones de AlphaFold (azul)
frente a los datos de verdad del terreno (verde) para las mismas tres proteínas.

Usando estas funciones de puntuación, pudimos buscar en el paisaje de proteínas para


encontrar estructuras que coincidieran con nuestras predicciones. Nuestro primer método se
basó en técnicas comúnmente utilizadas en biología estructural y reemplazó repetidamente
partes de una estructura de proteína con nuevos fragmentos de proteína. Entrenamos una
red neuronal generativa para inventar nuevos fragmentos, que se utilizaron para mejorar
continuamente la puntuación de la estructura de la proteína propuesta.
Figura 3: Un esquema de la arquitectura del sistema AlphaFold que predice la
estructura a partir de la secuencia de proteínas.

El segundo método optimizó las puntuaciones a través del descenso de gradientes, una
técnica matemática comúnmente utilizada en el aprendizaje automático para realizar
pequeñas mejoras incrementales, lo que resultó en estructuras altamente precisas. Esta
técnica se aplicó a cadenas de proteínas completas en lugar de a piezas que deben doblarse
por separado antes de ensamblarse en una estructura más grande, para simplificar el
proceso de predicción.

La versión AlphaFold utilizada en CASP13 está disponible en Github para cualquier


persona interesada en aprender más o replicar nuestros resultados de plegamiento de
proteínas.

¿Qué pasa después?

Si bien estamos encantados con el éxito de nuestro modelo de plegamiento de proteínas,


todavía queda mucho por hacer en el ámbito de la biología de las proteínas y estamos
entusiasmados de continuar nuestros esfuerzos en este campo. Estamos comprometidos a
establecer formas en que la IA pueda contribuir al descubrimiento científico básico, con la
esperanza de lograr un impacto en el mundo real. Este enfoque podría servir para mejorar
en última instancia nuestra comprensión del cuerpo y cómo funciona, permitiendo a los
científicos enfocarse y diseñar curas nuevas y efectivas para enfermedades de manera más
eficiente.

Los científicos solo han mapeado las estructuras de aproximadamente la mitad de todas las
proteínas producidas por las células humanas. Algunas enfermedades raras involucran
mutaciones en un solo gen, lo que da como resultado una proteína malformada que puede
tener efectos profundos en la salud de todo un organismo. Una herramienta como
AlphaFold podría ayudar a los investigadores de enfermedades raras a predecir la forma de
una proteína de interés de forma rápida y económica. A medida que los científicos
adquieran más conocimientos sobre las formas de las proteínas y cómo operan a través de
simulaciones y modelos, este método puede eventualmente ayudarnos a contribuir al
descubrimiento eficiente de fármacos, al tiempo que reduce los costos asociados con la
experimentación. Nuestra esperanza es que la IA sea útil para la investigación de
enfermedades y, en última instancia, mejore la calidad de vida de millones de pacientes en
todo el mundo.

Pero los beneficios potenciales no se limitan solo a la salud: comprender el plegamiento de


proteínas ayudará en el diseño de proteínas, lo que podría desbloquear una gran cantidad de
beneficios. Por ejemplo, los avances en las enzimas biodegradables, que pueden ser
habilitadas por el diseño de proteínas, podrían ayudar a manejar contaminantes como el
plástico y el aceite, ayudándonos a descomponer los desechos de maneras más amigables
con nuestro medio ambiente. De hecho, los investigadores ya han comenzado a diseñar
bacterias para que secreten proteínas que harán que los desechos sean biodegradables y más
fáciles de procesar.

El éxito de nuestra primera incursión en el plegamiento de proteínas es indicativo de cómo


los sistemas de aprendizaje automático pueden integrar diversas fuentes de información
para ayudar a los científicos a encontrar rápidamente soluciones creativas a problemas
complejos. Así como hemos visto cómo la IA puede ayudar a las personas a dominar juegos
complejos a través de sistemas como AlphaGo y AlphaZero, también esperamos que
algún día, los avances de la IA sirvan como plataforma para avanzar en nuestra
comprensión de los problemas científicos fundamentales.

Es emocionante ver estos primeros signos de progreso en el plegamiento de proteínas, lo


que demuestra la utilidad de la IA para el descubrimiento científico. Aunque hay mucho
más trabajo por hacer antes de que podamos tener un impacto cuantificable en el
tratamiento de enfermedades, la gestión de desechos y más, sabemos que el potencial es
enorme. Con un equipo dedicado centrado en profundizar en cómo el aprendizaje
automático puede hacer avanzar el mundo de la ciencia, esperamos ver las muchas formas
en que nuestra tecnología puede marcar la diferencia.

Este trabajo se realizó en colaboración con Andrew Senior, Richard Evans, John Jumper, James Kirkpatrick,
Laurent Sifre, Tim Green, Chongli Qin, Augustin Žídek, Sandy Nelson, Alex Bridgland, Hugo Penedones,
Stig Petersen, Karen Simonyan, Steve Crossan, Pushmeet Kohli, David Jones, David Silver, Koray
Kavukcuoglu y Demis Hassabis

También podría gustarte