AlphaFold, Inteligencia Artificial para Descubrimiento Científico
AlphaFold, Inteligencia Artificial para Descubrimiento Científico
AlphaFold, Inteligencia Artificial para Descubrimiento Científico
Andrew Senior
John puente
Demis Hassabis
Pushmeet Kohli
Nuestro sistema, AlphaFold, que se describe en artículos revisados por pares que ahora se
publican en Nature y PROTEINS, es la culminación de varios años de trabajo y se basa en
décadas de investigación previa que utiliza grandes conjuntos de datos genómicos para
predecir la estructura de las proteínas. Los modelos 3D de proteínas que genera AlphaFold
son mucho más precisos que los anteriores, lo que marca un progreso significativo en uno
de los principales desafíos de la biología. El código AlphaFold utilizado en CASP13 está
disponible en Github para cualquier persona interesada en aprender más o replicar nuestros
resultados. También estamos entusiasmados por el hecho de que este trabajo ya ha
inspirado otras implementaciones independientes.
Las proteínas son moléculas grandes y complejas esenciales para toda la vida. Casi todas
las funciones que realiza nuestro cuerpo (contraer los músculos, sentir la luz o convertir los
alimentos en energía) dependen de las proteínas y de cómo se mueven y cambian. Lo que
puede hacer una proteína determinada depende de su estructura 3D única. Por ejemplo, las
proteínas de anticuerpos utilizadas por nuestro sistema inmunológico tienen "forma de Y" y
forman ganchos únicos. Al adherirse a virus y bacterias, estas proteínas de anticuerpos
pueden detectar y marcar microorganismos causantes de enfermedades para su eliminación.
Las proteínas de colágeno tienen forma de cordones, que transmiten tensión entre
cartílagos, ligamentos, huesos y piel. Otros tipos de proteínas incluyen Cas9, que,
utilizando secuencias CRISPR como guía, actúa como tijeras para cortar y pegar secciones
de ADN; proteínas anticongelantes, cuya estructura 3D les permite unirse a los cristales de
hielo y evitar que los organismos se congelen; y ribosomas, que actúan como una línea de
ensamblaje programada, ayudando a construir las propias proteínas.
Las recetas de esas proteínas, llamadas genes, están codificadas en nuestro ADN. Un error
en la receta genética puede resultar en una proteína mal formada, lo que podría resultar en
una enfermedad o la muerte de un organismo. Muchas enfermedades, por tanto, están
fundamentalmente ligadas a las proteínas. Pero el hecho de que conozca la receta genética
de una proteína no significa que sepa automáticamente su forma. Las proteínas están
compuestas por cadenas de aminoácidos (también conocidas como residuos de
aminoácidos). Pero el ADN solo contiene información sobre la secuencia de aminoácidos,
no sobre cómo se pliegan. Cuanto más grande es la proteína, más difícil es modelar, porque
hay más interacciones entre los aminoácidos a tener en cuenta. Como lo demuestra la
paradoja de Levinthal, tomaría más tiempo que la edad del universo conocido enumerar
aleatoriamente todas las configuraciones posibles de una proteína típica antes de alcanzar la
verdadera estructura 3D; sin embargo, las proteínas mismas se pliegan espontáneamente, en
milisegundos. Predecir cómo estas cadenas se plegarán en la intrincada estructura 3D de
una proteína es lo que se conoce como el "problema del plegamiento de proteínas", un
desafío en el que los científicos han trabajado durante décadas. Este problema no resuelto
ya ha inspirado innumerables desarrollos, desde estimular los esfuerzos de IBM en
supercomputación ( BlueGene ), nuevos esfuerzos de ciencia ciudadana ( Folding @ Home
y FoldIt ) hasta nuevos dominios de ingeniería, como el diseño racional de proteínas.
Creo que seremos capaces de obtener una comprensión más profunda de la naturaleza de la
enfermedad en general mediante la investigación de las moléculas que componen el cuerpo
humano, incluidas las moléculas anormales, y que esta comprensión permitirá que... el
problema de la enfermedad ser atacado de una manera más directa de modo que se
desarrollen nuevos métodos de terapia.
“Creo que seremos capaces de obtener una comprensión más profunda de la naturaleza de
la enfermedad en general mediante la investigación de las moléculas que componen el
cuerpo humano, incluidas las moléculas anormales, y que esta comprensión permitirá
que... el problema de la enfermedad ser atacado de una manera más directa de modo que
se desarrollen nuevos métodos de terapia. “ Linus Pauling, 1960
Los científicos han estado interesados durante mucho tiempo en determinar las estructuras
de las proteínas porque se cree que la forma de una proteína dicta su función. Una vez que
se comprende la forma de una proteína, se puede adivinar su función dentro de la célula y
los científicos pueden desarrollar medicamentos que funcionen con la forma única de la
proteína.
Durante las últimas cinco décadas, los investigadores han podido determinar formas de
proteínas en laboratorios utilizando técnicas experimentales como microscopía
crioelectrónica, resonancia magnética nuclear y cristalografía de rayos X, pero cada método
depende de una gran cantidad de ensayo y error, que puede tomar años de trabajo y cuestan
decenas o cientos de miles de dólares por estructura proteica. Es por eso que los biólogos
están recurriendo a los métodos de IA como una alternativa a este largo y laborioso proceso
para proteínas difíciles. La capacidad de predecir computacionalmente la forma de una
proteína a partir de su código genético solo, en lugar de determinarla mediante una
experimentación costosa, podría ayudar a acelerar la investigación.
Ambos métodos se basaron en redes neuronales profundas que están capacitadas para
predecir las propiedades de la proteína a partir de su secuencia genética. Las propiedades
que predicen nuestras redes son: (a) las distancias entre pares de aminoácidos y (b) los
ángulos entre los enlaces químicos que conectan esos aminoácidos. El primer desarrollo es
un avance en las técnicas de uso común que estiman si los pares de aminoácidos están cerca
unos de otros.
Entrenamos una red neuronal para predecir una distribución de distancias entre cada par de
residuos en una proteína (visualizada en la Figura 2). Estas probabilidades se combinaron
luego en una puntuación que estima la precisión de la estructura de una proteína propuesta.
También entrenamos una red neuronal separada que usa todas las distancias en conjunto
para estimar qué tan cerca está la estructura propuesta de la respuesta correcta.
Figura 2: dos formas de visualizar la precisión de las predicciones de AlphaFold. La figura
superior presenta las matrices de distancia para tres proteínas. El brillo de cada píxel
representa la distancia entre los aminoácidos en la secuencia que comprende la proteína:
cuanto más brillante es el píxel, más cerca está el par. En la fila superior se muestran las
distancias reales determinadas experimentalmente y, en la fila inferior, el promedio de las
distribuciones de distancia predichas por AlphaFold. Es importante destacar que estos
combinan bien tanto a escala global como local. Los paneles inferiores representan la
misma comparación utilizando modelos 3D, con las predicciones de AlphaFold (azul)
frente a los datos de verdad del terreno (verde) para las mismas tres proteínas.
El segundo método optimizó las puntuaciones a través del descenso de gradientes, una
técnica matemática comúnmente utilizada en el aprendizaje automático para realizar
pequeñas mejoras incrementales, lo que resultó en estructuras altamente precisas. Esta
técnica se aplicó a cadenas de proteínas completas en lugar de a piezas que deben doblarse
por separado antes de ensamblarse en una estructura más grande, para simplificar el
proceso de predicción.
Los científicos solo han mapeado las estructuras de aproximadamente la mitad de todas las
proteínas producidas por las células humanas. Algunas enfermedades raras involucran
mutaciones en un solo gen, lo que da como resultado una proteína malformada que puede
tener efectos profundos en la salud de todo un organismo. Una herramienta como
AlphaFold podría ayudar a los investigadores de enfermedades raras a predecir la forma de
una proteína de interés de forma rápida y económica. A medida que los científicos
adquieran más conocimientos sobre las formas de las proteínas y cómo operan a través de
simulaciones y modelos, este método puede eventualmente ayudarnos a contribuir al
descubrimiento eficiente de fármacos, al tiempo que reduce los costos asociados con la
experimentación. Nuestra esperanza es que la IA sea útil para la investigación de
enfermedades y, en última instancia, mejore la calidad de vida de millones de pacientes en
todo el mundo.
Este trabajo se realizó en colaboración con Andrew Senior, Richard Evans, John Jumper, James Kirkpatrick,
Laurent Sifre, Tim Green, Chongli Qin, Augustin Žídek, Sandy Nelson, Alex Bridgland, Hugo Penedones,
Stig Petersen, Karen Simonyan, Steve Crossan, Pushmeet Kohli, David Jones, David Silver, Koray
Kavukcuoglu y Demis Hassabis