TP Dinamica Molecular

Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1de 24

Trabajo Práctico

Dinámica Molecular de Proteínas


I. Introducción a la dinámica molecular

Fundamentos

La dinámica molecular (MD) es hoy en día una de las principales herramientas utilizadas en
el estudio de macromoléculas de interés biológico. En una simulación de dinámica molecular clásica
se calcula una evolución temporal de las posiciones y velocidades de los átomos de un sistema a
través de la resolución de las ecuaciones de movimiento de Newton. Este método computacional se
emplea ya de forma rutinaria para proporcionar información detallada sobre la dinámica
(fluctuaciones y cambios conformacionales) y la termodinámica de macromoléculas biológicas
como proteínas, polisacáridos y ácidos nucleicos en solución acuosa, así como complejos de
asociación proteína-ligando. Estos sistemas son de un tamaño considerable (del orden de las
decenas de miles de átomos) para ser tratados a un nivel mecanocuántico, es decir, considerando
explícitamente los electrones y núcleos. Por ello las simulaciones de tipo MD son una herramienta
poderosa y nos permite la observación de eventos temporales del orden de los pico, nano e incluso
microsegundos (¿y milisegundos? ¿y segundos?) que puedan suceder en nuestro sistema de interés.
Las simulaciones de tipo MD pueden ser realizadas usando un amplio rango de condiciones que
emulan las condiciones experimentales típicas. Las primeras simulaciones MD fueron hechas en
vacío tomando a las moléculas como entidades aisladas. Luego, se comenzó a desarrollar e incluir al
solvente de manera implícita o explícita.

La mecánica estadística es la teoría fundamental que subyace a todas las simulaciones de


dinámica molecular de tipo clásica. Esta teoría permite, a partir de la información a nivel
microscópico que la simulación MD ofrece (como posiciones atómicas y velocidades), calcular
observables macroscópicos como la presión, energía, capacidades caloríficas, etc. Recuerden que el
estado termodinámico de un sistema viene definido generalmente por un conjunto pequeño de
observables, por ejemplo, la temperatura (T), la presión (P), el volumen (V) o el número de
partículas (N). Otros observables se pueden derivar de las ecuaciones de estado (que vinculan entre
sí las variables antes mencionadas) y otras ecuaciones termodinámicas fundamentales. El estado
microscópico de un sistema está definido por las posiciones atómicas (q) y los momentos (p). Estos

Trabajo Práctico - Dinámica Molecular de Proteínas 2/24


también pueden ser considerados como coordenadas en un espacio multidimensional llamado
espacio de fase​
. Para un sistema de N partículas, este espacio tiene 6N dimensiones (¿por qué 6N?).

Ensambles

Un colectivo o ​
ensamble es una ​
colección de microconfiguraciones del sistema en el espacio
de fases que satisface las condiciones de un estado termodinámico determinado. Una simulación de
dinámica molecular genera una secuencia de configuraciones en el espacio de fases que está
trayectoria​
concatenada en función del tiempo y recibe el nombre de ​ . Cada punto de la trayectoria
equivale a una foto de una película que está separada de la anterior y de la siguiente por un
timestep​
intervalo de tiempo dado (​ ). Todos los puntos de la trayectoria pertenecen al mismo
conjunto y corresponden a diferentes configuraciones (posiciones y momentos) del sistema.
Aunque cada estado microscópico sea diferente, todos pertenecen al mismo estado macroscópico
termodinámico del sistema. Las simulaciones más ampliamente utilizadas corresponden a los
siguientes ensambles:

1) El ensamble ​
canónico (NVT): colección de todos los sistemas cuyo estado termodinámico está
caracterizado por un número fijo de átomos (N), volumen fijo (V) y temperatura dada (T).
isobárico-isoentálpico​
2) El ensamble ​ (NPH).
isobárico-isotérmico​
3) El ensamble​ (NPT).
gran canónico ​
4) El ensamble ​ (uVT).
microcanónico​
5) El ensamble ​ (NVE).

Típicamente, los experimentos se realizan a temperatura y volumen constantes (ensamble


canónico) o bien a temperatura y presión constante (ensamble isobárico-isotérmico), por tanto es
frecuente elegir estas condiciones de simulación para imitar estas condiciones, o porque es
esperable encontrarlas en un entorno fisiológico.

Solvatación

Como nuestro sistema de interés es una proteína perteneciente a un organismo vivo, es


importante tener en cuenta una representación razonable del solvente con el cual vamos a embeber

Trabajo Práctico - Dinámica Molecular de Proteínas 3/24


al sistema. Esto nos permitirá tener una representación más cercana a las condiciones en donde la
proteína se encuentra en la naturaleza. La mayor parte de las proteínas se encuentran, al menos
parcialmente, embebidas en un entorno acuoso. Por esto, es usual asumir en las simulaciones de
estos sistemas, que están completamente solvatadas, ya sea en agua pura o en agua con iones. Sin
embargo, una porción considerable del tiempo de cómputo es utilizada en evaluar la interacción
solvente-solvente. Una manera de evitar esto es usar un modelo de solvente implícito, que puede
ser adecuado en algunos casos, a pesar de la pérdida del detalle en la descripción. En consecuencia,
han sido implementados numerosos modelos de solvente implícito.

Solvente implícito

Uno de ellos es el modelo llamado modelo “generalizado de Born” (GB). En general, estos
modelos de solvente implícito consideran a todo el solvente como una “jalea” que envuelve a la
proteína y está caracterizada por una constante dieléctrica. Eligiendo entonces este parámetro se
obtienen distintos tipos de solvente implícito (agua, etanol, mezcla de solventes, etc). Los modelos
de solvente implícito son incapaces de reproducir fenómenos microscópicos del solvente, por
ejemplo, enlaces de hidrógeno, adsorción sobre la proteína, etc. Además, facilita la aparición de
determinadas conformaciones “irreales” de la proteína cuando se las compara con solvente
explícito.

Solvente explícito

El poder de cómputo actual permite usar sin inconvenientes el solvente explícito. Este
modelo utiliza una descripción atomística de las moléculas de solvente de forma análoga a la usada
para la proteína, es decir asigna carga, enlaces, diedros, parámetros de van der Waals, etc. para cada
átomo del solvente. Existen un amplio rango de modelos de agua explícita disponibles. Los más
populares son TIP3P, TIP4P, TIP5P, SPC y SCP/E, que tienen la particularidad de tratar a las
moléculas de agua como completamente rígidas. Esta última aproximación también ahorra mucho
tiempo de cómputo, y se ha demostrado en numerosos trabajos que la mayoría de las propiedades
de los sistemas no se ven afectados por dicha simplificación.

Trabajo Práctico - Dinámica Molecular de Proteínas 4/24


Finalmente, para lograr el ensamble isobárico-isotérmico comúnmente utilizado
necesitamos controlar la presión y temperatura de nuestras simulaciones.

Termostatos

Termostato de Berendsen (termostato proporcional)

El termostato de Berendsen corrige las desviaciones de la temperatura T respecto de la

0 a tiempo t multiplicando las velocidades de los átomos por un factor λ


temperatura de referencia T​
con el propósito de llevar el sistema global a la temperatura T​.
0​

La constante τ​
T es
​ la constante de acoplamiento temporal, la cual determina la escala de

tiempo para la cual la temperatura deseada es alcanzada. Si se elige un τ​


T muy grande el sistema

tiende a comportarse de manera aislada. ¿Por qué?

Termostato de Langevin (termostato estocástico)

En el caso de los termostatos de tipo estocásticos, todos o un subconjunto de grados de


libertad del sistema son sometidos a colisiones con partículas virtuales. Este método está motivado
por la ecuación estocástica diferencial de Langevin, la cual describe el movimiento de una partícula
dada por la agitación térmica de un baño,
ma ​ v​
= − ζ​ f​
+​ r​
(​ f​
)+​´

donde ​
m es la masa de una partícula, ​ f​
a es su aceleración, ​ r​
(​) es un fuerza conservativa que actúa
sobre la partícula, v es la velocidad de la partícula, ζ es una constante friccional (la fuerza friccional
-ζv disminuye la energía cinética) y ​
f​
´ es una fuerza aleatoria de tipo gaussiana que agrega energía
cinética a las partículas y su varianza es función de la temperatura y del timestep. Por consiguiente,
la fuerza aleatoria se impone para poder mantener el sistema a T constante, dicho de otra manera,

Trabajo Práctico - Dinámica Molecular de Proteínas 5/24


la fuerza friccional y la fuerza aleatoria se compensan tratando de mantener el sistema a la
temperatura deseada y permitiendo que evolucione en el tiempo.

Cuanto mayor es el valor de ζ​


, se incrementan las fluctuaciones térmicas (porque es como
considerar más choques virtuales), mientras que para ζ=0 el sistema es aislado (es decir, sería
τ​
análogo a que ​tienda a infinito para el termostato de Berendsen).

Barostatos

Para mantener constante la presión durante la simulación es necesario permitir que el


volumen fluctúe, ajustando para eso las dimensiones de la caja periódica y re-escalando las
posiciones de los átomos de acuerdo a esto. Existen numerosos métodos para hacer dinámicas a
presión constante. Estos métodos incluyen el algoritmo de sistema extendido (​
extended system
algorithm​ constraint algorithm​
), el de restricción (​ ), un acoplamiento débil con un baño externo, el
método híbrido y el método del pistón de Langevin.

II. Introducción al trabajo práctico

En el presente trabajo práctico se aprenderá a preparar una estructura proteica para correr
una dinámica molecular utilizando el paquete de programas de AMBER. El esquema de
organización de archivos y tareas que sigue AMBER es el siguiente:

Trabajo Práctico - Dinámica Molecular de Proteínas 6/24


Otros paquetes de los más utilizados en la actualidad (Gromacs, GROMOS, Namd) siguen
esquemas muy similares. A lo largo de este trabajo práctico iremos siguiendo los pasos del esquema
anterior.

Como sistema de estudio se trabajará con la peroxirredoxina alquil hidroperóxido reductasa


Mycobacterium tuberculosis​
E (AhpE) de ​ , una enzima antioxidante que controla los niveles celulares
de peróxidos. Resulta clave para la actividad catalítica de esta proteína un residuo cisteína que se
oxida a ácido sulfénico para reducir los peróxidos (e.g. agua oxigenada):

Prx-SH + H​O​
2​ → Prx-SOH + H​
2​ O
2​ (primer paso de la reacción)

Trabajo Práctico - Dinámica Molecular de Proteínas 7/24


Por ende, habrá determinados momentos en que centremos nuestra atención en este
aminoácido particular.

III. Trabajo práctico

III.a. Obtención de la estructura inicial

El primer paso en toda simulación de MD consiste en conseguir una estructura a nivel


atómico de la proteína de interés. Descargue de la base de datos ​
Protein Data Bank
(http://www.rcsb.org/) el pdb correspondiente a la peroxirredoxina AhpE (pdbID 1XXU). Fíjese la
información brindada en la página web sobre esta macromolécula: tamaño, tipo de estructura,
estructura cuaternaria, ligandos y la información que considere pertinente. Ayúdense mirando el
paper asociado a dicho pdb. Observe con un editor de texto el archivo pdb e intente identificar la
información brindada.

Ahora abra la estructura con VMD y obsérvela. Cambie las representaciones para visualizar
la estructura cuaternaria. Identifique los aminoácidos claves según la función de la proteína y
observe su entorno más cercano. A partir de sus observaciones discuta con el docente y demás
compañeros qué cadenas de la proteína podría tomar a partir de la estructura del pdb y la
información accesoria para estudiar a través de MD.

NOTA 1:​
En este punto, cree un directorio suyo y trabaje siempre desde allí.

peroxirredoxina_cristal.pdb​
Copie el archivo .pdb original a ​ para editarlo.

En función de la estructura a simular, edite el nuevo pdb convenientemente. Para ello


realice las siguientes acciones sobre el archivo plano del pdb:

1. Borre todos los caracteres hasta donde la primera línea dice “ATOM”.

Trabajo Práctico - Dinámica Molecular de Proteínas 8/24


La única información que usan los programas de MD son las coordenadas atómicas del pdb.

2. Borre las cadenas que considere no ser necesarias para la simulación.


Tenga en cuenta que la proteína se comporta como dímero en solución.

3. Borre todas las aguas cristalográficas (¿por qué?).

4. Cambie el nombre de los residuos cisteína: CYS por CYM.


Este procedimiento es la forma de advertirle al programa que para construir la topología
considere los parámetros de una cisteína desprotonada en el azufre (cuyo nombre es CYM
en la biblioteca interna de AMBER). Discuta acerca de los estados de protonación accesibles
para la cisteína. Compare el poder nucleofílico que tiene una CYS (-SH) con el de una CYM
-​
(-S​) y tenga en cuenta la reacción esquematizada en la introducción del TP.

5. Añadir una línea con la palabra TER luego de cada cadena aminoacídica.

III.b. Preparación de archivos de coordenadas y topología

Una vez obtenida la estructura inicial, se preparará el sistema y se armarán los archivos
requeridos para poder realizar las simulaciones de dinámica molecular de la peroxirredoxina en
solvente explícito.

Con el archivo pdb correctamente editado, ya podemos construir los dos archivos
requeridos por AMBER para realizar cualquier tipo de cálculos: el archivo de coordenadas (llamado
archivo “.rst7”) y el de parámetros/topología (llamado archivo “.prmtop”). El primero tiene
información de las coordenadas (y eventualmente velocidades) de todos los átomos del sistema.
También tiene información sobre los límites de la caja de solvatación. El archivo prmtop contiene
los parámetros del campo de fuerzas (parámetros de enlace, ángulos, diedros, etc.) que se utilizarán
y la topología molecular (conectividad de los átomos, tipos de átomos, masas, cargas, etc.). También
posee información sobre el tipo de caja de solvente (octahédrica, cúbica, etc.).

Trabajo Práctico - Dinámica Molecular de Proteínas 9/24


Para construir estos dos archivos se usa un módulo que se llama ​
tLeap (el cual viene
incluido en el paquete de AMBER). Para armar el sistema con sus correspondientes parámetros,
ejecutar lo siguiente en consola:

$ tleap -f leaprc.ff99SB

Y posteriormente, dentro del módulo tLeap, ejecute en secuencia cada uno de los siguientes
comandos (observe los resultados luego de ejecutar cada comando):

> PER = loadpdb peroxirredoxina_cristal.pdb


> solvateOct PER TIP3PBOX 9.0
> saveAmberParm PER peroxi_aguas.prmtop peroxi_aguas.rst7
> savepdb PER peroxi_aguas.pdb
> quit

Interprete qué realiza cada comando.

Al final de esta actividad se habrán generado entonces 3 archivos: el de coordenadas (.rst7),


el de topología (.prmtop) y un pdb que corresponde al sistema solvatado. Visualícelo con VMD, ¿qué
diferencia hay en la estructura de la proteína respecto al pdb original?

Ahora ya están listos para realizar la simulación de dinámica molecular. Se procederá a


realizar una minimización de energía, luego una termalización y una equilibración a T y P
constantes. Por último, se realizarán las simulaciones de dinámica molecular que llamaremos
corrida de producción, de donde obtendrán la información que necesitan.

NOTA 2: Tanto los archivos necesarios para realizar los cálculos como los resultados de los
mismos fueron hechos previamente para que puedan ser analizados en el tiempo acotado del
desarrollo de este TP. Por tanto, en cada parte de esta guía donde se hagan los cálculos
pertinentes, tenga en cuenta el directorio en donde están guardados estos archivos. Se sugiere
que arme los archivos y largue todos los cálculos que se le piden asegurándose que los mismos se
ejecuten de manera exitosa. Luego, sólo quedaría esperar a que las dinámicas estén listas. En ese

Trabajo Práctico - Dinámica Molecular de Proteínas 10/24


caso puede detener los procesos que está llevando a cabo el programa y utilizar los resultados
previamente calculados por los docentes.

III.c. Minimización de energía del sistema

Para cristalizar una proteína se la somete a condiciones muy particulares, por ejemplo, baja
temperatura, distinta fuerza iónica respecto a su ambiente “natural”, entre otras. Incluso la proteína
en el cristal puede adoptar una conformación en donde algunos aminoácidos están demasiado
cerca. Todo lo anterior hace que la estructura cristalográfica muchas veces no sea representativa de
la estructura a 298K, pH fisiológico, ni a fuerza iónica de un entorno biorrelevante, con lo cual
muchas veces sucede que la estructura cristalográfica resulta ser tan solo una aproximación o una
“foto” de una proteína en su estado natural. Si bien esta estructura puede aportar alguna idea de su
comportamiento en condiciones biológicas relevantes, no siempre es concluyente. Es por eso que
necesitamos llevar de a poco y gradualmente la estructura del cristal de la proteína a las
condiciones más próximas a la “vida real”.

Observación: recordar además que a las moléculas de agua las hemos agregado con el tLeap,
cuyo algoritmo de agregado es simplemente colocar una molécula de agua en donde considere que
el volumen es suficiente para que entre la misma, sin tener demasiado cuidado con la orientación.
La estructura de solvatación resulta entonces realmente muy lejana a una estructura de solvatación
correcta y representativa.

Existen muchas formas de realizar este procedimiento. En nuestro caso realizaremos


primero una minimización de energía para “relajar” la estructura de solvatación, solucionando
principalmente los problemas electrostáticos dados por la orientación de las moléculas de agua. Se
hará entonces una minimización de la energía del sistema restringiendo a los átomos de la proteína
(dejándola fija) y se permitirá al solvente de la caja de aguas moverse y “relajarse” alrededor de la
proteína. Posteriormente, se hará una segunda minimización sin restricción alguna para obtener la
relajación de la geometría de todo el sistema en conjunto (proteína y solvente).

Trabajo Práctico - Dinámica Molecular de Proteínas 11/24


Minimización. Fase 1: solvente.

Se debe construir el siguiente script, llámelo min1.mdin.

***************************************************************************************************
# comentario
&cntrl # inicio de la sección
imin=1, # invoca a la minimización
maxcyc= 2000, # cantidad máxima de ciclos de minimización (pasos)
ncyc=100, # durante ncyc ciclos se usa el método de ​ Steepest Descent​
, luego se
activa el método de gradiente conjugado.
ntb=1, # usar condiciones periódicas de contorno
ntr=1, # activa la restricción en base a una referencia
cut=9.0, # radio en Angstroms del ​ cut-off​
para int. electrostáticas
restraintmask=’:1-306’, # máscara de la restricción: primeros 306 residuos
restraint_wt=500.0, # peso de la restricción
&end # cierre de la sección
***************************************************************************************************

Para ejecutar la orden de minimización del sistema se empleará el módulo “sander” del
paquete AMBER de la siguiente manera:

$ sander-O-imin1.mdin-omin1.mdout-pperoxi_aguas.prmtop-cperoxi_aguas.rst7-r
minimizado1.rst7 -ref peroxi_aguas.rst7

NOTA 3. Los archivos “.mdin” en Amber contienen información de los parámetros de corrida de
la simulación. En conclusión, para correr una dinámica molecular con AMBER necesitamos 3
archivos, el de coordenadas, el de topología y un archivo mdin.
-O = sobrescribir archivos output si existieran.
-i = input mdin con los parámetros de la corrida.
-o = output mdout con valores de energía, pasos, temperatura si corresponde, etc.
-p = input prmtop de parámetros/topología
-c = input rst7 de coordenadas (y velocidades si corresponde)
-r = output rst7 de coordenadas (y velocidades si corresponde)
-ref = input rst7 de coordenadas de referencia (necesario cuando se imponen restricciones)

Trabajo Práctico - Dinámica Molecular de Proteínas 12/24


Analizar la evolución de la energía total a lo largo de la minimización con el programa
mdout_analyzer que viene con AMBER:

$ mdout_analyzer.py min1.mdout

Elegir el parámetro a analizar y clickear en “Graph them!”. Dado que la reorientación de las
moléculas de agua tendrá un efecto significativo en la componente electrostática de la energía,
analizarla también. Por último, la componente RESTRAINT representa el efecto de la restricción
armónica en la posición de los átomos de la proteína, la cual debería elevarse al principio y luego
estabilizarse alrededor de un valor de equilibrio.

Si la energía bajó significativamente al principio y luego se estabilizó, proseguir con la


minimización general. Si no, probar más pasos de minimización.

Minimización. Fase 2: sistema entero.

Genere un nuevo archivo llamado min2.mdin que contenga las siguientes líneas:

***************************************************************************************************
# comentario
&cntrl # inicio de la sección
imin=1, # invoca a la minimización
maxcyc= 6000, # cantidad máxima de ciclos (pasos)
ncyc=300, # durante ncyc ciclos se usa el método de ​ Steepest Descent​
, luego se
activa el método de gradiente conjugado
ntb=1, # usar condiciones periódicas de contorno
ntr=0, # sin restricción de átomos
cut=9.0 # distancia de ​cut-off​
para interacciones electrostáticas
&end # cierre de la sección
***************************************************************************************************

Para ejecutarla, emplee el mismo módulo, pero esta vez dándole como entrada la salida
anterior:

Trabajo Práctico - Dinámica Molecular de Proteínas 13/24


$ sander -O -i min2.mdin -o min2.mdout -p peroxi_aguas.prmtop-cminimizado1.rst7-r
minimizado2.rst7

Analizar nuevamente la evolución de la energía con mdout_analyzer.

Abrir la estructura minimizada en VMD y compararla con la estructura inicial para chequear
que no hayan ocurrido modificaciones sustanciales de estructura:

$ vmd -parm7 peroxi_aguas.prmtop -rst7 peroxi_aguas.rst7 minimizado2.rst7

III.d. Termalización del sistema

En esta etapa se calentará al sistema de 0K a 298K de manera gradual, ésta es la fase


denominada calentamiento o termalización. Para esto se generará una rampa de temperatura que
se irá incrementando hasta alcanzar la esperada. Se utilizará el algoritmo SHAKE para inmovilizar a
los átomos de H, impidiendo el movimiento de los enlaces en los que estos están involucrados.
Puesto que los enlaces H-X vibran de modo muy rápido (1 fs), al inmovilizar a los H es factible
time step​
utilizar un Δt (​ ) mayor (pasando de 0.001 ps a 0,002 ps), disminuyendo así a la mitad la
cantidad de pasos calculados para obtener el mismo tiempo de simulación y evitando un aumento
de la temperatura (por eventuales choques) que podría llevar al sistema a conformaciones no
deseables (¿por qué puede pasar esto?).

Se debe construir el siguiente script, term.mdin:

***************************************************************************************************
&cntrl # inicio de la sección
imin=0, # invoca una simulación de dinámica molecular
irest=0, # bandera para reiniciar la corrida: (0) se reinicia, (1) se continúa
con una trayectoria
ntx=1, # (1) no lee información sobre velocidades iniciales
ntb=1, # condiciones periódicas de contorno: (1) volumen constante, (2)
presión constante
cut=9.0, # radio de cut-off para interacciones electrostáticas
ntr=0, # sin restricción

Trabajo Práctico - Dinámica Molecular de Proteínas 14/24


ntc=2, # bandera para SHAKE: (2) H de los enlaces restringidos
ntf=2, # se omite la evaluación de los enlaces que involucran átomos de H
en el cálculo de las fuerzas
tempi=0.0, # temperatura inicial (K)
temp0=298.0, # temperatura final (K)
ntt=3, # regulación de la temperatura: utilizar dinámica de Langevin para el
control de la temperatura
gamma_ln=1.0, # frecuencia de colisión empleado en el control de la temperatura
nstlim=10000, # número de pasos de dinámica molecular
dt=0.002, # paso del tiempo (ps)
ntpr=100, ntwx=100, # cada NTPR/NTWX pasos se guarda la información de la energía /
coordenadas
ntwr=1000, # cada NTWR pasos se genera el archivo “restrt”, con la información
de las coordenadas del último paso
ioutfm=1 # guarda la trayectoria en formato específico
&end # cierre de la sección
***************************************************************************************************

Para ejecutar la termalización del sistema se empleará el módulo “pmemd”:

$ pmemd -O -i term.mdin -o term.mdout -p peroxi_aguas.prmtop -c minimizado2.rst7 -r


term.rst7 -x term.nc

Analizar con el mdout_analyzer la evolución de la temperatura y la energía cinética del


sistema.

III.e. Equilibración del sistema

Habiendo calentado el sistema, ahora se buscará simular durante un tiempo determinado a


temperatura y presión constante, de manera que el sistema acomode su volumen para lograr una
densidad adecuada. Generalmente, esta fase suele ser de algunos ns de simulación, pero es muy
dependiente del tamaño y de las características de cada sistema.

Se debe construir el siguiente script: eq.mdin

***************************************************************************************************

Trabajo Práctico - Dinámica Molecular de Proteínas 15/24


# comentario
&cntrl
imin=0,
irest=1, # (1) se continúa con una trayectoria
ntx=5, # las velocidades de los átomos se leen de un input
ntb=2, # (2) presión​ ​
constante
pres0=1.0, # valor de la presión de referencia a la cual se mantiene al sistema
ntp=1, # DM con escalado de posición isotrópica para mantener presión
constante
taup=2.0, # tiempo de relajación de la presión (ps)
cut=9.0, # distancia de cutt-off para interacciones electrostáticas
ntr=0, # no se restringe ningún átomo
ntc=2, # (2) se restringen los hidrógenos de los enlaces
ntf=2, # se omite la evaluación de los enlaces con H
temp0=300.0, # temperatura de referencia (K)
ntt=3, # utilizar dinámica de Langevin para el control de la T
gamma_ln=1.0, # factor de colisión empleado en el control de​ ​
la T
nstlim=100000, dt=0.002, # número de pasos de DM, valor de Δt
ntpr=100, ntwx=100, # cada NTPR/NTWX pasos se guarda la información de la
energía/coordenadas
ntwr=1000, # cada NTWR pasos se genera el archivo “restart”, con la información
de las coordenadas del último paso
ioutfm=1, # guarda la trayectoria en formato específico
ntxo=2 # guarda el restart file en formato específico
&end
***************************************************************************************************

Para ejecutar la orden de equilibración del sistema se seguirá empleando el módulo


“pmemd”:

$ pmemd -O -i eq.mdin -o eq.mdout -p peroxi_aguas.prmtop -c term.rst7 -r eq.rst7 -x


eq.nc

Analizar la estabilización de la energía cinética, potencial y total, la temperatura, la presión


y la densidad. Otro parámetro que da indicio de haber alcanzado el equilibrio es el RMSD del
backbone de la proteína, pero lo analizaremos directamente sobre la dinámica de producción.

Trabajo Práctico - Dinámica Molecular de Proteínas 16/24


Si prestaron atención, ya desde la termalización empezamos a obtener trayectorias de la
dinámica proteica (el output se controla con el ​
flag -x y su extension suele ser .nc). Abra la
trayectoria de equilibración con VMD:

$ vmd -parm7 peroxi_aguas.prmtop -netcdf eq.nc

¿Se mantiene la estructura de la proteína? ¿Qué sucede con la caja de solvente? El efecto de
aumento de volumen y destrucción de la caja octaédrica de solvatación es un problema de
visualización que no representa el cálculo hecho con condiciones periódicas de contorno. Para
solucionarlo, debemos centrar la caja respecto de la proteína con el programa de análisis ​
cpptraj
(también del paquete AMBER). Primero, armar el siguiente script (center.cpptraj):

***************************************************************************************************
parm peroxi_aguas.prmtop # se carga el archivo de topología/parametros
trajin eq.nc # se carga la trayectoria no centrada
center :1-153 mass origin # se establecen los residuos que definen el centro de la caja
image origin center familiar # se hace el centrado
center :1-306 mass origin # se repite para tener en cuenta todo el dímero
image origin center familiar
trajout eq_centered.nc netcdf # se guarda la trayectoria centrada
***************************************************************************************************

Luego, se ejecuta con cpptraj:

$ cpptraj -i center.cpptraj

Ahora cargue la nueva trayectoria al VMD y chequee que se halla correctamente centrada:

$ vmd -parm7 peroxi_aguas.prmtop -netcdf eq_centered.nc

III.f. Dinámica de producción

Ya estamos listos para correr la dinámica de producción. Se debe construir el mismo script
que para la fase de equilibración, solo que el tiempo simulado debe ser considerablemente más

Trabajo Práctico - Dinámica Molecular de Proteínas 17/24


largo (aumentar el parámetro “nstlim”). Para ejecutar la orden de producción del sistema se
empleará también el módulo “pmemd” del paquete AMBER. Es necesario reconocer que, a
diferencia de la fase de equilibración, en este punto es donde posteriormente vamos a obtener
mucha información de la dinámica de la proteína. Entonces, resulta de vital importancia generar el
archivo conteniendo la información de la trayectoria de la proteína durante la dinámica. Para este
punto, los docentes proveerán la trayectoria previamente calculada, puesto que el costo
computacional requerido para simularla es muy alto.

Usted debería largar la corrida de la siguiente manera:

$ pmemd -O -i prod.mdin -o prod.mdout -p peroxi_aguas.prmtop-ceq.rst7-rprod.rst7


-x prod.nc

De aquí en adelante se utilizarán los archivos provistos: AhpE.prmtop,


AhpE_100ns_md.mdout y AhpE_100ns_md.nc).
.
Abra la trayectoria con vmd y visualícela, para ello en consola ejecute:

$ vmd -parm7 AhpE.prmtop -netcdf AhpE_100ns_md.nc

Hasta este punto tienen una trayectoria de unos cuantos de nanosegundos para nuestra
proteína de interés en solución acuosa. Si hemos realizado todo el protocolo antes mencionado
correctamente, podemos estimar que nuestro sistema se encuentra equilibrado a T=300K y a P=1
atm. Pueden asumir que la trayectoria responde bien a un modelo de ensamble a NPT constante.

Por otra parte, debido a la enorme cantidad de grados de libertad, es probable que no hayan
simulado lo suficiente como para haber obtenido todas las micro configuraciones posibles (es decir,
posiciones y velocidades) que la teoría requeriría para una completa descripción de todo el
ensamble. El protocolo empleado permite por lo menos decir que se encuentran en la zona cercana
a un mínimo de energía potencial. Con lo cual, pueden intuir que las microconfiguraciones que
observan van a ser relevantes en la “vida” de la proteína y por lo tanto también lo serán los eventos
que sucedan en la dinámica obtenida.

Trabajo Práctico - Dinámica Molecular de Proteínas 18/24


En la siguiente sección verán cómo obtener información relevante del sistema, es decir,
pasan a “preguntarle cosas” al sistema.

III.g. Análisis de resultados

Análisis de estabilidad de la simulación: energías, temperatura, presión, rmsd, etc.

La calidad de una trayectoria obtenida mediante estudios de dinámica molecular puede ser
analizada de manera preliminar observando los parámetros energéticos asociados al sistema
simulado. Entre los aspectos más importantes a ser analizados se encuentran la energía total del
sistema, la energía cinética, la energía potencial y la temperatura. Como ya vimos, dicha
información se encuentra incluida en el archivo de salida de la simulación correspondiente (mdout)
y para realizar el procesamiento de dicha información puede utilizarse el script mdout_analyzer.py:

$ mdout_analyzer.py AhpE_100ns_md.out

Construya los gráficos de propiedades vs tiempo que posibiliten analizar las propiedades
del sistema simulado y su correcto equilibrio. ¿Qué comportamientos observa? ¿Eran esperables
estos resultados?

Veamos ahora la estabilidad estructural de la proteína a lo largo de la simulación. La


estructura debería mantenerse estable durante un tiempo considerable para poder obtener
resultados manera confiables. Para esto, es necesario tener una medida que permita determinar
cómo va fluctuando la estructura de la proteína. Se analizará cuánto se asemeja la estructura del
cristal (estructura inicial) con las distintas conformaciones que va adquiriendo a lo largo de la
dinámica. Esto se hará calculando la raíz de la desviación cuadrática media (RMSD, por sus siglas en
inglés) entre los átomos del ​
backbone del cristal con los de cada foto de la simulación de dinámica
molecular. El RMSD es una medida de la distancia promedio en átomos de 2 posibles estructuras.

Trabajo Práctico - Dinámica Molecular de Proteínas 19/24


min​ = minimización de la suma por roto-traslación de una estructura respecto de la otra.
T,R​
N = número total de átomos en la estructura.
r​(t​
i​ ) = posición del i-ésimo átomo a un tiempo de referencia t​
0​ .
0​
r​(t)
i​ = posición del i-ésimo átomo a cada tiempo t.

El RMSD se expresa en Å. Cuando se corre una MD la proteína se traslada del origen y va


rotando. Para realizar la comparación, primero hay que encontrar el alineamiento roto-traslacional
óptimo entre las estructuras a comparar de modo de minimizar el RMSD y que no haya artefactos
en el cálculo. Para esto (y la mayoría de las acciones de análisis y procesamiento de las trayectorias)
se empleará el módulo cpptraj ya visto. Contruya el siguiente script: rmsd.cpptraj

***************************************************************************************************
parm AhpE.prmtop #​se carga el archivo de topología
trajin AhpE_100ns_md.nc # ingresa la trayectoria a ser procesada
rms first out rmsdBackbone.dat :1-306@CA,N,O,C # minimiza y calcula el RMSD del ​ backbone
rms first out rmsdTotal.dat :1-306 # minimiza y calcula el RMSD de todos los
átomos
***************************************************************************************************

Para ejecutar esta orden, invoque al script de la siguiente manera:

$ cpptraj -i rmsd.cpptraj

Analice la salida en un gráfico de los dos RMSD calculados (en Å) vs frame (“foto”),
cargándola con el programa xmgrace de la siguiente manera:

$ xmgrace rmsdBackbone.dat rmsdTotal.dat

¿Cuán alejada de la estructura inicial se halla la estructura simulada en la dinámica de


producción? ¿Fluctúa mucho el RMSD obtenido de la simulación? ¿Qué indicaría un incremento

Trabajo Práctico - Dinámica Molecular de Proteínas 20/24


constante del RMSD a lo largo de la trayectoria? ¿A qué se debe la diferencia entre ambos RMSD
calculados? ¿Siguen el mismo patrón? ¿Por qué?

Análisis de flexibilidad

A lo largo de la simulación de dinámica molecular es de esperar que no todos los residuos


tengan la misma movilidad, puesto que las proteínas tienen zonas más rígidas y/o más flexibles que
otras. Para evidenciar lo anterior, se analizará la movilidad promedio del ​
backbone de cada residuo
a lo largo de la dinámica.

Generar el siguiente script: rmsf.cpptraj

***************************************************************************************************
parm AhpE.prmtop #​se carga el archivo de topología
trajin AhpE_100ns_md.nc # ingresa la trayectoria a ser procesada
rms first out rmsdBackbone.dat :1-306@CA,N,O,C # minimiza y calcula el RMSD del ​ backbone
atomicfluct out rmsf.dat :1-306@CA,N,O,C byres # calcula el RMSF del ​backbone​ por residuo,
incluyendo todas las fotos
***************************************************************************************************

El script de análisis de flexibilidad debe ser ejecutado con cpptraj de la siguiente manera:

$ cpptraj -i rmsf.cpptraj

La salida será graficada con xmgrace en un gráfico de RMSF en función del residuo:

$ xmgrace rmsf.dat

Observe los resultados y extraiga conclusiones. ¿Qué diferencia tiene con el RMSD?
Identifique las zonas con movilidad alta y observe esos residuos en vmd, ¿es esperable que esas
regiones tengan alta movilidad? ¿Por qué?

Análisis de enlaces de hidrógeno

Trabajo Práctico - Dinámica Molecular de Proteínas 21/24


Los análisis factibles de ser realizados sobre una trayectoria de dinámica molecular son
muy numerosos y dependen mucho del fenómeno que se pretende estudiar. En el caso bajo estudio,
los residuos cisteína son cruciales para la función proteica y podemos centrar en ellos nuestro
análisis.

Uno de los aspectos más relevantes a ser estudiados en un sistema simulado es la presencia
de enlaces de hidrógeno. Dichas interacciones pueden ser estudiadas de diversas maneras, entre las
hbond​
cuales se puede mencionar la función ​ implementada en el módulo cpptraj.

Construya y ejecute el siguiente script, hbonds.cpptraj:

***************************************************************************************************
parm AhpE.prmtop
trajin AhpE_100ns_md.nc
hbond dist 3.0 angle 135 acceptormask :CYM@SG donormask :1-306 solventdonor :WAT out
CYM.out avgout CYM_avg.out
***************************************************************************************************

En el script se define el umbral de distancia y ángulo para considerar enlaces de H (3Å y


135º), el átomo aceptor de puente hidrógeno (átomo S gamma de la cisteína), los átomos donores
de puente hidrógeno (cualquier átomo de la proteína unido a H y los O de las aguas) y los archivos
de salida.

El script de análisis de H-bonds debe ser ejecutado con cpptraj de la siguiente manera:

$ cpptraj -i hbonds.cpptraj

El archivo CYM.out lista la cantidad de enlaces de H por foto. Tenga en cuenta que:

UU = intraproteína
UV = proteína-solvente
Bridge = aguas puente

Trabajo Práctico - Dinámica Molecular de Proteínas 22/24


El archivo CYM_avg.out presenta una tabla con los diferentes enlaces de H calculados y sus
parámetros promedio.

Interprete el resultado en función de la trayectoria de la dinámica molecular simulada.


¿Considera que los tiempos de permanencia de los enlaces de H son significativos? Y para aquellos
enlaces de H formados con moléculas de agua, ¿le parece que rigen las mismas consideraciones?
¿Para qué mirar los enlaces de H involucrados en el S del residuo CYM? Compare repitiendo el
análisis para la otra cisteína.

Análisis en región de interés

Como puede observarse tras una rápida visualización de la trayectoria obtenida, las
moléculas de solvente presentes en el sistema simulado son muy numerosas, con lo cual identificar
aquellas que intervienen de alguna manera en la reacción redox resulta muy dificultoso y muy
demandante desde cualquier punto de vista. Es por ello que una alternativa es seleccionar un
determinado número de moléculas de agua alrededor del ligando en estudio, descartando el resto
de moléculas. Ello puede ser realizado mediante el siguiente script, aguas_cercanas.cpptraj:

***************************************************************************************************
parm AhpE.prmtop
trajin AhpE_100ns_md.nc
closest 10 :198 outprefix aguas_cercanas # selecciona, en cada paso de la trayectoria, las 10
moléculas de agua más cercanas al residuo 198
trajout aguas_cercanas.nc # escribe la trayectoria con el procesamiento
descripto
***************************************************************************************************

$ cpptraj -i aguas_cercanas.cpptraj

Abra la trayectoria con las 10 aguas con vmd (usando el nuevo archivo de
parámetros/topología generado) y observe el comportamiento de éstas respecto a la cisteína.

$ vmd -parm7 aguas_cercanas.AhpE.prmtop -netcdf aguas_cercanas.nc

Trabajo Práctico - Dinámica Molecular de Proteínas 23/24


¿Qué puede concluir?

Finalmente, si el proceso de solvatación de la cisteína resulta relevante, un modo de


establecer la probabilidad de hallar aguas cercanas es a través de la función de distribución radial.
Analicemos cuál es la distancia más probable a la que los átomos de oxígeno de las moléculas de
agua se hallan respecto del S gamma de la cisteína de interés. Para ello, cargue en VMD la
trayectoria completa:

$ vmd -parm7 AhpE.prmtop -netcdf AhpE_100ns_md.nc

Vaya a EXTENSIONS > ANALYSIS > RADIAL PAIR DISTRIBUTION FUNCTION g(r).

Selección 1: resid 198 and name SG


Selección 2: resname WAT and name O

Saque la selección de USE PBC y grafique g(r). ¿Cuántas esferas de solvatación se observan
en cisteína? ¿A qué distancia?

Trabajo Práctico - Dinámica Molecular de Proteínas 24/24

También podría gustarte