TP Dinamica Molecular
TP Dinamica Molecular
TP Dinamica Molecular
Fundamentos
La dinámica molecular (MD) es hoy en día una de las principales herramientas utilizadas en
el estudio de macromoléculas de interés biológico. En una simulación de dinámica molecular clásica
se calcula una evolución temporal de las posiciones y velocidades de los átomos de un sistema a
través de la resolución de las ecuaciones de movimiento de Newton. Este método computacional se
emplea ya de forma rutinaria para proporcionar información detallada sobre la dinámica
(fluctuaciones y cambios conformacionales) y la termodinámica de macromoléculas biológicas
como proteínas, polisacáridos y ácidos nucleicos en solución acuosa, así como complejos de
asociación proteína-ligando. Estos sistemas son de un tamaño considerable (del orden de las
decenas de miles de átomos) para ser tratados a un nivel mecanocuántico, es decir, considerando
explícitamente los electrones y núcleos. Por ello las simulaciones de tipo MD son una herramienta
poderosa y nos permite la observación de eventos temporales del orden de los pico, nano e incluso
microsegundos (¿y milisegundos? ¿y segundos?) que puedan suceder en nuestro sistema de interés.
Las simulaciones de tipo MD pueden ser realizadas usando un amplio rango de condiciones que
emulan las condiciones experimentales típicas. Las primeras simulaciones MD fueron hechas en
vacío tomando a las moléculas como entidades aisladas. Luego, se comenzó a desarrollar e incluir al
solvente de manera implícita o explícita.
Ensambles
Un colectivo o
ensamble es una
colección de microconfiguraciones del sistema en el espacio
de fases que satisface las condiciones de un estado termodinámico determinado. Una simulación de
dinámica molecular genera una secuencia de configuraciones en el espacio de fases que está
trayectoria
concatenada en función del tiempo y recibe el nombre de . Cada punto de la trayectoria
equivale a una foto de una película que está separada de la anterior y de la siguiente por un
timestep
intervalo de tiempo dado ( ). Todos los puntos de la trayectoria pertenecen al mismo
conjunto y corresponden a diferentes configuraciones (posiciones y momentos) del sistema.
Aunque cada estado microscópico sea diferente, todos pertenecen al mismo estado macroscópico
termodinámico del sistema. Las simulaciones más ampliamente utilizadas corresponden a los
siguientes ensambles:
1) El ensamble
canónico (NVT): colección de todos los sistemas cuyo estado termodinámico está
caracterizado por un número fijo de átomos (N), volumen fijo (V) y temperatura dada (T).
isobárico-isoentálpico
2) El ensamble (NPH).
isobárico-isotérmico
3) El ensamble (NPT).
gran canónico
4) El ensamble (uVT).
microcanónico
5) El ensamble (NVE).
Solvatación
Solvente implícito
Uno de ellos es el modelo llamado modelo “generalizado de Born” (GB). En general, estos
modelos de solvente implícito consideran a todo el solvente como una “jalea” que envuelve a la
proteína y está caracterizada por una constante dieléctrica. Eligiendo entonces este parámetro se
obtienen distintos tipos de solvente implícito (agua, etanol, mezcla de solventes, etc). Los modelos
de solvente implícito son incapaces de reproducir fenómenos microscópicos del solvente, por
ejemplo, enlaces de hidrógeno, adsorción sobre la proteína, etc. Además, facilita la aparición de
determinadas conformaciones “irreales” de la proteína cuando se las compara con solvente
explícito.
Solvente explícito
El poder de cómputo actual permite usar sin inconvenientes el solvente explícito. Este
modelo utiliza una descripción atomística de las moléculas de solvente de forma análoga a la usada
para la proteína, es decir asigna carga, enlaces, diedros, parámetros de van der Waals, etc. para cada
átomo del solvente. Existen un amplio rango de modelos de agua explícita disponibles. Los más
populares son TIP3P, TIP4P, TIP5P, SPC y SCP/E, que tienen la particularidad de tratar a las
moléculas de agua como completamente rígidas. Esta última aproximación también ahorra mucho
tiempo de cómputo, y se ha demostrado en numerosos trabajos que la mayoría de las propiedades
de los sistemas no se ven afectados por dicha simplificación.
Termostatos
La constante τ
T es
la constante de acoplamiento temporal, la cual determina la escala de
donde
m es la masa de una partícula, f
a es su aceleración, r
() es un fuerza conservativa que actúa
sobre la partícula, v es la velocidad de la partícula, ζ es una constante friccional (la fuerza friccional
-ζv disminuye la energía cinética) y
f
´ es una fuerza aleatoria de tipo gaussiana que agrega energía
cinética a las partículas y su varianza es función de la temperatura y del timestep. Por consiguiente,
la fuerza aleatoria se impone para poder mantener el sistema a T constante, dicho de otra manera,
Barostatos
En el presente trabajo práctico se aprenderá a preparar una estructura proteica para correr
una dinámica molecular utilizando el paquete de programas de AMBER. El esquema de
organización de archivos y tareas que sigue AMBER es el siguiente:
Prx-SH + HO
2 → Prx-SOH + H
2 O
2 (primer paso de la reacción)
Ahora abra la estructura con VMD y obsérvela. Cambie las representaciones para visualizar
la estructura cuaternaria. Identifique los aminoácidos claves según la función de la proteína y
observe su entorno más cercano. A partir de sus observaciones discuta con el docente y demás
compañeros qué cadenas de la proteína podría tomar a partir de la estructura del pdb y la
información accesoria para estudiar a través de MD.
NOTA 1:
En este punto, cree un directorio suyo y trabaje siempre desde allí.
peroxirredoxina_cristal.pdb
Copie el archivo .pdb original a para editarlo.
1. Borre todos los caracteres hasta donde la primera línea dice “ATOM”.
5. Añadir una línea con la palabra TER luego de cada cadena aminoacídica.
Una vez obtenida la estructura inicial, se preparará el sistema y se armarán los archivos
requeridos para poder realizar las simulaciones de dinámica molecular de la peroxirredoxina en
solvente explícito.
Con el archivo pdb correctamente editado, ya podemos construir los dos archivos
requeridos por AMBER para realizar cualquier tipo de cálculos: el archivo de coordenadas (llamado
archivo “.rst7”) y el de parámetros/topología (llamado archivo “.prmtop”). El primero tiene
información de las coordenadas (y eventualmente velocidades) de todos los átomos del sistema.
También tiene información sobre los límites de la caja de solvatación. El archivo prmtop contiene
los parámetros del campo de fuerzas (parámetros de enlace, ángulos, diedros, etc.) que se utilizarán
y la topología molecular (conectividad de los átomos, tipos de átomos, masas, cargas, etc.). También
posee información sobre el tipo de caja de solvente (octahédrica, cúbica, etc.).
$ tleap -f leaprc.ff99SB
Y posteriormente, dentro del módulo tLeap, ejecute en secuencia cada uno de los siguientes
comandos (observe los resultados luego de ejecutar cada comando):
NOTA 2: Tanto los archivos necesarios para realizar los cálculos como los resultados de los
mismos fueron hechos previamente para que puedan ser analizados en el tiempo acotado del
desarrollo de este TP. Por tanto, en cada parte de esta guía donde se hagan los cálculos
pertinentes, tenga en cuenta el directorio en donde están guardados estos archivos. Se sugiere
que arme los archivos y largue todos los cálculos que se le piden asegurándose que los mismos se
ejecuten de manera exitosa. Luego, sólo quedaría esperar a que las dinámicas estén listas. En ese
Para cristalizar una proteína se la somete a condiciones muy particulares, por ejemplo, baja
temperatura, distinta fuerza iónica respecto a su ambiente “natural”, entre otras. Incluso la proteína
en el cristal puede adoptar una conformación en donde algunos aminoácidos están demasiado
cerca. Todo lo anterior hace que la estructura cristalográfica muchas veces no sea representativa de
la estructura a 298K, pH fisiológico, ni a fuerza iónica de un entorno biorrelevante, con lo cual
muchas veces sucede que la estructura cristalográfica resulta ser tan solo una aproximación o una
“foto” de una proteína en su estado natural. Si bien esta estructura puede aportar alguna idea de su
comportamiento en condiciones biológicas relevantes, no siempre es concluyente. Es por eso que
necesitamos llevar de a poco y gradualmente la estructura del cristal de la proteína a las
condiciones más próximas a la “vida real”.
Observación: recordar además que a las moléculas de agua las hemos agregado con el tLeap,
cuyo algoritmo de agregado es simplemente colocar una molécula de agua en donde considere que
el volumen es suficiente para que entre la misma, sin tener demasiado cuidado con la orientación.
La estructura de solvatación resulta entonces realmente muy lejana a una estructura de solvatación
correcta y representativa.
***************************************************************************************************
# comentario
&cntrl # inicio de la sección
imin=1, # invoca a la minimización
maxcyc= 2000, # cantidad máxima de ciclos de minimización (pasos)
ncyc=100, # durante ncyc ciclos se usa el método de Steepest Descent
, luego se
activa el método de gradiente conjugado.
ntb=1, # usar condiciones periódicas de contorno
ntr=1, # activa la restricción en base a una referencia
cut=9.0, # radio en Angstroms del cut-off
para int. electrostáticas
restraintmask=’:1-306’, # máscara de la restricción: primeros 306 residuos
restraint_wt=500.0, # peso de la restricción
&end # cierre de la sección
***************************************************************************************************
Para ejecutar la orden de minimización del sistema se empleará el módulo “sander” del
paquete AMBER de la siguiente manera:
$ sander-O-imin1.mdin-omin1.mdout-pperoxi_aguas.prmtop-cperoxi_aguas.rst7-r
minimizado1.rst7 -ref peroxi_aguas.rst7
NOTA 3. Los archivos “.mdin” en Amber contienen información de los parámetros de corrida de
la simulación. En conclusión, para correr una dinámica molecular con AMBER necesitamos 3
archivos, el de coordenadas, el de topología y un archivo mdin.
-O = sobrescribir archivos output si existieran.
-i = input mdin con los parámetros de la corrida.
-o = output mdout con valores de energía, pasos, temperatura si corresponde, etc.
-p = input prmtop de parámetros/topología
-c = input rst7 de coordenadas (y velocidades si corresponde)
-r = output rst7 de coordenadas (y velocidades si corresponde)
-ref = input rst7 de coordenadas de referencia (necesario cuando se imponen restricciones)
$ mdout_analyzer.py min1.mdout
Elegir el parámetro a analizar y clickear en “Graph them!”. Dado que la reorientación de las
moléculas de agua tendrá un efecto significativo en la componente electrostática de la energía,
analizarla también. Por último, la componente RESTRAINT representa el efecto de la restricción
armónica en la posición de los átomos de la proteína, la cual debería elevarse al principio y luego
estabilizarse alrededor de un valor de equilibrio.
Genere un nuevo archivo llamado min2.mdin que contenga las siguientes líneas:
***************************************************************************************************
# comentario
&cntrl # inicio de la sección
imin=1, # invoca a la minimización
maxcyc= 6000, # cantidad máxima de ciclos (pasos)
ncyc=300, # durante ncyc ciclos se usa el método de Steepest Descent
, luego se
activa el método de gradiente conjugado
ntb=1, # usar condiciones periódicas de contorno
ntr=0, # sin restricción de átomos
cut=9.0 # distancia de cut-off
para interacciones electrostáticas
&end # cierre de la sección
***************************************************************************************************
Para ejecutarla, emplee el mismo módulo, pero esta vez dándole como entrada la salida
anterior:
Abrir la estructura minimizada en VMD y compararla con la estructura inicial para chequear
que no hayan ocurrido modificaciones sustanciales de estructura:
***************************************************************************************************
&cntrl # inicio de la sección
imin=0, # invoca una simulación de dinámica molecular
irest=0, # bandera para reiniciar la corrida: (0) se reinicia, (1) se continúa
con una trayectoria
ntx=1, # (1) no lee información sobre velocidades iniciales
ntb=1, # condiciones periódicas de contorno: (1) volumen constante, (2)
presión constante
cut=9.0, # radio de cut-off para interacciones electrostáticas
ntr=0, # sin restricción
***************************************************************************************************
¿Se mantiene la estructura de la proteína? ¿Qué sucede con la caja de solvente? El efecto de
aumento de volumen y destrucción de la caja octaédrica de solvatación es un problema de
visualización que no representa el cálculo hecho con condiciones periódicas de contorno. Para
solucionarlo, debemos centrar la caja respecto de la proteína con el programa de análisis
cpptraj
(también del paquete AMBER). Primero, armar el siguiente script (center.cpptraj):
***************************************************************************************************
parm peroxi_aguas.prmtop # se carga el archivo de topología/parametros
trajin eq.nc # se carga la trayectoria no centrada
center :1-153 mass origin # se establecen los residuos que definen el centro de la caja
image origin center familiar # se hace el centrado
center :1-306 mass origin # se repite para tener en cuenta todo el dímero
image origin center familiar
trajout eq_centered.nc netcdf # se guarda la trayectoria centrada
***************************************************************************************************
$ cpptraj -i center.cpptraj
Ahora cargue la nueva trayectoria al VMD y chequee que se halla correctamente centrada:
Ya estamos listos para correr la dinámica de producción. Se debe construir el mismo script
que para la fase de equilibración, solo que el tiempo simulado debe ser considerablemente más
Hasta este punto tienen una trayectoria de unos cuantos de nanosegundos para nuestra
proteína de interés en solución acuosa. Si hemos realizado todo el protocolo antes mencionado
correctamente, podemos estimar que nuestro sistema se encuentra equilibrado a T=300K y a P=1
atm. Pueden asumir que la trayectoria responde bien a un modelo de ensamble a NPT constante.
Por otra parte, debido a la enorme cantidad de grados de libertad, es probable que no hayan
simulado lo suficiente como para haber obtenido todas las micro configuraciones posibles (es decir,
posiciones y velocidades) que la teoría requeriría para una completa descripción de todo el
ensamble. El protocolo empleado permite por lo menos decir que se encuentran en la zona cercana
a un mínimo de energía potencial. Con lo cual, pueden intuir que las microconfiguraciones que
observan van a ser relevantes en la “vida” de la proteína y por lo tanto también lo serán los eventos
que sucedan en la dinámica obtenida.
La calidad de una trayectoria obtenida mediante estudios de dinámica molecular puede ser
analizada de manera preliminar observando los parámetros energéticos asociados al sistema
simulado. Entre los aspectos más importantes a ser analizados se encuentran la energía total del
sistema, la energía cinética, la energía potencial y la temperatura. Como ya vimos, dicha
información se encuentra incluida en el archivo de salida de la simulación correspondiente (mdout)
y para realizar el procesamiento de dicha información puede utilizarse el script mdout_analyzer.py:
$ mdout_analyzer.py AhpE_100ns_md.out
Construya los gráficos de propiedades vs tiempo que posibiliten analizar las propiedades
del sistema simulado y su correcto equilibrio. ¿Qué comportamientos observa? ¿Eran esperables
estos resultados?
***************************************************************************************************
parm AhpE.prmtop #se carga el archivo de topología
trajin AhpE_100ns_md.nc # ingresa la trayectoria a ser procesada
rms first out rmsdBackbone.dat :1-306@CA,N,O,C # minimiza y calcula el RMSD del backbone
rms first out rmsdTotal.dat :1-306 # minimiza y calcula el RMSD de todos los
átomos
***************************************************************************************************
$ cpptraj -i rmsd.cpptraj
Analice la salida en un gráfico de los dos RMSD calculados (en Å) vs frame (“foto”),
cargándola con el programa xmgrace de la siguiente manera:
Análisis de flexibilidad
***************************************************************************************************
parm AhpE.prmtop #se carga el archivo de topología
trajin AhpE_100ns_md.nc # ingresa la trayectoria a ser procesada
rms first out rmsdBackbone.dat :1-306@CA,N,O,C # minimiza y calcula el RMSD del backbone
atomicfluct out rmsf.dat :1-306@CA,N,O,C byres # calcula el RMSF del backbone por residuo,
incluyendo todas las fotos
***************************************************************************************************
El script de análisis de flexibilidad debe ser ejecutado con cpptraj de la siguiente manera:
$ cpptraj -i rmsf.cpptraj
La salida será graficada con xmgrace en un gráfico de RMSF en función del residuo:
$ xmgrace rmsf.dat
Observe los resultados y extraiga conclusiones. ¿Qué diferencia tiene con el RMSD?
Identifique las zonas con movilidad alta y observe esos residuos en vmd, ¿es esperable que esas
regiones tengan alta movilidad? ¿Por qué?
Uno de los aspectos más relevantes a ser estudiados en un sistema simulado es la presencia
de enlaces de hidrógeno. Dichas interacciones pueden ser estudiadas de diversas maneras, entre las
hbond
cuales se puede mencionar la función implementada en el módulo cpptraj.
***************************************************************************************************
parm AhpE.prmtop
trajin AhpE_100ns_md.nc
hbond dist 3.0 angle 135 acceptormask :CYM@SG donormask :1-306 solventdonor :WAT out
CYM.out avgout CYM_avg.out
***************************************************************************************************
El script de análisis de H-bonds debe ser ejecutado con cpptraj de la siguiente manera:
$ cpptraj -i hbonds.cpptraj
El archivo CYM.out lista la cantidad de enlaces de H por foto. Tenga en cuenta que:
UU = intraproteína
UV = proteína-solvente
Bridge = aguas puente
Como puede observarse tras una rápida visualización de la trayectoria obtenida, las
moléculas de solvente presentes en el sistema simulado son muy numerosas, con lo cual identificar
aquellas que intervienen de alguna manera en la reacción redox resulta muy dificultoso y muy
demandante desde cualquier punto de vista. Es por ello que una alternativa es seleccionar un
determinado número de moléculas de agua alrededor del ligando en estudio, descartando el resto
de moléculas. Ello puede ser realizado mediante el siguiente script, aguas_cercanas.cpptraj:
***************************************************************************************************
parm AhpE.prmtop
trajin AhpE_100ns_md.nc
closest 10 :198 outprefix aguas_cercanas # selecciona, en cada paso de la trayectoria, las 10
moléculas de agua más cercanas al residuo 198
trajout aguas_cercanas.nc # escribe la trayectoria con el procesamiento
descripto
***************************************************************************************************
$ cpptraj -i aguas_cercanas.cpptraj
Abra la trayectoria con las 10 aguas con vmd (usando el nuevo archivo de
parámetros/topología generado) y observe el comportamiento de éstas respecto a la cisteína.
Vaya a EXTENSIONS > ANALYSIS > RADIAL PAIR DISTRIBUTION FUNCTION g(r).
Saque la selección de USE PBC y grafique g(r). ¿Cuántas esferas de solvatación se observan
en cisteína? ¿A qué distancia?