PCB D Tesis 2021 Pedro Escobar Turriza
PCB D Tesis 2021 Pedro Escobar Turriza
PCB D Tesis 2021 Pedro Escobar Turriza
En opción al título de
DOCTOR EN CIENCIAS
RECONOCIMIENTO
Por medio de la presente, hago constar que el trabajo de tesis de Pedro Javier Escobar
Turriza titulado “Identificación de funcionales en el metabolismo de procariotes y
eucariotes” fue realizado en la Unidad de Biotecnología del Centro de Investigación
Científica de Yucatán, A.C. en conjunto con el Laboratorio de Biología Computacional del
Instituto de Investigaciones en Matemáticas Aplicadas y Sistemas de la Universidad
Autónoma de México, Sede Mérida, bajo la dirección del Dr. Jorge Humberto Ramírez
Prado y el Dr. Ernesto Pérez Rueda, dentro de la opción de Biotecnología, perteneciente
al Programa de Posgrado en Ciencias Biológicas de este Centro.
Atentamente.
Director de Docencia
________________________________
Al CICY por todas las instalaciones brindadas para la realización del posgrado, así como los
conocimientos científicos ofrecidos para mi formación doctoral.
Al Dr. Ernesto Pérez Rueda, primeramente, por aceptarme para formar parte de su grupo de
trabajo en la UNAM, por ser mi guía científico compartiendo todas sus enseñanzas académicas,
consejos, experiencias y su visión para afrontar los retos científicos, que son un cimiento para mi
desarrollo académico. Gracias por su amistad durante todo este trayecto doctoral.
Al Dr. Jorge Humberto Ramírez Prado, por aceptarme en su grupo de investigación en el CICY,
por todos los consejos y asesoramientos académicos brindados durante el posgrado. Gracias por
su apoyo y amistad.
Al IMEC. Rafael Hernández Guerrero, por sus valiosos conocimientos en programación y todos
los apoyos brindados, siendo un pilar en toda mi estancia de posgrado, incluso haciéndola más
amena y enriquecedora. Gracias por tu amistad.
Al Dr. Augusto César Poot Hernández, por todos tus valiosos conocimientos en Biología
computacional y programación en Python, fuiste una vía de inspiración para realizar este trabajo
doctoral. Te agradezco infinitamente haberme aceptado para una estancia tanto en el IIMAS Sede
CU, así como una en el Instituto de Fisiología Celular. Gracias por todo tu apoyo y valiosa amistad.
Al Dr. Edgardo Galán Vázquez, por su sus consejos y conocimientos ofrecidos en torno a las
discusiones de los resultados obtenidos en este estudio, permitiendo mejorar mis conocimientos
científicos. Así también por la disposición de apoyarme en todas las dudas que fueron surgiendo
durante tu estancia posdoctoral. Gracias por tu valiosa amistad.
A la Dra. Katya Rodríguez Vázquez, por sus recomendaciones académicas, por aceptar ser parte
de mi comité tutoral. Le agradezco por la estancia de investigación en su laboratorio en el IIMAS
Sede CU.
A la Dra. Elsa Góngora Castillo, por sus consejos, cuestionamientos y discusiones en cuanto a
los resultados obtenidos en este proceso doctoral, que provocaron a seguir mejorando en la
divulgación de la ciencia.
Al grupo de seminarios del Laboratorio de Biología Computacional del IIMAS, de la misma forma,
les agradezco por su consejos, aportaciones y disponibilidad para apoyarme en la realización de
este proyecto.
A mi madre Marcela por su amor sin límites a pesar de la distancia, por su apoyo total en todos
los aspectos, por aceptarme como soy, eres una figura ejemplar para mi desarrollo como ser
humano.
A mis hermanitos Juan y Nicte-há, por sus apoyos y amor incondicional, la vida con ustedes es
maravillosa y especial.
A mi esposa la Dr. Irán Andira Guzmán, por ser mi motivo de superación en los aspectos
personales y académicos, por su amor inquebrantable, por decidir acompañarme por el resto de
nuestra vida, incentivo para ser un mejor humano cada día.
DEDICATORIAS
Artículo publicado
Participación en Congresos
2019
● Congreso: 4th International Symposium onFunctional Genomics
Título del trabajo: Identification of functional signature in the metabolism of prokaryotes and
eukaryotes
Modalidad: Póster
● Congreso: Escuela de Invierno 2019 (IIMAS)
Título del trabajo: Identificación de firmas funcionales en el metabolismo
Modalidad: Ponencia
2018
● Congreso: 3th International Symposium in Functional Genomics and Systems Biology
Título del trabajo: Identification of functional signatures in prokaryote and eukaryote metabolism
Modalidad: Póster
● Congreso: XVIII Congreso de Estudiantes CICY
Título del trabajo: Identificación de firmas funcionales en el metabolismo de procariotes y
eucariotes
Modalidad: Póster
Divulgación
2019
● Título del trabajo: Estudio del repertorio enzimático del metabolismo mediante genómica
comparativa
Tipo de participación: Seminario; Conferencia
Institución organizadora: IIMAS -Unidad Mérida
Dirigido a: Comunidad científica; Comunidad estudiantil
● Título del trabajo: Estudiando el repertorio enzimático del metabolismo por genómica
comparativa
Tipo de participación: Seminario; Conferencia
Institución organizadora: Centro de Investigación y Asistencia en Tecnología y Diseño del Estado
de Jalisco, A.C. (CIATEJ) -SubsedeSureste
Dirigido a: Comunidad científica; Comunidad estudiantil
● Título del trabajo: Comparando las vías metabólicas: un intento por comprender cómo
hemos llegado hasta el metabolismo moderno
Tipo de participación: Artículo de divulgación
Dirigido a: Público en general
Revista: QUIU
Tipo de medio: Revista de divulgación en Línea; Internet
Liga:https://quiurevista.com/comparando-las-vias-metabolicas-un-intento-por-comprender-como-
hemos-llegado-hasta-el-metabolismo-moderno/
Cursos Impartidos
Enero-Junio 2020
● Curso: Introducción a la Bioinformática
Institución: Universidad Autónoma de Yucatán (UADY)
Profesor responsable: Dr. Ernesto Pérez Rueda
ÍNDICE
RESUMEN 1
ABSTRACT 1
INTRODUCCIÓN 2
CAPÍTULO I 4
ANTECEDENTES 4
1.1 Metabolismo Celular 4
1.1.1 Vías metabólicas 5
1.1.2 Reacción enzimática 6
1.1.2.1 Número de Clasificación Enzimática (EC number) 7
1.2. Bases de datos biológicos 8
1.2.1. Bases de datos metabólicos. 9
1.2.1.1 Base de datos Kyoto Encyclopedia of Genes and Genomes 10
1.2.1.1.1. Mapas metabólicos 11
1.3. El Metabolismo moderno y la Diversificación de la Vida 13
1.3.1 Expansión metabólica 13
1.3.1.1 Hipótesis de evolución, modelo retrógada 13
1.3.1.2 Hipótesis de evolución, modelo patchwork 13
1.3.2 La ancestralidad de las arquitecturas proteicas como parte de un estudio
sobre la diversificación de los Dominios Celulares 14
1.4. Genómica comparativa aplicada al metabolismo 16
JUSTIFICACIÓN 19
HIPÓTESIS 20
OBJETIVO GENERAL 21
OBJETIVOS ESPECÍFICOS 21
ESTRATEGIA EXPERIMENTAL 22
CAPÍTULO II 23
CAPÍTULO III 48
ANEXOS 54
REFERENCIAS 62
LISTADO DE FIGURAS
Figura 1.1 Metabolismo 3
Figura 1.2 Metabolismo del piruvato 5
Figura 1.3 Representación gráfica de los mapas metabólicos existentes en
la base de datos KEGG 11
Figura 1.4 Línea de tiempo que describe la evolución de las estructuras del
dominio FF y la evolución de las principales vías del metabolismo de las
purinas. 14
Tabla Suplementaria 2 57
Tabla Suplementaria 3 57
Tabla Suplementaria 4 58
Tabla Suplementaria 5 60
Tabla Suplementaria 6 61
RESUMEN
In order to identify common and specific enzymatic activities associated with the metabolism
of the three cell domains of life, the distribution, conservation, and variations between
enzyme contents of the Bacteria, Archaea, and Eukarya organisms were evaluated. For this,
the content of enzymes belonging to a particular pathway in 1507 organisms that have been
annotated and deposited in the Kyoto Encyclopedia of Genes and Genomes (KEGG)
database was analyzed. In this way, we evaluated the enzymatic reactions, encoded with
an EC (Enzyme Commission) number, that are associated with each organism and
metabolic map. From this, we found a set of five enzymatic reactions that were widely
distributed in all organisms and were considered, in this work, as universal for Bacteria,
Archaea, and Eukarya using a taxonomic profile. However, these universal reactions are not
widely distributed throughout metabolic maps, suggesting their dispensation to all metabolic
processes. Finally, we discover that universal reactions are also associated with a diversity
of structural domains; in turn, the reactions are associated with ancestral domains, such as
those related to phosphorus-containing groups with a phosphate group as acceptor or those
related to barrel of ribulose phosphate binding, triosephosphate isomerase and D-ribose-5
domain Phosphate isomerase cap (RpiA) , among others. Therefore, we consider that this
analysis provides clues about the functional restrictions associated with the repertoire of
enzymatic functions by organisms.
INTRODUCCIÓN
El metabolismo es un sistema biológico que presenta una amplia diversidad en sus rutas
centrales, como por ejemplo el metabolismo central del carbono o la síntesis de nucleótidos
(Poot-Hernández et al., 2015; Noor et al., 2010). Esta diversidad está asociada a la
existencia de una vasta gama de microorganismos que son capaces de sobrevivir en
diferentes ambientes, como en el caso de los organismos halófilos, o aquellos que residen
en hábitats de bajas temperaturas (Oren, 2008; Boetius et al., 2015 ), o aquellos organismos
identificados en los sedimentos de los océanos, asociados a la producción de metano y
otros hidrocarburos (Torsvik et al., 2002; Kallmeyer et al., 2012).
2
fungen como firmas funcionales, es decir, aquellas reacciones enzimáticas que son
comunes a un conjunto de organismos, como la firma funcional 3.1.26 exclusiva de las
actinobacterias, o varios grupos taxonómicos. También analizamos la asociación funcional
entre las reacciones enzimáticas, donde reportamos 5 pares enzimáticos significativos que,
de igual manera, están distribuidos en los tres dominios celulares. Estos resultados, nos
permiten asociar dichas reacciones enzimáticas como reacciones ancestrales en la
evolución de las vías metabólicas y su papel en la composición estructural de las
membranas celulares sintetizando lípidos biológicos, como los fosfatidil fosfolípidos. Por el
cual sugerimos que las actividades involucradas en la transferencia de moléculas
energéticas se han conservado a lo largo del crecimiento metabólico y posiblemente, sean
fundamentales para mantener la maquinaria celular de la vida.
3
CAPÍTULO I
ANTECEDENTES
4
1.1.1 Vías metabólicas
Los circuitos multienzimáticos se definen como vías metabólicas que están constituidas por
reacciones bioquímicas catalizadas por enzimas de manera sucesiva. Cada una de estas
enzimas genera un cambio químico específico, sea transferencia, adición o eliminación de
un grupo funcional en particular. A los productos de estos cambios se les denomina
metabolitos, siendo productos intermediarios de las reacciones enzimáticas que ocurren en
una vía metabólica o entre vías metabólicas (Nelson y Cox, 2017). Los metabolitos son las
conexiones que unen a una vía metabólica de otra, ya que los múltiples productos finales
de las rutas metabólicas pueden ser los precursores de otras vías, como se ilustra en el
metabolismo del piruvato (Fig. 1.2) (Gray et al., 2014).
Las vías metabólicas pueden ser reacciones llevadas en una secuencia lineal o en una
ramificada, como las vías de la Glucólisis o la síntesis de los carotenoides (Marini et al.,
2016; Cárdenas-Conejo et al., 2015). También existen vías que son cíclicas, es decir,
reacciones cuyo precursor principal se regenera a partir de series de reacciones que
transforman a un precursor de otra vía en un producto intermedio, como el Ciclo de Krebs
(Wu y Minteer, 2015).
5
Figura 1.2 Metabolismo del piruvato. Reacciones enzimáticas conectadas
mediante intermediarios metabólicos, en la cual un metabolito final es la molécula
precursora para otra vía.
Una reacción enzimática es una reacción química que es mediada por un catalizador de
origen proteico denominado enzima. Las enzimas son macromoléculas compuestas de
polímeros de aminoácidos conectados por enlaces amino. El sitio activo de las enzimas a
menudo está rodeado de bolsas hidrofóbicas, lo que proporciona el poder de la
especificidad de su sustrato (Singh et al., 2016).
6
1.1.2.1 Número de Clasificación Enzimática (EC number)
Oxidorreductas
1.-.-.- Catalizan reacciones de oxidación / reducción
a
7
Estas clases de reacciones se dividen en subclases y sub-sub-clases (segundo y tercer
nivel, respectivamente) con base en una variedad de criterios, como el enlace químico
escindido o formado, el centro de reacción, el grupo químico transferido y el cofactor
utilizado para la catálisis. El nivel final de clasificación define la especificidad del sustrato.
Por ejemplo, la alanina racemasa es una isomerasa (EC 5.-.-.-), en particular una racemasa
(EC 5.1.-.-) que actúa sobre el aminoácido (EC 5.1.1.-) alanina (EC 5.1.1.1) (Cuesta et al.,
2015).
Las bases de datos primarias son repositorios públicos que almacenan y catalogan
secuencias de DNA, RNA y de proteínas (secuencias primarias y estructurales). Las bases
de datos secundarias derivan de los datos referenciados de la información depositada de
las primarias, y sobre ellos se llevan a cabo análisis computacionales, por ejemplo, un
banco de datos de conjuntos de familias de secuencias de proteínas y/o una clasificación
jerárquica de patrones de plegamiento de proteínas (Lesk, 2019). La tercera categoría
corresponde a las bases de datos especializadas, que es la integración de información de
las bases de datos primarias y secundarias asociadas a un organismo en particular o a un
tipo de molécula determinada.
8
1.2.1. Bases de datos metabólicos.
Adicionalmente, se han descrito otras bases de datos como Rhea, BiGG, UniPathway,
BioPath y Reactome, que estructuran la información metabólica en menor proporción; The
SEED y BRENDA contienen un número comparable de reacciones, aunque el contenido
metabólico de The SEED se deriva en gran parte de KEGG, mientras que BRENDA no
incluye vías metabólicas (Altman et al., 2013).
Tabla 1.2 Tabla comparativa entre las bases de datos KEGG y MetaCyc
9
metabólicas
Número de reacciones
11324 16034
enzimáticas
En 1995 se creó la Kyoto Encyclopedia of Genes and Genomes (KEGG), que funge como
un recurso de referencia para la asignación de funciones biológicas a genes y proteínas
asociados a un organismo (Kanehisa et al., 2013; Kanehisa et al., 2016). Actualmente,
KEGG ha sufrido una expansión significativa, en los que se destacan 4 secciones
principales: PATHWAYS, GENES, COMPOUNDS y ENZYMES (ver Tabla 1.3). Y no menos
importante, la adición de herramientas para el análisis de datos transcriptómicos
proteómicos, metabolómicos y metagenómicos, entre otros (Kanehisa et al., 2016).
10
Número de genes 15,346,261 16,400,093 17,427,876
Número de
compuestos3 17,343 17,402 17,421
Número de
reacciones4 9,775 9,862 9,889
Número de enzimas
distintas 6,415 6,463 6,51
*4.- reacciones: son todas las reacciones químicas (en su mayoría reacciones
enzimáticas) que se presentan en los pathways y aquellas reacciones
adicionales que solo están descritas en la Nomenclatura Enzimática.
11
los datos, la información, el conocimiento y los principios se usan para mejorar la
arquitectura y el contenido de la base de datos KEGG.
12
1.3. El Metabolismo moderno y la Diversificación de la Vida
En 1945, Horowitz plantea que las reacciones enzimáticas de las vías metabólicas
emergieron por duplicación de genes en un orden inverso al que se encuentra actualmente.
en las vías actuales (Horowitz, 1945). Es decir, en la Tierra primitiva, se produjo una
escasez de compuestos claves para subsistir, provocando una presión selectiva donde
surge la necesidad de duplicar la información genética de una enzima clave para generar
nuevas reacciones enzimáticas capaces de transformar otros compuestos existentes en el
entorno para obtener al precursor en desabasto; de esta manera, se fue construyendo una
vía de nuevas reacciones enzimáticas desde el producto final hacia el precursor inicial
(Muto-Fujita, 2019).
13
1976). Reclutar este tipo de enzimas, les permitió que las células primitivas pudieran
aumentar sus capacidades de codificación limitadas (Scossa & Fernie, 2020). Los
mecanismos de duplicación génica y la subfuncionalización sustentan a que el
reclutamiento de una enzima promiscua se incline hacia la especificidad de un sustrato para
cumplir funciones nuevas en vías emergentes, como la enzima ligasa presente en las
biosíntesis de peptidoglicano (Muto-Fujita, 2019; Díaz-Mejía et al., 2009).
14
Figura 1.4 Línea de tiempo que describe la evolución de las estructuras del
dominio FF y la evolución de las principales vías del metabolismo de las
purinas. La línea de tiempo se derivó directamente del árbol de FF reconstruido
a partir de organismos de vida libre. Las edades se dan como distancias de nodo
(ndFF) y tiempo geológico (Gy). El tiempo fluye de arriba hacia abajo. Gráfico
tomado de Caetano-Anollés K. y Caetano-Anollés G. (2013).
15
Posteriormente, se asociaron datos geológicos en el cual consideran que la línea de tiempo
de la evolución de los dominios proteicos abarca ~ 3.8 mil millones de años (Kim, et al.,
2013) (Figura 1.4). Aunque bajo ese universo de arquitecturas proteicas, no se aprecia
algún cambio con respecto a la diversidad de los organismos y se puntualiza que la
evolución proteica actúa de forma independiente a los procesos de convergencia y de
transferencia horizontal de genes (Wang et al., 2006). Recientemente, se ha descrito la
historia evolutiva de los dominios de la vida, donde las Arqueas son el dominio más antiguo
y del cual se emprende la diversificación de todos los organismos (Staley y Caetano-
Anollés, 2018). Ellos trazaron diversos análisis filogenómicos de las distribuciones de las
familias de dominios proteicos en comparación de los proteomas de organismos de vida
libre, donde se aprecia una co-evolución Arqueas-Eucariotes al compartir ocho familias de
estructuras proteicas (Staley & Caetano-Anollés, 2018).
16
Las perspectivas actuales sobre los procesos metabólicos nos indican que el metabolismo
tiene la capacidad para contrarrestar fallos (tales como mutaciones que desbalancean al
flujo metabólico) utilizando rutas y enzimas alternativas que proceden de diferentes vías
metabólicas pero que convergen a los mismos productos (Hernández-Montes et al., 2008).
Estas rutas alternativas podrían correlacionarse a los cambios ambientales, pues se ha
observado una divergencia en los niveles enzimáticos del metabolismo de nucleótidos
relacionada a los cambios en la arquitectura celular durante la evolución (Armenta-Medina
et al., 2014). En este contexto, un análisis comparativo del metabolismo en las
Proteobacterias de la división Gamma evidenció que en diferentes mapas metabólicos se
conserva un alto contenido del repertorio enzimático similar, como en la biosíntesis de
ácidos grasos y lisina, así como también en las vías metabólicas del metabolismo de
nucleótidos, lo cual refuerza el modelo patchwork en la evolución del metabolismo, ya que
probablemente pueda ocurrir una transferencia de actividades enzimáticas en diferentes
rutas metabólicas de las Gammaproteobacterias (Poot-Hernández et al., 2015).
17
a todos los organismos, con el objetivo de comprender cómo el metabolismo ha llegado a
ser lo que es en la actualidad.
18
JUSTIFICACIÓN
Entender los orígenes y la expansión del metabolismo, sigue siendo una pregunta abierta.
Sin embargo, los grandes avances tecnológicos nos han permitido obtener datos biológicos
masivos asociados a las vías metabólicas de diversos organismos, lo que nos permite
estudiar al metabolismo desde una perspectiva de genómica comparativa. Por ello, se han
implementado diversos métodos computacionales con el objetivo de realizar análisis
comparativos entre las vías metabólicas de una misma especie o entre varias especies. Y
es que a partir de la información de la base de datos de KEGG se ha observado que en la
bacteria E. coli y otras Gammaproteobacterias, a nivel funcional, las vías metabólicas
poseen una alta similitud de reacciones enzimáticas al interior de un mapa metabólico y
entre mapas metabólicos. Sin embargo, en los trabajos anteriores no se realizaron estudios
de abundancia genómica a nivel de reacciones enzimáticas con respecto a las especies
analizadas. En este trabajo evaluamos el repertorio enzimático de organismos que
pertenecen a los tres dominios celulares: Arqueas, Bacterias y Eucariotes, para detectar
qué tipo de reacciones enzimáticas trascienden en el metabolismo contemporáneo.
19
HIPÓTESIS
20
OBJETIVO GENERAL
OBJETIVOS ESPECÍFICOS
21
ESTRATEGIA EXPERIMENTAL
22
CAPÍTULO II
domains of life
Estado: Publicado
23
IDENTIFICACIÓN DE FIRMAS FUNCIONALES EN LOS GENOMAS DE
PROCARIOTES Y EUCARIOTES
2.1. INTRODUCCIÓN
Actualmente, las bases de datos KEGG y MetaCyc organizan los datos metabólicos para
contribuir en la comprensión de los procesos de adaptación de la vida celular, la diversidad
de la organización celular y la complejidad del mundo de la vida (Okuda et al., 2008; Caspi
et al., 2018; Caetano-Anolles et al., 2018). El análisis comparativo del metabolismo ha
proporcionado información sobre la identificación del reclutamiento enzimático y los eventos
de duplicación génica. Por ejemplo, se ha identificado que las rutas metabólicas presentan
una alta retención de enzimas duplicadas dentro de los módulos funcionales,como en el
caso de 4 enzimas homólogas EC number 6.3.-.- (ligasas carbón-nitrógeno) que catalizan
de manera consecutivas la vía de la síntesis de peptidoglicanos (Light et al., 2005, Díaz-
Mejía et al., 2007, Hernández-Montes et al., 2008, Armenta-Medina et al., 2011). En este
trabajo, evaluamos cómo se distribuyen los pares de reacciones enzimáticas individuales y
consecutivas (mediante el uso de los números de la Comisión Enzimática (EC numbers) a
lo largo del metabolismo de los tres dominios de la vida, Bacterias, Arqueas y Eucariotes, y
cómo esta distribución ha influido en las vías metabólicas en su forma actual. Con este fin,
se evaluó, en términos de su composición enzimática, la información de los mapas
metabólicos de 1507 organismos no redundantes depositados en la base de datos KEGG.
Adicionalmente, se evalúo, la composición de los dominios estructurales a partir de sus
asignaciones con la base de datos Superfamily, permitiendo identificar reacciones
mayormente distribuidas que están asociadas con dominios “evolutivamente antiguos” ,
como los relacionados con los grupos que contienen un grupo de fosfato como aceptor o
los relacionados al ribulose-phosphate binding barrel, triosephosphate isomerase, and D-
ribose-5-phosphate isomerase (RpiA) lid domain, entre otros. Por lo tanto, consideramos
que este análisis proporciona pistas sobre las restricciones funcionales asociadas con el
repertorio de funciones enzimáticas en los tres dominios celulares.
24
2.2. MATERIALES Y MÉTODOS
A partir de la base de datos KEGG versión 0.71, se obtuvo información de 144 mapas
metabólicos asociados a 1507 genomas de bacterias, arqueas y eucariotes , extraídos y
depositados en un archivo Structured Query Language (`.sql`). Cada reacción enzimática
perteneciente a los mapas metabólicos se identificó mediante los primeros tres niveles del
Enzyme Commission Number (EC number) (TablaS1). En ese contexto, la información se
estructuró de acuerdo con el trabajo anterior de Poot-Hernández y colaboradores (2015),
generando cadenas o conjuntos de pasos enzimáticos consecutivos (ESS, siglas en inglés),
en donde cada EC number representa a un paso enzimático. Para eliminar la redundancia
asociada a las ESS, se aplicaron dos filtros: a) si dos ESS de diferentes organismos pero
de un mismo mapa metabólico eran idénticos, entonces solo se consideró a uno de ellos; y
b) si dos secuencias idénticas del mismo mapa metabólico y organismo tenían diferentes
longitudes, sólo se consideró la secuencia más larga, quedando solamente un conjunto de
ESS representativas o no redundantes totales (nrESS). A partir de estos nrESS, se
obtuvieron 195 EC numbers individuales y 3151 posibles pares consecutivos de reacciones
enzimáticas.
Donde,
25
RA= Abundancia relativa;
Para finalizar, la Abundancia relativa (RA), que representa a los EC numbers por cada
división, se evalúo con un método de agrupamiento jerárquico (HCA) utilizando un algoritmo
de enlace completo con la correlación de Pearson como una medida de similitud, mediante
el programa Mev4 (Saeed et al., 2003).
26
2.2.4 Asignación de dominios a EC numbers
Cada reacción enzimática se asoció a su proteína, así como su dominio estructural por
medio de las asignaciones de la base de datos Superfamily versión 1.75 (Wilson et al.,
2009). Para ello, las proteínas de los 1,507 genomas se analizaron con una biblioteca de
1659 modelos HMM de Superfamily mediante el programa HMMer versión 3.1b2 (Finn et
al., 2011), con un valor E de ≤10-3.
Cada dominio proteico se asoció a un índice de ancestralidad propuesto por Wang et al.
(2009). El índice que representa una línea de tiempo, va de una escala relativa 0 a 1, donde
"0" representa el origen de los dominios (antigüo) y "1” representa a los dominios con un
origen reciente (Caetano-Anollés K. y Caetano-Anollés G., 2013). De esta forma, el valor
de ancestralidad se define por el nivel de conservación de los componentes estructurales
que conforman a los dominios proteicos, obtenido a través de un censo filogenómico
reconstruido a partir de organismos de vida libre (Wang et al., 2009).
Las enzimas relacionadas con cada reacción metabólica en los 1507 organismos se
obtuvieron de los mapas metabólicos depositados en la base de datos KEGG y se
representaron mediante el uso de los tres primeros niveles de la clasificación de la Comisión
de Enzimas (EC numbers) para describir su tipo general de reacción química (Klein et al.,
2012). Del total de las reacciones enzimáticas, 43.87% están anotadas como transferasas
(EC: 2.-.-), el 21.93% como oxidorreductasas (EC: 1.-.-), el 17.22% como liasas (EC: 4.-.-),
27
13.44% como hidrolasas (EC: 3.-.-), 12.75% como ligasas (EC: 6.-.-), 8.32% como
isomerasas (EC: 5.-.-), y finalmente, 0.10% como translocasas (EC: 7.-.-) (Tabla S1). Esta
distribución sugiere que las reacciones de oxidorreducción son muy abundantes en el
metabolismo, probablemente debido a que los procesos metabólicos pueden verse como
electrones en movimiento entre las moléculas, y que a menudo capturan parte de la energía
liberada cuando los electrones pasan de estados de alta energía a estados de baja energía,
como ocurre en la glucólisis o en la respiración (González y Quiñones, 2000).
28
Figura 2.1 Abundancia de los EC number en Arqueas. En el eje Y se indica
la proporción de EC numbers en el Dominio celular; En el eje X se indican los EC
numbers. Cada punto corresponde a un EC number. La intersección con el
gráfico amarillo indica la parte superior de lo EC numbers más abundantes y su
porcentaje. El eje secundario indica la proporción acumulada de los EC numbers.
A partir de estos EC numbers abundantes por dominio celular, ocho actividades enzimáticas
(EC 1.1.1, 2.4.2, 2.5.1, 2.6.1, 2.7.1, 2.7.7, 4.1.1 y 4.2.1) fueron también identificadas
altamente abundantes en el tres dominios celulares (Figura 2.4). Es decir, son abundantes
en todos los dominios celulares. Estos grupos se asocian principalmente a las transferasas
(Figura. 2.4). Se identificó un EC number como abundante en Arqueas y Bacterias (6.3.4)
pero no en Eucariotes; cuatro EC numbers (1.2.1, 2.3.1, 3.1.3 y 3.5.1) son abundantes en
Bacterias y Eucariotes pero no en Arqueas; una ligasa (6.3.2) fue identificada como
29
abundante en bacterias pero no en arqueas y eucariotas; un EC number (2.4.1) fue
abundante en Eucariotes; y finalmente, seis actividades (1.2.7, 2.7.4, 4.1.2, 4.3.2, 5.3.1 y
6.3.5) fueron identificadas como altamente abundantes solamente en Arqueas (Fig. 2.4).
30
aleatoriamente 100 genomas por dominio 1000 veces, obtuvimos el promedio de cada uno
y comparamos el resultado con la distribución original (considerando el conjunto completo
de genomas).A partir de estos análisis, identificamos una consistencia entre el muestreo y
los datos observados, lo que sugiere que nuestros resultados son lo suficientemente sólidos
y confirman que 15 actividades enzimáticas son abundantes en Arqueas, 14 en Bacterias y
13 en Eucariotes, es decir, también los encontramos cuando consideramos el conjunto de
datos completo (Tabla S2, Tabla S3, Tabla S4).
31
Una de las actividades enzimáticas más recurrentes identificadas en todos los organismos
correspondió a las transferasas de los grupos que contienen fósforo (2.7.-), en particular,
las nucleotidil fosfotransferasas (2.7.7) involucradas en la transferencia de acilo, glicosilo,
amino y fosfato (incluye difosfato, residuos de nucleotidilo, y otros). En contraste, las
fosfotransferasas (2.7.4) fueron abundantes en Arqueas; dichas enzimas están
involucradas en la adición de fosfato a las moléculas de UMP y CMP, entre otras moléculas.
Este resultado concuerda con las simulaciones de las redes metabólicas donde, se
encontró que las actividades de transferasa estaban asociadas con nuevas vías
metabólicas, en particular, con enzimas multifuncionales como consecuencia de la
dependencia hacia el metabolito donador o aceptor (Pfeiffer et al., 2005; Caetano-Anolles
et al., 2009).
En resumen, hemos identificado ocho reacciones enzimáticas como las más abundantes
en todos los organismos analizados en este trabajo, sugiriendo un conjunto recurrente de
funciones utilizadas en todos los organismos, probablemente como consecuencia de
duplicación y reclutamiento de eventos en varias ocasiones a lo largo de la evolución para
abastecer a las vías metabólicas en todos los organismos (Figura S2.1).
32
Figura 2.4 Reacciones enzimáticas identificadas como abundantes en
Arqueas, Bacterias y Eucariotes. Diagrama de Venn de la abundancia
enzimática, que revela los EC numbers 1.1.1, 2.4.2, 2.5.1, 2.6.1, 2.7.1, 2.7.7,
4.1.1 y 4.2.1 como abundantes en los tres dominios celulares. Se identificó el EC
number 6.3.4 como abundante en arqueas y bacterias, pero no en eucariotes;
los EC numbers 1.2.1, 2.3.1, 3.1.3 y 3.5.1 son abundantes en bacterias y
eucariotes pero no en arqueas; el EC number 6.3.2 fue identificado como
abundante en bacterias pero no en arqueas y eucariotas; el EC number 2.4.1 fue
abundante en eucariotes; y finalmente, los EC numbers 1.2.7, 2.7.4, 4.1.2, 4.3.2,
5.3.1 y 6.3.5 fueron identificadas como altamente abundantes en arqueas.
organismos.
33
restringidos, como Nanoarchaeum equitans, un endosimbionte de Ignococcus sp. Seis
actividades enzimáticas (3.1.26, 5.4.4, 4.2.99, 1.16.1, 5.1.2 y 1.3.7) se presentan en
Actinobacteria, Cyanobacteria, Gammaproteobacteria y Viridiplantae. Por un lado, una
actividad enzimática 3.1.26, definida como una endoribunucleasa que produce 5'-fosfo
monoésteres, se aprecia sólo en las actinobacterias. Se han reportado que las
endoribunucleasas se concentran en mayor proporción en las actinobacterias, como en las
especies Frankia y Salinispora que contienen enzimas descritas como RNasa J y la RNasa
Y (Even et al., 2005; Shahbabian et al., 2009). También, una actividad enzimática 1.3.7,
definida como una oxidorreductasa que actúa sobre el grupo de donantes CH-CH teniendo
una proteína de hierro-azufre como aceptor, es exclusiva de las cianobacterias. Se ha
reportado que algunas enzima atípica ficocianobilina:ferredoxina oxidoreductasa (EC
1.3.7.5) de la familia de la bilina reductasa dependiente de ferredoxina, pues cataliza las
transferencias directas de electrones sin iones metálicos ni cofactores orgánicos, participan
en la biosíntesis de ficocianobilina, que es el pigmento precursor de los cromóforos de
fitocromo y ficobiliproteína exclusivas de las cianobacterias (Tu et al., 2006). La actividad
enzimática 5.4.4, es una isomerasa que realiza reacciones transferencias intramoleculares
de grupos hidroxi, se puede apreciar en tres grupos taxonómicos: Cyanobacteria,
Gammaproteobacteria y Viridiplantae. La actividad enzimática 4.2.99, una liasa de carbono-
oxígeno, se presenta en las cianobacterias y las gammaproteobacterias. Por último, un
conjunto de cuatro reacciones enzimáticas (5.4.4, 4.2.99, 1.16.1 y 5.1.2) se atribuyen a las
gammaproteobacterias, donde la actividad enzimática 5.1.2 es una isomerasa cuya función
es una racemasa y/o epimerasa que actúa sobre hidroxiácidos y derivados.
34
Figura 2.5 Análisis de agrupamiento de los EC numbers que muestra la
presencia de un conjunto de actividades enzimáticas en todos los
organismos. Un grupo de cinco EC numbers (2.7.4, 2.7.7, 2.7.1, 5.3.1 y 5.4.2)
35
2.3.3 ¿Qué tan antiguos son los dominios estructurales de las enzimas asociadas al
metabolismo?
En detalle, la enzima asociada a la actividad 2.7.1, identificada como una de las más
distribuidas en todos los organismos, transfiere grupos que contienen fósforo con un grupo
de alcohol como aceptor. En general, se identificaron 261 dominios estructurales diferentes
en proteínas asociadas a esta función enzimática, principalmente dedicadas a actividades
de fosfato. De estos dominios, el Actin-like ATPase domain (SF:53067), el P-loop containing
nucleoside triphosphate hydrolases (SF:52540) y el Ribosomal protein S5 domain 2-like
(SF: 54211), representan el 40 % de su repertorio de dominios (Tabla 2.1; Figura 2.6),
sugiriendo un uso preferencial de los mismos. Es interesante observar que la alta diversidad
de dominios de proteínas asociados a esta actividad sugiere múltiples eventos de
reclutamiento de dominios de proteínas a lo largo de la historia de la vida, lo que refuerza
la idea de que el reclutamiento de funciones catalíticas es muy importante para aumentar
el tamaño de los mapas metabólicos o para mantener Integridad de las funciones
metabólicas.
36
Figura 2.6 Ancestralidad y abundancia de los dominios estructurales de la
reacción enzimática 2.7.1. La línea de tiempo asigna la antigüedad de cada
dominio estructural presente en una de las reacciones enzimáticas con mayor
distribución, EC number 2.7.4, como lo sugiere Wang et al., (2009). "0"
representa los dominios proteicos antiguos y "1" a los dominios contemporáneos.
Los ID de cada superfamilia más abundante está resaltada en Negritas.
37
cercano al último ancestro común de todos los organismos y que representa el 37% del
total de dominios proteicos identificados en esta actividad (Figura 2.7) (Caetano-Anolles et
al., 2007). De hecho, Alva, et al (2015), identificaron el P-loop como uno de los 40
fragmentos estructurales cuya similitud y función sugieren un papel primordial más cercano
al mundo del ARN.
38
Las proteínas que llevan la actividad de las nucleotidil transferasas (EC 2.7.7), cuya
distribución entre los organismos fue muy amplia, se han relacionado con 692 dominios
diferentes, principalmente dedicados a las actividades de fosfato, tales como las Nucleotide-
diphospho-sugar transferases (SF:53448), Nucleotidylyl transferase (SF:81301) y
Nucleotidyltransferases (SF:52374), entre otros. Ocho dominios representan el 39.2% del
conjunto total de dominios identificados en esta actividad enzimática, siendo el Nucleotide-
diphospho-sugar transferases (SF: 53448) el dominio más abundante asociado a esta
actividad catalítica, seguido por el P-loop containing nucleoside triphosphate hydrolase (SF:
52540) (Caetano-Anolles et al., 2007) (Tabla 2.1; Figura 2.8).
39
representa los dominios proteicos antiguos y "1" a los dominios contemporáneos.
Los ID de cada superfamilia más abundante está resaltada en Negritas.
Las isomerasas que interconvierten las aldosas y las cetosas (EC 5.3.1) son proteínas
relacionadas con 326 dominios diferentes, dedicados principalmente a las actividades del
fosfato, como el Ribulose-phosphate binding barrel (SF:51366), Triosephosphate
isomerase (SF:51351) y D-ribose-5-phosphate isomerase (RpiA) lid domain, entre otros. De
estos, seis dominios representan el 67% del total de los 326 dominios identificados. De
hecho, el Ribulose-phosphate binding barrel es el dominio más abundante asociado a esta
actividad y también se considera como uno de los dominios más antiguos (Tabla 2.1; Figura
2.9).
40
Figura 2.9 Ancestralidad y abundancia de los dominios estructurales de la
reacción enzimática 5.3.1. La línea de tiempo asigna la antigüedad de cada
dominio estructural presente en una de las reacciones enzimáticas con mayor
distribución, EC number 2.7.4, como lo sugiere Wang et al., (2009). "0"
representa los dominios proteicos antiguos y "1" a los dominios contemporáneos.
Los ID de cada superfamilia más abundante está resaltada en Negritas.
41
Figura 2.10 Ancestralidad y abundancia de los dominios estructurales de
la reacción enzimática 5.4.2. La línea de tiempo asigna la antigüedad de cada
dominio estructural presente en una de las reacciones enzimáticas con mayor
distribución, EC number 2.7.4, como lo sugiere Wang et al., (2009). "0"
representa los dominios proteicos antiguos y "1" a los dominios contemporáneos.
Los ID de cada superfamilia más abundante está resaltada en Negritas.
42
el dominio más abundante corresponde al antiguo NAD(P)-binding Rossmann-fold domain
(Schaeffer et al., 2017); asociados a procesos funcionales fundamentales, como el enlace
FAD, NAD o NADP (Hanukoglu, 2015; Laurino et al., 2016).
2.7.1 Transferasa Fosfotransferasa con 261 53067 / Actin-like ATPase domain/ 0.183274
un grupo alcohol 52540 / P-loop containing nucleoside triphosphate hydrolases/
como aceptor 0.152635
54211 / Ribosomal protein S5 domain 2-like/ 0.064262
2.7.4 Transferasa Fosfotransferasa con 48 52540 / P-loop containing nucleoside triphosphate hydrolases /
un grupo fosfato como 0.375094
aceptor
5.3.1 Isomerasa Interconvierte aldosas 326 51366 / Ribulose-phoshate binding barrel / 0.271909
y ketosas 51351 / Triosephosphate isomerase (TIM) / 0.108794
53697 / SIS domain / 0.106178
51182 / RmlC-like cupins / 0.065631
51395 / FMN-linked oxidoreductases / 0.063015
100950 / NagB/RpiA/CoA transferase-like / 0.059398
43
2.3.4 Las relaciones funcionales de los pares enzimáticos consecutivos proyectan
grupos taxonómicos conservados y variables
del par en el ESS real es significativamente mayor de lo esperado por azar, dejando un
conjunto de 132 pares de EC como significativo, lo que sugiere que están involucrados
en este análisis.
Basándonos en el patrón de distribución asociado con los pares enzimáticos en todos los
genomas, identificamos cinco pares (EC 4.2.1: 5.4.2; 5.4.2: 4.2.1; 2.7.7: 2.7.1; 2.7.4: 3.6.1;
y 2.7.7: 2.7.8) distribuidos ampliamente entre los organismos o pares enzimáticos
"universales". (Tabla 2.2). Estas reacciones están involucradas principalmente en funciones
relacionadas con el fosfato (transferasas e isomerasas) y también relacionadas con el
metabolismo del fósforo.
44
Tabla 2.2. Pares de EC numbers significativos y ampliamente distribuidos en los
tres Dominios celulares
Para evaluar los roles de estos pares enzimáticos en todos los mapas metabólicos, estas
reacciones "universales" se rastrearon a lo largo del metabolismo completo de Bacterias,
Arqueas y Eucariotes. Por tanto, las cinco reacciones se identificaron en el metabolismo de
los glicerolípidos, probablemente porque esta vía es una vía fundamental asociada con el
origen y evolución de las membranas celulares y vinculada al componente estructural
central de las principales clases de lípidos biológicos, triglicéridos y fosfatidil fosfolípidos
que participan en la composición de las membranas (Peretó et al., 2004). En este sentido,
se han identificado diversas estructuras lipídicas en los tres dominios celulares, como el
enlace éster en ácidos grasos de cadena larga en Bacteria y Eucaria o éter lípidos con
isoprenoides en Arqueas; hay lípidos polares comunes con una columna vertebral de
glicerol en todos los organismos, con la excepción de sus estereoestructuras (Yokobori et
al., 2016). Por lo tanto, esta columna vertebral común se asocia a los organismos
analizados en este trabajo, sin embargo se requieren más análisis.
45
Finalmente, dos mapas metabólicos antiguos, para la glucólisis y el metano, contienen dos
y tres pares de reacciones, respectivamente, 5.4.2: 4.2.1 y 4.2.1: 5.4.2 y 5.4.2: 4.2.1, 4.2.1:
5.4 .2 y 2.7.7: 2.7.8; mientras que el par 2.7.7: 2.7.1 se asocia preferentemente con ocho
mapas metabólicos, entre los que destacan los mapas de metabolismo de aminoazúcares
y nucleótidos, metabolismo de fructosa y manosa, entre otros.
46
2.4 CONCLUSIONES
47
CAPÍTULO III
Con este análisis, hemos identificado que las reacciones enzimáticas son, en mayor
proporción, actividades ligadas al transporte de electrones y moléculas, entre ellos, los
grupos fosfatos. Algunos trabajos sugieren que las actividades transferasas (2.x.x.x) están
asociadas con nuevas vías metabólicas, en particular, con enzimas multifuncionales como
consecuencia de la dependencia hacia el metabolito donador o aceptor (Pfeiffer et al.,
2005). Por ejemplo, si hablamos de comunidades entre bacterias y arqueas en ambientes
hostiles, como entornos metanogénicos, la transferencia de electrones entre este tipo
especies es un proceso vital, ya que se aprovechan de las capacidades metabólicas de su
pareja sintrófica para obtener energía a partir de la descomposición de los compuestos que
no pueden digerir por sí mismos (Stams y Plugge, 2009). De esta manera, se sitúan cinco
reacciones enzimáticas 2.7.1, 2.7.4, 2.7.7, 5.3.1, 5.4.2 que se conservan en los tres
48
dominios celulares. Este resultado sugiere tener relación en la aparición primordial
transferasas como ATPasa, GTPasa y helicasa, que fueron cruciales para la unión y el
transporte, la aparición de ácidos nucleicos y polímeros de proteínas y la comunicación de
las células primordiales con el medio ambiente (Kim y Caetano Anollés, 2010). Por otro
lado, estas cinco reacciones enzimáticas se encuentran limitadas a mapas metabólicos
como la vía de la Pentosa fosfato, o el metabolismo de azúcares, entre otros. Se ha
observado la importancia de la relación de la molécula del inositol con el fosfato. En las
arqueas, se conserva una única reacción de isomerización irreversible que convierte la
glucosa en la forma mucho más estable de inositol, dando a un azúcar metabólicamente
inerte y versátil, el lienzo ideal para decorar con fosfatos; esto permite que las arqueas,
puedan adaptarse a ambientes hostiles (Livermore et al., 2016). Cuando analizamos la
diversidad de dominios asociados a dichas actividades enzimáticas, identificamos
diferentes eventos de reclutamiento de dominios a lo largo de su historia evolutiva. El P-
loop containing nucleoside triphosphate hydrolases (SF: 52540) es el dominio más antiguo
presente y recurrente en las actividades enzimáticas conservadas. Los P-loops, así como
los Rossmanns folds, se describen como dominios de unión a nucleótidos porque ambos
utilizan ribonucleósidos fosforilados como ATP o NAD, así como otros cofactores pre-LUCA
como SAM (Longo et al., 2020). Por ello, se ha visto que la arquitectura de algunas
proteínas anunciadas como antiguas, la mayoría de ellas representada bajo el EC number
2.7.x.x, recurren principalmente a los dominios P-loop containing nucleoside triphosphate
hydrolases, aunque también están asociadas a los dominios TIM beta/alpha-barrel,
NAD(P)-binding Rossmann-fold domains, entre otros (Ma et al., 2008). En ese contexto,
sugerimos que dichas reacciones enzimáticas, 2.7.1, 2.7.4, 2.7.7, 5.3.1, 5.4.2, podrían ser
ancestrales en la evolución de las vías metabólicas.
Por otra parte, cuando se analizan las reacciones enzimáticas consecutivas (a manera de
pares), identificamos 5 pares enzimáticos significativos (4.2.1: 5.4.2; 5.4.2: 4.2.1; 2.7.7:
2.7.1; 2.7.4: 3.6.1; y 2.7.7: 2.7.8) se conservan ampliamente entre todos los organismos
analizados, cuyas funciones rigen ser transferasas e isomerasas, así como su participación
en el metabolismo del fósforo. La mayoría de estas reacciones enzimáticas de los pares
enzimáticos conservados, están asociadas a enzimas con P-loops como son las adenilato
quinasas, la ATPasa transportadora de arsenito y la ATPasa de dos sectores transportadora
de H + (Ma et al., 2008). Por otra parte, estas mismas reacciones de los pares enzimáticos
49
conservados se presentan en el metabolismo de los glicerolípidos, vía metabólica que está
asociada con el origen y evolución de las membranas celulares, siendo partícipe en el
componente estructural central de las principales clases de lípidos biológicos que participan
en la composición de las membranas (Peretó et al., 2004).
Finalmente, seis actividades enzimáticas (3.1.26, 5.4.4, 4.2.99, 1.16.1, 5.1.2 y 1.3.7) se
presentan como firmas funcionales en Actinobacteria, Cyanobacteria,
Gammaproteobacteria y Viridiplantae. En concreto, la actividad enzimática 3.1.26 es la
firma funcional del grupo taxonómico de las actinobacterias. Mientras que la actividad
enzimática 1.3.7 funge como firma funcional para las cianobacterias. También un conjunto
de cuatro actividades enzimáticas (5.4.4, 4.2.99, 1.16.1 y 5.1.2) se denomina firma funcional
para las gammaproteobacterias.
Considero que este trabajo permite la posibilidad de entender la historia evolutiva del
metabolismo a través de sus reacciones enzimáticas, en la cual se pueden asociar a la
conservación y reclutamiento de diversos dominios proteicos que propician a las actividades
catalíticas de las mismas. Como consecuencia, podemos determinar que la capacidad
energética del metabolismo moderno es llevada a cabo por reacciones asociadas al ión
fósforo y grupos fosfatos como NAD, NADH, FAD, FADH, así como los ácidos nucleicos
DNA y ARN.
50
3.2 CONCLUSIONES GENERALES
● Cinco reacciones enzimáticas, (2.7.1, 2.7.4, 2.7.7, 5.3.1, 5.4.2) se conservan en los
tres Dominios celulares, involucradas en los mecanismos de fosforilación esenciales
en el metabolismo moderno.
● 5 pares enzimáticos significativos (4.2.1: 5.4.2; 5.4.2: 4.2.1; 2.7.7: 2.7.1; 2.7.4: 3.6
.1; y 2.7.7: 2.7.8) se conservan ampliamente entre los organismos de los tres
Dominios celulares, cuyas funciones rigen ser transferasas e isomerasas, así como
su participación en el metabolismo del fósforo.
51
También un conjunto de cuatro actividades enzimáticas (5.4.4, 4.2.99, 1.16.1 y
5.1.2) se denomina como firma funcional para las gammaproteobacterias.
52
3.3 PERSPECTIVAS
Por otro lado, se debe continuar con las comparaciones entre vías metabólicas de diferentes
especies, abarcando el metabolismo de arqueas, bacterias y eucariotes. Las
comparaciones partirán de secuencias lineales de actividades enzimáticas que conforman
a los mapas metabólicos y, mediante algoritmos de programación dinámica, nos
enfocaremos en alineamientos de secuencias metabólicas mediante un score definido. Esto
nos permitirá conocer cuál es la limitante funcional del crecimiento del metabolismo.
También, la similitud entre mapas metabólicos se podría correlacionar con la expresión
global de los genomas completos analizados, es decir, podemos inferir la expresión de los
genes con respecto a las actividades conservadas entre vías metabólicas, aplicando una
perspectiva de teoría de redes. Un enfoque aplicado de los alineamientos de los mapas
metabólicos es tener la posibilidad de predecir rutas alternas o rutas nuevas con respecto
a las ya existentes. De esta manera, sugerimos mapear las firmas funcionales que se
conservan en las vías metabólicas para después tomarlas como base y generar secuencias
metabólicas mediante estrategias estadísticas como los modelos ocultos de Markov.
53
ANEXOS
https://docs.google.com/document/d/1bQDgi1L7vg9W2kT1-
BICwhdNo_CxCGCfUgqVahvZBYg/edit?usp=sharing
54
Figuras
55
56
Figura Suplementaria 2.2 Análisis de agrupamiento de los EC numbers que
muestra la presencia de un conjunto de actividades enzimáticas en todos
los organismos. 195 EC numbers se agruparon con un HCA utilizando la
correlación al cuadrado de Pearson como métrica de distancia. Se obtuvieron 50
agrupamientos utilizando un umbral de distancia de 0.668.
57
Tablas
Tabla Suplementaria 1
Código
Categoría funcional (utilizado en mapas HEX
Código metabólicos globales) color Nombre color
Tabla Suplementaria 2
https://drive.google.com/file/d/1OwulCFn-
ZshJqZpP8GXCk905ffT8wLWI/view?usp=sharing
Tabla Suplementaria 3
EC EC Sesgo Proporción de la
Proporción Acumulativo
number number (media) media
58
0.05647824158493 0.056478241584
6.3.4 9 939 6.3.4 3271.066 0.055319865999757
0.05187850114172 0.108356742726
4.2.1 1 66 4.2.1 3007.319 0.050859409164634
0.05025216434215 0.158608907068
2.7.4 5 815 2.7.4 2914.011 0.049281395741272
0.04588241092109 0.204491317989
2.7.1 8 913 2.7.1 2659.701 0.044980536289827
0.03929492550063 0.243786243490
1.1.1 3 546 1.1.1 2277.189 0.038511540377394
0.03891708967851 0.282703333169
2.4.2 1 057 2.4.2 2255.35 0.038142201894597
0.03632152185698 0.319024855026
4.1.2 1 038 4.1.2 2104.816 0.035596389395428
0.03448162567969 0.353506480705
4.3.2 4 732 1.2.7 1998.188 0.033793109769819
0.03448162567969 0.387988106385
1.2.7 4 425 4.3.2 1997.401 0.033779800122584
0.03016115519195 0.418149261577
2.6.1 7 382 2.6.1 1748.384 0.029568455236342
0.02914264123667 0.447291902814
2.5.1 3 056 2.5.1 1689.206 0.028567644176542
0.02789414025922 0.475186043073
2.7.7 8 284 2.7.7 1617.45 0.027354115527265
0.02733560034826 0.502521643421
6.3.5 6 55 6.3.5 1583.946 0.026787499998732
0.528378755770
5.3.1 0.02585711234866 21 5.3.1 1498.474 0.025342008043898
59
0.02383651208253 0.552215267852
4.1.1 3 743 4.1.1 1381.813 0.023369051555891
Tabla Suplementaria 4
EC EC Sesgo Proporción de la
Proporción Acumulativo
number number (media) media
0.05709617095444 0.057096170954
2.7.1 7 447 2.7.1 7495.817 0.056178814276557
0.05178682740548 0.108882998359
1.1.1 4 931 1.1.1 6794.558 0.050923096438093
0.04407668984549 0.152959688205
2.5.1 5 426 2.5.1 5773.9 0.043273582552965
0.04359253678050 0.196552224985
2.6.1 3 929 2.6.1 5714.953 0.042831793143597
0.03891682855534 0.235469053541
2.3.1 8 277 2.3.1 5096.832 0.038199168726613
0.03704073542850 0.272509788969
4.2.1 6 783 4.2.1 4860.484 0.036427814063521
0.03138945877739 0.303899247747
6.3.2 3 175 6.3.2 4114.017 0.030833276342472
0.03066867590188 0.334567923649
2.7.7 6 062 2.7.7 4018.499 0.030117398676026
0.02973426048645 0.364302184135
2.4.2 3 514 2.4.2 3900.555 0.02923344512286
60
0.02900803088896 0.393310215024
6.3.4 6 48 6.3.4 3798.433 0.028468072532847
0.02686988991569 0.420180104940
4.1.1 7 177 4.1.1 3530.088 0.026456910318369
0.02608253599375 0.446262640933
1.2.1 5 931 1.2.1 3422.943 0.025653891907479
0.02321756023166 0.469480201165
3.5.1 7 599 3.5.1 3048.475 0.022847370853868
0.02269406973014 0.492174270895
3.1.3 5 744 3.1.3 2976.302 0.022306456692972
Tabla Suplementaria 5
EC EC Sesgo Proporción de la
Proporción Acumulativo
numbers number (media) media
0.05928909983252 0.059289099832
2.7.1 4 524 2.7.1 13253.522 0.057869975970606
0.05773719842999 0.117026298262
2.3.1 3 517 2.3.1 12908.332 0.056362743628494
0.05621762830668 0.173243926569
1.1.1 2 199 1.1.1 12563.686 0.054857886599671
0.05216975214841 0.225413678717
2.6.1 4 612 2.6.1 11661.925 0.050920451146571
0.03795368867564 0.263367367393
4.1.1 6 258 4.1.1 8484.998 0.037048765631554
61
0.03232157983562 0.295688947228
1.2.1 8 886 1.2.1 7228.268 0.031561398960148
0.02937943342666 0.325068380655
4.2.1 3 549 4.2.1 6571.404 0.028693278026259
0.02740399226635 0.352472372921
2.7.7 8 907 2.7.7 6126.258 0.026749599332897
0.02666683910015 0.379139212022
3.1.3 6 063 3.1.3 5963.434 0.026038647106957
0.02351777250418 0.402656984526
2.4.1 7 25 2.4.1 5256.42 0.022951551979271
0.02224068697502 0.424897671501
2.4.2 1 271 2.4.2 4972.578 0.021712188607071
0.02197557048542 0.446873241986
3.5.1 2 692 3.5.1 4908.155 0.02143089300414
0.02174278527504 0.468616027261
2.5.1 2 735 2.5.1 4858.268 0.021213067169524
Tabla Suplementaria 6
https://drive.google.com/file/d/1bntH9IPx1Z_QJKVK_bilMMNMnbGBHu5f/view?usp=sharin
g
62
REFERENCIAS
Altman, T., Travers, M., Kothari, A., Caspi, R., & Karp, P. D. (2013). A systematic
comparison of the MetaCyc and KEGG pathway databases. BMC bioinformatics,
14(1), 112.
Alva V, Soding J., & Lupas AN (2015). A vocabulary of ancient peptides at the origin of
folded proteins. Elife , 4:e09410
Caetano-Anollés, G., Kim, H. S., & Mittenthal, J. E. (2007). The origin of modern metabolic
networks inferred from phylogenomic analysis of protein architecture. Proceedings
of the National Academy of Sciences, 104(22), 9358-9363.
Caetano-Anollés, G., Wang, M., Caetano-Anollés, D., & Mittenthal, J. E. (2009a). The origin,
evolution and structure of the protein world. Biochemical Journal, 417(3), 621-637.
Caetano-Anollés, G., Yafremava, L. S., Gee, H., Caetano-Anollés, D., Kim, H. S., &
Mittenthal, J. E. (2009b). The origin and evolution of modern metabolism. The
international journal of biochemistry & cell biology, 41(2), 285-297.
Cárdenas-Conejo, Y., Carballo-Uicab, V., Lieberman, M., Aguilar-Espinosa, M., Comai, L.,
& Rivera-Madrid, R. (2015). De novo transcriptome sequencing in Bixa orellana to
63
identify genes involved in methylerythritol phosphate, carotenoid and bixin
biosynthesis. BMC genomics, 16(1), 877.
Caspi, R., Foerster, H., Fulcher, C. A., Kaipa, P., Krummenacker, M., Latendresse, M., &
Walk, T. C. (2007). The MetaCyc Database of metabolic pathways and enzymes
and the BioCyc collection of Pathway/Genome Databases. Nucleic acids
research, 36, D623-D631.
Caspi, R., Billington, R., Keseler, I. M., Kothari, A., Krummenacker, M., Midford, P. E., &
Karp, P. D. (2019). The MetaCyc database of metabolic pathways and enzymes-a
2019 update. Nucleic acids research, 48(D1), D445-D453.
Cuesta, S. M., Rahman, S. A., Furnham, N., & Thornton, J. M. (2015). The classification and
evolution of enzyme function. Biophysical journal, 109(6), 1082-1086.
Dandekar, T., Schuster, S., Berend, S. N. E. L., Huynen, M., & Peer, B. O. R. K. (1999).
Pathway alignment: application to the comparative analysis of glycolytic enzymes.
Biochemical Journal, 343(1), 115-124.
de la Osa, J. L., Bateman, D. A., Ho, S., González, C., Chakrabartty, A., & Laurents, D. V.
(2007). Getting specificity from simplicity in putative proteins from the prebiotic
Earth. Proceedings of the National Academy of Sciences, 104(38), 14941-14946.
Díaz-Mejía, J. J., Pérez-Rueda, E., & Segovia, L. (2007). A network perspective on the
evolution of metabolism by gene duplication. Genome biology, 8(2), R26.
Even, S., O. Pellegrini, L. Zig, V. Labas, J. Vinh, D. Brechemmier-Baey & H. Putzer, (2005).
Ribonucleases J1 and J2: two novel endoribonucleases in B. subtilis with functional
homology to E. coli RNase E. Nucleic Acids Res 33: 2141-2152.
Fani, R., & Fondi, M. (2009). Origin and evolution of metabolic pathways. Physics of Life
Reviews, 6(1), 23–52.3
Finn, R. D., Clements, J., & Eddy, S. R. (2011). HMMER web server: interactive sequence
similarity searching. Nucleic acids research, 39(suppl_2), W29-W37.
64
Gray, L. R., Tompkins, S. C., & Taylor, E. B. (2014). Regulation of pyruvate metabolism and
human disease. Cellular and molecular life sciences, 71(14), 2577-2604.
Hernández-Montes, G., Díaz-Mejía, J. J., Pérez-Rueda, E., & Segovia, L. (2008). The
hidden universal distribution of amino acid biosynthetic networks: a genomic
perspective on their origins and evolution. Genome biology, 9(6), R95.
Kallmeyer, J., Pockalny, R., Adhikari, R. R., Smith, D. C., & D’Hondt, S. (2012). Global
distribution of microbial abundance and biomass in subseafloor sediment.
Proceedings of the National Academy of Sciences, 109(40), 16213-16216.
Kanehisa, M. (1997). A database for post-genome analysis. Trends in Genetics, 13(9), 375-
376.
Kanehisa, M., Goto, S., Sato, Y., Kawashima, M., Furumichi, M., & Tanabe, M. (2013). Data,
information, knowledge and principle: back to metabolism in KEGG. Nucleic acids
research, 42(D1), D199-D205.
Kanehisa, M., Furumichi, M., Tanabe, M., Sato, Y., & Morishima, K. (2016). KEGG: new
perspectives on genomes, pathways, diseases and drugs. Nucleic acids
research, 45(D1), D353-D361.
Kashyap, H., Ahmed, H. A., Hoque, N., Roy, S., & Bhattacharyya, D. K. (2015). Big data
analytics in bioinformatics: A machine learning perspective. arXiv preprint
arXiv:1506.05101.
Kanehisa, M., Sato, Y., Furumichi, M., Morishima, K., & Tanabe, M. (2018). New approach
for understanding genome variations in KEGG. Nucleic acids research, 47(D1),
D590-D595.
65
Kim, K. M., & Caetano-Anollés, G. (2010). Emergence and evolution of modern molecular
functions inferred from phylogenomic analysis of ontological data. Molecular
Biology and Evolution, 27(7), 1710-1733.
Light, S., Kraulis, P., & Elofsson, A. (2005). Preferential attachment in the evolution of
metabolic networks. Bmc Genomics, 6(1), 159.
Livermore, T. M., Azevedo, C., Kolozsvari, B., Wilson, M. S., & Saiardi, A. (2016).
Phosphate, inositol and polyphosphates. Biochemical Society Transactions, 44(1),
253-259.
Longo, L. M., Jabłońska, J., Vyas, P., Kanade, M., Kolodny, R., Ben-Tal, N., & Tawfik, D. S.
(2020). On the emergence of P-Loop NTPase and Rossmann enzymes from a
Beta-Alpha-Beta ancestral fragment. Elife, 9, e64415.
Ma, B. G., Chen, L., Ji, H. F., Chen, Z. H., Yang, F. R., Wang, L., & Zhang, H. Y. (2008).
Characters of very ancient proteins. Biochemical and biophysical research
communications, 366(3), 607-611.
Marini, C., Bianchi, G., Buschiazzo, A., Ravera, S., Martella, R., Bottoni, G., & Inglese, E.
(2016). Divergent targets of glycolysis and oxidative phosphorylation result in
additive effects of metformin and starvation in colon and breast cancer. Scientific
reports, 6, 19569.
Muto-Fujita, A. (2019). A Novel model for the Chemical Evolution of Metabolic Networks.
Noor, E., Eden, E., Milo, R., & Alon, U. (2010). Central carbon metabolism as a minimal
biochemical walk between precursors for biomass and energy. Molecular cell,
39(5), 809-820.
66
Oates, M. E., Stahlhacke, J., Vavoulis, D. V., Smithers, B., Rackham, O. J., Sardar, A. J., &
Gough, J. (2014). The SUPERFAMILY 1.75 database in 2014: a doubling of
data. Nucleic acids research, 43(D1), D227-D233.
Okuda, S., Yamada, T., Hamajima, M., Itoh, M., Katayama, T., Bork, P., & Kanehisa, M.
(2008). KEGG Atlas mapping for global analysis of metabolic pathways. Nucleic
acids research, 36(suppl_2), W423-W426.
Oren, A. (2008). Microbial life at high salt concentrations: phylogenetic and metabolic
diversity. Saline systems, 4(1), 2.
Pál, C., Papp, B., & Lercher, M. J. (2005). Adaptive evolution of bacterial metabolic networks
by horizontal gene transfer. Nature genetics, 37(12), 1372.
Papin, J. A., Stelling, J., Price, N. D., Klamt, S., Schuster, S., & Palsson, B. O. (2004).
Comparison of network-based pathway analysis methods. Trends in biotechnology,
22(8), 400-405.
Qiao, X., Li, Q., Yin, H., Qi, K., Li, L., Wang, R., & Paterson, A. H. (2019). Gene duplication
and evolution in recurring polyploidization–diploidization cycles in plants. Genome
biology, 20(1), 1-23.
67
Rahman, S. A., Cuesta, S. M., Furnham, N., Holliday, G. L., & Thornton, J. M. (2014). EC-
BLAST: a tool to automatically search and compare enzyme reactions. Nature
Methods, 11(2), 171–174. doi:10.1038/nmeth.2803
Ron Y. Pinter, Oleg Rokhlenko, Esti Yeger-Lotem, Michal Ziv-Ukelson (2005). Alignment of
metabolic pathways, Bioinformatics, Volume 21, Issue 16, , Pages 3401–3408,
https://doi.org/10.1093/bioinformatics/bti554
Tipton, K., & McDonald, A. (2018). A Brief Guide to Enzyme Nomenclature and
Classification.
Tohsato, Y., Matsuda, H., & Hashimoto, A. (2000, August). A multiple alignment
algorithm for metabolic pathway analysis using enzyme hierarchy. In ISMB (Vol.
8, pp. 376-383).
Tu, S. L., Sughrue, W., Britt, R. D., & Lagarias, J. C. (2006). A conserved histidine-
aspartate pair is required for exovinyl reduction of biliverdin by a cyanobacterial
phycocyanobilin: ferredoxin oxidoreductase. Journal of Biological Chemistry,
281(6), 3127-3136.
Scossa, F., & Fernie, A. R. (2020). The evolution of metabolism: How to test evolutionary
hypotheses at the genomic level. Computational and Structural Biotechnology
Journal.
Shahbabian, K., A. Jamalli, L. Zig & H. Putzer, (2009). RNase Y, a novel endoribonuclease,
initiates riboswitch turnover in Bacillus subtilis. EMBO J 28: 3523-3533.
Silvela, J., & Portillo, J. (2001). Breadth-first search and its application to image processing
problems. IEEE Transactions on Image Processing, 10(8), 1194-1199.
Singh, R., Kumar, M., Mittal, A., & Mehta, P. K. (2016). Microbial enzymes: industrial
progress in 21st century. 3 Biotech, 6(2), 174.
68
Staley, J. T., & Caetano-Anollés, G. (2018). Archaea-First and the Co-Evolutionary
Diversification of Domains of Life. BioEssays, 40(8), 1800036.
Wang, M., Boca, S. M., Kalelkar, R., Mittenthal, J. E., & Caetano-Anollés, G. (2006). A
phylogenomic reconstruction of the protein world based on a genomic census of
protein fold architecture. Complexity, 12(1), 27–40.
Wilson, D., Pethica, R., Zhou, Y., Talbot, C., Vogel, C., Madera, M., & Gough, J. (2009).
SUPERFAMILY—sophisticated comparative genomics, data mining, visualization
and phylogeny. Nucleic acids research, 37(suppl_1), D380-D386.
Wu, F., & Minteer, S. (2015). Krebs cycle metabolon: structural evidence of substrate
channeling revealed by cross‐linking and mass spectrometry. Angewandte Chemie
International Edition, 54(6), 1851-1854.
Yamada, T., & Bork, P. (2009). Evolution of biomolecular networks—lessons from metabolic
and protein interactions. Nature Reviews Molecular Cell Biology, 10(11), nrm2787.
Yokobori, S. I., Nakajima, Y., Akanuma, S., & Yamagishi, A. (2016). Birth of archaeal cells:
molecular phylogenetic analyses of G1P dehydrogenase, G3P dehydrogenases,
and glycerol kinase suggest derived features of archaeal membranes having G1P
polar lipids. Archaea, 2016.
69