Una Aproximación Conceptual A Las Ciencias Omicas PDF
Una Aproximación Conceptual A Las Ciencias Omicas PDF
Una Aproximación Conceptual A Las Ciencias Omicas PDF
www.bios.co
Una Aproximación Conceptual
a Las Ciencias Ómicas
Una aproximación Centro de Bioinformática y Biología
conceptual Computacional de Colombia (958-59498)
Autor(es)
González Muñoz, Andrea
Alvarez Yela, Astrid Catalina
López Alvarez, Diana
Quintero, Andrés
Orozco Arias, Simón
Guyot, Romain
Cristancho Ardila, Marco Aurelio
Zuluaga, Martha
Botero, Kelly
Mosquera Rendón, Jeanneth
Garavito, Andrea
Corrector
Grafos Soluciones S.A.S
Diagramación e Impresión
Editorial Blanecolor S.A.S
Descripción Física
Propalibro Beige de 70 gr
148 páginas
tamaño 17 x 24 cm
70 Ejemplares
Manizales, Colombia.
Conceptos en Ciencias Ómicas
PREFACIO
Nunca antes se han tenido tantos datos de secuenciación disponibles y la posibilidad
de contar con tecnologías que se actualizan constantemente, que permiten estudiar
de forma masiva y simultánea cientos de especies para diferentes objetivos, entre los
cuales se destacan los estudios de taxonomía molecular, evolución y la producción de
compuestos potenciales con uso industrial. Sin duda, la generación de datos biológicos
basados en la secuenciación de alto rendimiento tiene un futuro prometedor, dado que el
potencial vislumbrado para esta área proyecta que la secuenciación directa de ARN y de
proteínas, así como la medicina personalizada de alta precisión, dejan de ser posibilidad
para convertirse en realidad.
Este libro pretende ser un abre bocas al entendimiento y la adopción de los temas
mencionados, como insumo a estudiantes e investigadores interesados en comprender
estas nuevas temáticas.
1
AGRADECIMIENTOS
Agradecemos a la Gobernación de Caldas en Colombia por la financiación de
este libro a través del proyecto de regalías, Caldas-Bioregión
2
Conceptos en Ciencias Ómicas
ÍNDICE
Prefacio 1
Agradecimientos 2
3. SECUENCIACIÓN 44
3.1. Secuenciación de primera generación 44
3.1.1. Secuenciación Sanger 44
3.2. Secuenciación de segunda generación 46
3.2.1. Secuenciación 454 46
3.2.2. Secuenciación SOLiD 48
3
3.2.3. Secuenciación Ion TorrentTM 49
3.2.4. Secuenciación Illumina® 50
3.3. Secuenciación de tercera generación 52
3.3.1. Secuenciación HeliScope 52
3.3.2. Secuenciación PacBio® 53
3.3.3. Secuenciación Oxford Nanopore 54
3.4. Referencias 57
4. GENÓMICA 59
5. METAGENÓMICA 88
5.1. Definición 89
5.2. Enfoques de la metagenómica 92
5.3. Diseño Experimental 93
5.3.1. Estudios metagenómicos mediante el enfoque de amplificación
de gen marcador o metagenómica dirigida 94
5.3.2. Estudios metagenómicos mediante el enfoque de genomas completos 94
5.4. Referencias 97
6. TRANSCRIPTÓMICA 100
6.1. Tecnologías para el estudio del transcriptoma 100
6.2. Diseño experimental 103
6.2.1. Experimento 105
6.2.2. Preparación de las librerías y secuenciación 106
6.2.3. Flujo de análisis bioinformáticos de datos de RNA-Seq 108
6.3. Referencias 113
4
Conceptos en Ciencias Ómicas
7. METABOLÓMICA 117
7. 1. Diseño experimental 118
7.1.1. Reconocimiento de patrones (Metabolite fingerprinting) 118
7.1.2. Identificación de biomarcadores (biomarker discovery) 119
7.1.3. Metabolómica no dirigida (Untargeted metabolomics) 120
7.2. Preparación de muestra y técnicas instrumentales analíticas 121
7.2.1. Aspectos generales de la espectrometría de masas 123
7.3. Procesamiento de datos metabolómicos 126
7.3.1. Formato y filtrado 128
7.3.2. Detección de picos 129
7.3.3. Deconvolución de señales 129
7.3.4. Identificación de Isótopos 130
7.3.5. Identificación de aductos 130
7.3.6. Identificación y anotación de compuestos 130
7.3.7. Alineación 131
7.3.8. Valores perdidos 132
7.4. Análisis de datos 132
7.4.1. Normalización 133
7.4.2. Transformación y escalado 133
7.4.3. Análisis de componentes principales 134
7.4.4. Regresión lineal de mínimos cuadrados parciales con
análisis discriminante (PLS-DA) 135
7.4.5. Validación cruzada 135
7.4.6. Test de permutaciones 135
7.4.7. Análisis de redes: del análisis estadístico a la interpretación biológica 136
7.5. Referencias 138
8. PROTEÓMICA 140
8.1. Diseño experimental 140
8.1.1. Extracción y separación de proteínas. 141
8.1.2. Espectrometría de masas (MS) 142
8.1.3. Análisis bioinformáticos 143
8.2. Referencias 144
5
ÍNDICE DE TABLAS
Tabla 1.1. El código genético universal. 17
Tabla 2.1. Principales plataformas de secuenciación y sus características. 56
Tabla 5.1. Listado de algunos proyectos pioneros en metagenómica 91
Tabla 7.1. Diferencias entre analizadores de masa. 126
Tabla 7.2. Plataformas para el procesamiento de señales cromatográficas
y espectros de masas. 127
Tabla 7.3. Métodos de escalado, objetivo, ventajas y desventajas. 134
6
Conceptos en Ciencias Ómicas
ÍNDICE DE FIGURAS
Figura 1.1. Estructura del ADN. Se muestran las bases nitrogenadas A, T, C y G; la
secuencia de nucleótidos del ADN y las cadenas complementarias que conforman la
estructura de la doble hélice. 10
Figura 1.2. Proceso de la transcripción del ADN a ARN. 12
Figura 1.3. Procesamiento del ARN mensajero maduro. 13
Figura 1.4. Esquematización de la transferencia de información y procesos de
replicación, transcripción y traducción del Dogma Central de la Biología Molecular. 19
Figura 1.5. Expresión génica y estructura del ARN mensajero en eucariotas vs
procariotas. 22
Figura 2.1. Línea del tiempo del origen de la bioinformática. 36
Figura 4.1. Número de genomas de plantas publicados: representación gráfica
del número de genomas de plantas publicados en los últimos 18 años. Los datos
provienen de la página http://www.plabipd.de/ 69
Figura 5.1. Contribuciones de la metagenómica en diferentes áreas del
conocimiento. 90
Figura 5.2. Enfoques de los estudios metagenómicos. 93
Figura 6.1. Etapas de un estudio transcriptómico basado en RNA-Seq. 104
Figura 7.1. Características principales de un estudio metabolómico. En verde
componente correspondiente al área de la biología, química en azul y bioinformática
en amarillo. 118
Figura 7.2. Reacciones de derivatización de compuestos semivolátiles. Primero
metoximación, segundo silanización. 122
Figura 7.3. Tipos de ionización de muestras. 124
Figura 7.4. Analizadores de masas 125
7
8
Conceptos en Ciencias Ómicas
9
1. PRINCIPIOS EN BIOLOGÍA MOLECULAR
ANDREA GONZÁLEZ MUÑOZ
H2C
O
5´ O
N C A N
H N T CH O
N C
C N O P O
H H H
H H O
Terminal 3´ OH OPO3
H
3´ Terminal Terminal 3´ Terminal 5´
5´
10
Conceptos en Ciencias Ómicas
Figura 1.1. Estructura del ADN. Se muestran las bases nitrogenadas A, T, C y G; la secuencia
de nucleótidos del ADN y las cadenas complementarias que conforman la estructura de la
doble hélice.
El ADN en el núcleo está asociado a proteínas llamadas histonas, sobre las cuales se
enrolla para conformar la cromatina, la estructura organizacional del ADN. La cromatina
contiene más del doble de proteína que de ADN y está conformada por nucleosomas,
enrollamientos que contienen ~200 pares de bases de ADN, organizadas repetitivamente
en octámeros de histonas en forma de collar. La máxima compactación de la cromatina se
presenta en forma de cromosomas, los cuales se observan en la metafase de la división
celular.
11
Hebra Antisentido 3’ 5’
AT G A C G G A T C AG C C G C AA G C GGAA T T GG
U A C U G CC U A GU C GGC GUU
Transcrito de ARN ARN Polimerasa
12
Conceptos en Ciencias Ómicas
La transcripción del ADN a ARNm genera una molécula precursora conocida como
pre-ARNm, la cual debe pasar por etapas de procesamiento en el núcleo para crear una
molécula de ARNm capaz de ser traducida a proteína. En los procariotas, sin embargo, no
es necesario este procesamiento; en eucariotas, poco después de iniciar la transcripción,
cuando el ARNm alcanza una longitud entre 25 y 30 bases, se da la adición de una caperuza
metilada (7-metilguanilato) en el extremo 5’ de la molécula, con el fin de proteger el ARNm
de degradación por exonucleasas y también proporcionar un sitio de reconocimiento
del ARNm en el ribosoma. Adicionalmente, finalizada la transcripción ocurre un clivaje
enzimático en el extremo 3’ del ARNm, seguido por la adición de cientos de bases de
adenina (conocida como cola poli A) por un proceso de poliadenilación, realizado por la
enzima poli-A polimerasa. Un tercer paso del procesamiento incluye el clivaje de secuencias
intrónicas (no codificantes para proteína) y ligación de los exones (secuencias codificantes)
adyacentes, en un proceso conocido como splicing. La Figura 1.3 muestra la molécula de
ARNm precursora originando una molécula madura de ARNm en eucariotas.
Núcleo
Empalme de Exones
ARNm AAAA
Transcrito Maduro
Citoplasma
13
ARN ribosomal (ARNr)
Los ARNr son las principales moléculas constituyentes de los ribosomas, los organelos
celulares encargados de la traducción del ARNm a proteína. Estas moléculas no portan
información que se traduce a proteína, es decir, no son codificantes; no obstante, son
fundamentales para la síntesis de las proteínas, catalizando los enlaces químicos (enlaces
peptídicos) que componen una proteína. Los ARNr se transcriben a partir de los genes
del ADN ribosomal (ADNr), que varían en número, secuencia y longitud entre las células
procariotas y eucariotas. En procariotas, existen tres moléculas de ARNr: 23S, 16S y 5S,
que en conjunto abarcan alrededor de 4500 bases y componen el ribosoma, junto con
54 proteínas. Los nombres de estas moléculas provienen de su tamaño en términos de la
tasa de sedimentación de la partícula por centrifugación, medido en unidades Svedberg
(S). Por su parte, las moléculas de ARNr en eucariotas son cuatro: 28S, 18S, 5.8S y 5S,
que comprenden más de 5500 bases y componen el ribosoma eucariota, junto con 82
proteínas.
Los ARNr son de cadena sencilla y presentan una estructura plegada altamente conservada
entre los linajes de la vida, aspecto que se debe a su actividad catalítica importante para
la función del ribosoma; aunque a nivel de secuencia los ARNr no son tan conservados. De
hecho, los genes que transcriben los ARNr se han constituido en marcadores moleculares
para reconstruir la historia evolutiva de los linajes de la vida, así como para identificar las
especies. Algunas regiones del ADNr evolucionan lentamente, mientras que otras regiones
divergen rápidamente entre linajes.
Los ARNt son moléculas pequeñas de cadena sencilla y 74-95 bases, transcritas a partir
de los genes de ADNt en el núcleo o en la mitocondria, que de manera similar al ARNr no
son codificantes, sino que cumplen variadas funciones en la célula. Su función principal
es la de ser moléculas conectoras entre el ARNm y el ribosoma durante la síntesis
proteica. Todos los ARNt comparten una estructura secundaria y terciaria que permiten el
reconocimiento por parte del ribosoma, dando lugar a su participación en la traducción del
ARNm, mediante la incorporación de aminoácidos en la proteína naciente.
Los ARNt presentan una estructura secundaria en forma de trébol, con unión por
complementariedad entre los terminales 5’ y 3’ de su secuencia, así como complementariedad
entre regiones internas de la molécula que forman estructuras plegadas en forma de bucle.
Adicionalmente, los ARNt terminan en una secuencia aceptora –CCA–, que caracteriza
a este tipo de moléculas y es incorporada durante la transcripción del ADN o agregada
enzimáticamente como una modificación post-transcripcional. Como parte de la
estructura secundaria también se encuentra el anticodón, ubicado en el mismo lugar en
todas los ARNt y en el extremo contrario a la secuencia aceptora, el cual compone el sitio
14
Conceptos en Ciencias Ómicas
de unión y reconocimiento del codón del ARNm (secuencia de tres nucleótidos del ARNm
que determina el aminoácido a incorporar en la proteína sintetizada, de acuerdo con el
código genético, Tabla 1.1). Los ARNt pueden estar sujetos a modificaciones químicas en
sus bases, como metilaciones o deamidaciones, que pueden cambiar la interacción de la
molécula con el ribosoma o alterar sus propiedades de reconocimiento del codón, en caso
tal de que se den en el anticodón.
En los diferentes linajes se ha encontrado a nivel genómico que los ARNt varían en número
de genes, organización genómica (e.g. repeticiones en tándem por eventos de duplicación)
y número de pseudogenes (genes que han perdido su función total o función canónica),
lo que indica patrones linaje-específicos complejos. En el genoma humano, por ejemplo,
se ha encontrado un número mayor al esperado de genes de ARNt, por lo cual, se podrían
atribuir funciones no canónicas para algunos de estos genes, más allá de su participación
en la traducción. Además, los proyectos de secuenciación de genomas en mamíferos han
identificado un gran número de genes de ARNt isodecodificadores, es decir, que producen
ARNt que comparten el mismo anticodón. En el genoma humano se ha identificado que
más de la mitad de genes de ARNt son de este tipo, lo cual indica una alta redundancia
de ARNt en el genoma. Sin embargo, lo interesante de los ARNt isodecodificadores es
que difieren en su secuencia interna y presentan un menor grado de aminoacilación en
comparación con los ARNt canónicos involucrados en traducción, de ahí que algunos
puedan participar en funciones diversas (Parisien, Wang & Pan, 2013).
Entre las otras funciones descubiertas o sugeridas para los ARNt, se ha referenciado su
participación en regulación (e.g. en la organización de genomas eucariotas separando
dominios de cromatina activos de los no activos y en la regulación de la expresión génica
ante eventos de estrés por vía de ARN de interferencia o ARNi), así como en la señalización
y biosíntesis de aminoácidos, grupos hemo, clorofila y antibióticos. Además, pueden
15
participar en la replicación viral, el remodelamiento de la pared celular, el etiquetado de
proteínas para degradación, la supervivencia celular por interferencia de la vía apoptótica
mediada por citocromo C en la mitocondria y el metabolismo energético, entre otras
funciones (Kirchner & Ignatova, 2015; Raina & Ibba, 2014).
Por otro lado, otros tipos de ARN no codificantes participan principalmente en funciones
reguladoras de la expresión génica, incluyendo: ARN largos no codificantes (long noncoding
RNA, lncRNA) que regulan la transcripción génica por regulación epigenética; micro ARNs
(miRNA) y ARNs cortos de interferencia (siRNA) involucrados en regulación génica; ARN
piwi de interacción (piRNA) que actúan en defensa de transposones y otras potenciales
funciones; ARN antisentido (asRNA) que participan en atenuación transcripcional,
estabilización del ARNm y bloqueo traduccional (Bartel, 2009; Malone & Hannon, 2009;
Ørom & Shiekhattar, 2013; Ponting, Oliver & Reik, 2009). Finalmente, un tipo de ARN
regulador de recién gran interés es el ARN CRISPR (crRNA), el cual se encuentra en bacterias
y arqueas cumpliendo un rol en resistencia a parásitos mediante acción dirigida al ADN,
cuya aplicación actual se ha centrado en la edición génica dirigida (Sander & Joung, 2014).
1.1.3. Proteínas
Las proteínas son moléculas muy diversas en secuencia, estructura y función. Se estima
que una célula humana puede tener entre 250000 a un millón de proteínas diferentes,
localizadas en todos los compartimientos y procesos celulares, cumpliendo funciones
estructurales, enzimáticas, transportadoras, hormonales, mensajeras, de almacenamiento,
defensa, entre otras; todas indispensables para el funcionamiento y mantenimiento
16
Conceptos en Ciencias Ómicas
celular. Las proteínas constituyen gran parte del fenotipo de un organismo, por lo tanto,
su diversidad es tan amplia como la cantidad de fenotipos observados en los seres vivos.
AMINOÁCIDOS
Las proteínas son las macromoléculas ejecutoras de las instrucciones del ADN, traducidas
a partir del ARNm. Químicamente, están conformadas por una secuencia de aminoácidos,
unidos por enlaces peptídicos. Existen 20 aminoácidos que conforman todas las proteínas
posibles (Tabla 1.1), los cuales presentan una composición química con un grupo funcional
amino (-NH2) en un extremo (conocido como amino terminal o N-terminal) y un grupo
funcional carboxilo (-COOH) en el otro extremo (carboxi-terminal o C-terminal). El centro
de la molécula lo compone un carbono alfa unido a los dos grupos funcionales mencionados
y a una cadena lateral o grupo R, que difiere químicamente entre los 20 aminoácidos y
confiere las propiedades bioquímicas a cada uno, por ejemplo, hidrofobicidad, polaridad
y aromaticidad.
Segunda letra
U C A G
UUU Phe UCU UAU Tyr UGU Cys U
Primera Letra
Tercera Letra
UUC UCC
Ser
UAC UGC C
U UUA UCA UAA UGA Terminación A
Leu Terminación
UUG UCG UAG UGG Trp G
CUU CCU CAU
His
CGU U
CUC
Leu
CCC
Pro
CAC CGC
Arg C
C CUA CCA CAA CGA A
CUG CCG CAG Gln CGG
G
AUU ACU AAU
Asn
AGU
Ser
U
AUC Ile ACC
Thr
AAC AGC C
A AUA ACA AAA AGA A
AUG Met ACG AAG Lys AGG Arg
G
GUU GCU GAU
Asp
GGU U
GUC
Val
GCC
Ala
GAC GGC
Gly C
G GUA GCA GAA GGA A
GUG GCG GAG Glu GGG
G
17
CÓDIGO GENÉTICO
Los aminoácidos son traducidos en los ribosomas a partir del ARNm, siguiendo el código
genético, el cual establece la combinación de tripletes de nucleótidos o codones, que
traducen para uno de los 20 aminoácidos (Tabla 1.1). Varios codones (2-6) pueden traducir
para un mismo aminoácido, por lo que se dice que el código genético es degenerado;
esto implica que partiendo de un codón se sabe el aminoácido exacto que traduce, pero
a partir de un aminoácido no se conoce la secuencia exacta del codón que lo genera.
Los únicos dos aminoácidos que están traducidos por un solo codón son metionina y
triptófano. No obstante, a pesar de ser degenerado, en algunas especies puede existir un
sesgo hacia la utilización de ciertos codones para traducir determinado aminoácido, por
ejemplo, en el genoma humano es más probable encontrar que la alanina corresponda
al codón GCC, que a GCG, aunque ambos la traducen.Esto puede deberse a una mejor
eficiencia en la traducción de ciertos codones en los ribosomas. Por otra parte, cabe
resaltar dos codones de gran importancia en el código genético: el codón que marca el
inicio de la traducción de una proteína –AUG– , que traduce al aminoácido metionina y
los codones que marcan la terminación de la traducción, UAA, UAG y UGA. De acuerdo
con lo anterior, todas las proteínas deberían comenzar con una metionina, sin embargo,
no es así, debido a procesamientos post-traduccionales, ya que estos pueden eliminar la
metionina de inicio en la proteína madura. Además, existen excepciones al código genético
universal, en las que los codones de terminación mencionados anteriormente codifican
para un aminoácido, como en mitocondrias, levaduras, plantas, Mycoplasma capricolum y
los protozoos Paramecium y Tetrahymena.
18
Conceptos en Ciencias Ómicas
MODIFICACIONES POST-TRADUCCIONALES
Las proteínas pueden estar conformadas sólo por aminoácidos o estar conjugadas
con carbohidratos (glicoproteínas), fosfatos (fosfoproteínas), lípidos (lipoproteínas)
o combinaciones de estos. De igual forma, los residuos de aminoácidos pueden
estar modificados con grupos químicos como glicosil, provenientes de carbohidratos
(glicosilaciones), fosforilo (fosforilaciones), metilo (metilaciones), acilo, acetilo, ubiquitina,
nitroxilo, etc. Estas modificaciones cambian las propiedades de una proteína, aportan a
la diversidad funcional de la misma e influyen en su interacción con otras proteínas y
moléculas. Además, muchos procesos celulares, como la replicación y transcripción del
ADN, cascadas de señalización, transducción de señales, procesos regulatorios y de
transporte, entre otros, requieren la formación de complejos proteicos que actúan de
manera sinérgica para cumplir determinadas funciones.
Replicación
Traducción
Transcripción
Proteína
ADN ARN
19
Figura 1.4. Esquematización de la transferencia de información y procesos de replicación,
transcripción y traducción del Dogma Central de la Biología Molecular.
De igual manera, la función del ARN y las proteínas no solo constituyen el resultado de
las instrucciones genéticas del ADN, debido a que otra parte de su funcionalidad puede
estar determinada por modificaciones post-transcripcionales, post-traduccionales o
epigenéticas. Sin embargo, el planteamiento clásico del dogma central aún se sostiene y
constituye la base del funcionamiento celular, aunque reconociendo la amplia gama de
procesos que ocurren adicionales a ese esqueleto central. Los tres procesos principales del
dogma central de la biología molecular son los siguientes: replicación del ADN, transcripción
del ADN a ARN y traducción del ARNm a proteína. Estos se encuentran detallados en un
amplio repertorio de la literatura, así que no serán tratados en este capítulo.
Aunque los tamaños de genoma entre el nemátodo Caenorhabditis elegans, el pez cebra
Danio rerio, la planta Arabidopsis thaliana, el ratón Mus musculus y el humano Homo
sapiens difieren en varios órdenes de magnitud (desde 100,2 Mb – 3,1 Gb), estas especies
comparten un número similar de genes codificantes entre ~20000 hasta ~ 25000. La
diferencia radica en el contenido de secuencias de ADN no codificantes y repetitivas que
se encuentran en alta abundancia en genomas de gran tamaño, las cuales en un principio
fueron consideradas ADN “basura” por no codificar para proteínas.
20
Conceptos en Ciencias Ómicas
Los genomas procariotas presentan una estructura de genoma compacta, con una alta
proporción de contenido génico en relación con el resto del genoma y poco espacio entre
los genes. El mayor conocimiento del genoma de los procariotas ha provenido del estudio
de la bacteria modelo Escherichia coli.
21
Procariotas
ADN
Región
codificante
ARNm
Policistrónico P PP
5´ 3´
Región no codificante
Policistrónico
Múltiples Proteínas
Eucariotas
ADN
Región codificante
Región
Región no codificante 5’
no codificante 3’
Caperuza
Figura 1.5. Expresión génica y estructura del ARN mensajero en eucariotas vs procariotas.
La organización de los genomas eucariotas ha mostrado ser mucho más compleja que la
de los procariotas. Los eucariotas presentan una variedad de regiones genómicas, que
se han descrito como genes, secuencias codificantes (CDS), secuencias no codificantes,
secuencias regulatorias, elementos repetitivos, elementos transponibles, entre otros.
La proporción de cada una de estas regiones genómicas varía entre especies, aunque
en general la presencia de grandes cantidades de secuencias de ADN no codificantes y
repetitivas es una característica de los genomas eucariotas, alcanzando hasta un 90% del
contenido de algunos genomas (López-Flores & Garrido-Ramos, 2012). En este sentido,
muchas plantas presentan un alto tamaño de genoma, no obstante, en algunos casos su
contenido génico no difiere bastante con respecto a otros grupos taxonómicos, por lo que
su gran tamaño se debe a un alto contenido de ADN repetitivo y no codificante.
22
Conceptos en Ciencias Ómicas
En esta sección vimos que los genomas presentan una gran diversidad en su tamaño,
organización de secuencia y estructura. Lo anterior es producto de la variabilidad que
ha tenido lugar durante la evolución de los genomas de las diferentes especies y que se
evidencia a través de los diferentes tipos de variaciones genéticas que se han identificado
con el estudio de los genomas y secuencias genéticas.
23
línea germinal, heredadas de los padres a la progenie, y que estarán presentes en todas las
células de un organismo.
Por otro lado, las mutaciones pueden ser somáticas (mutaciones de novo), que se adquieren
en algún momento de la vida de un individuo a causa de factores ambientales o de errores
en la replicación del ADN. Estas mutaciones no están presentes en todas las células del
organismo, excepto que ocurran en la línea germinal, y no pueden ser heredadas a la
progenie.
SNVs y SNPs
Indels
Las mutaciones también pueden abarcar varios nucleótidos que pueden estar insertados
(inserciones) o ausentes (deleciones) en la secuencia del material genético de un
organismo con respecto a otro, y que en conjunto son conocidas como indels. Los indels
más frecuentes son aquellos que involucran elementos de secuencias repetitivas como las
repeticiones en tándem de número variable (variable number tandem repeats, o VNTRs) y
las repeticiones en tándem sencillas (simple tandem repeats, o STRs); por eso la presencia
de repeticiones puede predisponer esa región del ADN a la presencia de indels.
24
Conceptos en Ciencias Ómicas
del producto proteico, lo cual podrá tener repercusiones leves a graves sobre el fenotipo
del organismo, dependiendo de la importancia y función de la proteína en la célula.
Recombinación homóloga
Rearreglos cromosómicos
Las deleciones y duplicaciones están relacionadas con otro tipo de rearreglo que son
las translocaciones. Una translocación ocurre entre cromosomas no homólogos y hace
referencia a la unión de una región de un cromosoma con otro (translocación no recíproca)
o al intercambio de segmentos entre dos cromosomas (translocación recíproca). Estos
eventos de translocación se deben a rupturas en la doble cadena del ADN en dos lugares
25
distintos, seguido por la reinserción de los segmentos en otro lugar. Una translocación se
considera balanceada si hay un intercambio equivalente de material genético entre los
cromosomas, o desbalanceada si la translocación produce una deleción o duplicación de
segmentos genéticos.
Otro tipo de rearreglo está representado por las inversiones. En una inversión, un segmento
cromosómico sufre una rotación de 180°, debido a un evento de recombinación en un
mismo cromosoma o a rupturas en la doble cadena del ADN en dos lugares distintos y a
la liberación de la región cromosómica, seguido por la reinserción del segmento en una
orientación diferente a la original. Un cambio en el orden de los genes en un segmento
invertido no necesariamente implica una alteración en el fenotipo, a no ser que el punto
de ruptura en el ADN se haya producido al interior de un gen, que se altere la regulación
y expresión de un gen o grupo de genes en el segmento invertido, o que la inversión se
presente en estado homocigoto.
Teniendo en cuenta que las mutaciones son la base de la evolución de los seres vivos,
es importante el conocimiento de las tasas de mutación en los diferentes linajes de los
seres vivos. La tasa de mutación es una medida de la ocurrencia de cambios en el material
genético a través del tiempo. La acumulación de mutaciones y la tasa de mutación en las
poblaciones son importantes para evaluar el estado y salud genética de las mismas.
26
Conceptos en Ciencias Ómicas
observa que a mayor tamaño de este, mayor número de mutaciones por genoma replicado.
De lo contrario, los virus presentan las mayores tasas de mutación con respecto a los
demás organismos, aunque tienen los genomas más pequeños; en particular los virus de
ARN acumulan un número elevado de mutaciones por genoma replicado con respecto a los
demás, incluso otros virus de ADN.
Como caso especial, los virus con genomas de ARN presentan tasas de mutación en
órdenes de magnitud más altas que las tasas para procariotas, eucariotas e incluso virus
de ADN, con valores entre 10-6 y 10-3 de tasa de mutación por base replicada. Los virus
de ARN presentan altas frecuencias de mutaciones debido a la ausencia de enzimas ARN
exonucleasas que corrigen errores durante la replicación, y esto sumado a eventos de
recombinación y altas tasas de replicación, repercute en que la tasa de evolución de los
virus de ARN sea millones de veces más rápida que la de sus hospederos eucariotas,
permitiendo una mayor diversificación y adaptación a presiones del ambiente. Por ejemplo,
el ADN humano requiere periodos de tiempo a escala geológica para evolucionar al mismo
nivel que los virus de ARN, los cuales evolucionan durante una sola generación humana.
Existe un tipo de variación genética que no radica en cambios en la secuencia del ADN, sino
que tiene otro origen en el genoma. Gemelos monocigotos con la misma secuencia de ADN
pueden exhibir fenotipos diferentes, pero ¿a qué se debe esta variación?, ¿es susceptible
de ser heredada? En parte, la respuesta yace en la epigenética, más precisamente, en los
cambios heredables en la expresión de los genes, más no en la secuencia de los mismos.
Es decir, la epigenética es una fuente de variación que involucra la modificación de las
bases nucleotídicas del ADN, que afecta la forma en que son ‘leídos’ los genes, activando
o desactivando genes (Allis & Jenuwein, 2016; Chadwick, 2015; Cortini et al., 2016). Los
eventos epigenéticos ocurren de manera normal en las células; a este respecto, contribuyen
a que existan diferentes tipos de células en los organismos, que llevan a cabo diferentes
procesos celulares y son fenotípicamente diferentes, aunque todas las células contienen
la misma secuencia de material genético.
Los mecanismos que participan en la epigenética, que dan lugar a la expresión diferencial
de los genes por modificación de la transcripción de los mismos, incluyen metilaciones,
modificaciones de las histonas, ARN de interferencia y elementos transponibles. A
continuación, se describe cada uno:
Consiste en la adición enzimática de un grupo metilo al ADN, por acción de un tipo de ADN
metiltransferasa. Es un proceso con alta especificidad que ocurre en sitios CpG, que hacen
referencia a la ubicación de una citosina adyacente a una guanina unidas por un fosfato.
27
Modificaciones de histonas
Las histonas son proteínas acopladas al ADN en el núcleo, sobre las cuales se enrolla el
ADN para constituir la cromatina. Las modificaciones post-traduccionales de las histonas
repercuten en la organización de la cromatina y, por consiguiente, en las regiones del
ADN que quedarán accesibles para ser transcritas y expresadas. Estas modificaciones
comprenden acetilaciones, metilaciones, fosforilaciones y ubiquitinaciones.
Las metilaciones pueden activar o desactivar una región de la cromatina para la transcripción
dependiendo de la región donde ocurren; mientras que las acetilaciones y ubiquitinaciones
generalmente están asociadas a cromatina activa y las desacetilaciones con cromatina
inactiva. Un ejemplo de la importancia de las modificaciones de histonas como mecanismo
epigenético es la participación en la inactivación de uno de los cromosomas X en las
hembras, con el fin de evitar efectos de dosis génica por la presencia de dos copias de este
cromosoma (Brockdorff, 2011).
Elementos transponibles
Los elementos transponibles son secuencias móviles en el ADN que pueden contener
promotores, aisladores y señales involucradas en la regulación de la expresión génica,
los cuales tienen la capacidad de integrarse en diferentes regiones del genoma. De esta
manera, pueden afectar la expresión génica a nivel epigenético por intervención en los
sitios promotores de iniciación de la transcripción.
28
Conceptos en Ciencias Ómicas
1.5. Referencias
Allis, C. D., & Jenuwein, T. (2016). The molecular hallmarks of epigenetic control.
Nature Reviews Genetics, 17(8), 487–500. https://doi.org/10.1038/nrg.2016.59.
Balin, S. J., & Cascalho, M. (2009). The rate of mutation of a single gene. Nucleic Acids
Research, 38(5), 1575–1582. https://doi.org/10.1093/nar/gkp1119.
Barrick, J. E. (2016). What is the mutation rate during genome replication? Cell Biology
by the Numbers.
Bartel, D. P. (2009). MicroRNAs: Target Recognition and Regulatory Functions. Cell,
136(2), 215–233. https://doi.org/10.1016/j.cell.2009.01.002.
Bentley, S. D., & Parkhill, J. (2004). Comparative genomic structure of prokaryotes.
Annual Review of Genetics, 38(13), 771–792. https://doi.org/10.1146/annurev.
genet.38.072902.094318.
Bermudez-Santana, C., Attolini, C. S.-O., Kirsten, T., Engelhardt, J., Prohaska, S. J.,
Steigele, S., y Stadler, P. F. (2010). Genomic organization of eukaryotic tRNAs. BMC
Genomics, 11, 270. https://doi.org/10.1186/1471-2164-11-270.
Brockdorff, N. (2011). Chromosome silencing mechanisms in X-chromosome
inactivation: unknown unknowns. Development, 138(23), 5057–5065. https://doi.
org/10.1242/dev.065276.
Campbell, C. D., & Eichler, E. E. (2013). Properties and rates of germline mutations
in humans. Trends in Genetics, 29(10), 575–584. https://doi.org/10.1016/j.
tig.2013.04.005.
Cech, T. R., & Steitz, J. A. (2014). The Noncoding RNA Revolution- Trashing Old Rules
to Forge New Ones. Cell, 157(1), 77–94. https://doi.org/10.1016/j.cell.2014.03.008.
Chadwick, B. P. (Ed.). (2015). Epigenetics: Current research and emerging trends.
Poole: Caister Academic Press. https://doi.org/doi.org/10.21775/9781910190074.
Cortini, R., Barbi, M., Car, B. R., Lavelle, C., Lesne, A., Mozziconacci, J., & Victor, J. M.
(2016). The physics of epigenetics. Reviews of Modern Physics, 88(2), 1- 29. https://
doi.org/10.1103/RevModPhys.88.025002.
Daniell, H., Lin, C.-S., Yu, M., & Chang, W.-J. (2016). Chloroplast genomes: diversity,
evolution, and applications in genetic engineering. Genome Biology, 17(1), 134.
https://doi.org/10.1186/s13059-016-1004-2.
De Koning, A. P. J., Gu, W., Castoe, T. A., Batzer, M. A., y Pollock, D. D. (2011). Repetitive
elements may comprise over Two-Thirds of the human genome. PLoS Genetics, 7(12).
https://doi.org/10.1371/journal.pgen.1002384.
Drake, J. W., & Holland, J. J. (1999). Mutation rates among RNA viruses. Proceedings of
the National Academy of Sciences of the United States of America, 96(24), 13910- 3.
https://doi.org/10.1073/pnas.96.24.13910.
Dupont, C., Armant, D. R., & Brenner, C. A. (2009). Epigenetics: Definition, mechanisms
and clinical perspective. Seminars in Reproductive Medicine, 27(5), 351– 357. https://
doi.org/10.1055/s-0029-1237423.
Ekblom, R., & Wolf, J. B. W. (2014). A field guide to whole-genome sequencing,
assembly and annotation. Evolutionary Applications, 7(9), 1026– 1042. https://doi.
org/10.1111/eva.12178.
29
Elena, S. F., & Sanjuán, R. (2005). Adaptive Value of High Mutation Rates of RNA
Viruses : Separating Causes from Consequences. Journal of Virology, 79(18), 11555-
11558. https://doi.org/10.1128/JVI.79.18.11555.
Fischer, S., Bernard, S., Beslon, G., & Knibbe, C. (2014). A model for genome size
evolution. Bulletin of Mathematical Biology, 76(9), 2249–2291. https://doi.
org/10.1007/s11538-014-9997-8
Francioli, L. C., Polak, P. P., Koren, A., Menelaou, A., Chun, S., Renkens, I., … Sunyaev,
S. R. (2015). Genome-wide patterns and properties of de novo mutations in humans.
Nature Genetics, 47(7), 822–826. https://doi.org/10.1038/ng.3292.
Geslain, R., & Pan, T. (2011). tRNA: Vast reservoir of RNA molecules with unexpected
regulatory function. Proceedings of the National Academy of Sciences of the United
States of America, 108(40), 16489 - 16490. https://doi.org/10.1073/pnas.1113715108.
Goodenbour, J. M., & Pan, T. (2006). Diversity of tRNA genes in eukaryotes. Nucleic
Acids Research, 34(21), 6137–6146. https://doi.org/10.1093/nar/gkl725.
Griffiths, A., Gelbart, W., Lewontin, R., & Miller, J. (2002). Modern Genetic Analysis.
New York: W Freeman and Co.
Holland, J., Spindler, K., Horodyski, F., Grabau, E., Nichol, S., & VandePol, S. (1982).
Rapid evolution of RNA genomes. Science (New York, N.Y.), 215(4540), 1577- 85.
https://doi.org/10.1126/science.7041255.
Hori, H., Tomikawa, C., Hirata, A., Toh, Y., Tomita, K., Ueda, T., & Watanabe, K. (2014).
Transfer RNA Synthesis and Regulation. In Encycopledia of Life Sciences eLS (pp.
1–17). Ltd. https://doi.org/10.1002/9780470015902.a0000529.pub2.
Hou, Y., & Lin, S. (2009). Distinct gene number-genome size relationships for eukaryotes
and non-eukaryotes: Gene content estimation for dinoflagellate genomes. PLoS
ONE, 4(9). https://doi.org/10.1371/journal.pone.0006978.
Kirchner, S., & Ignatova, Z. (2015). Emerging roles of tRNA in adaptive translation,
signalling dynamics and disease. Nature Reviews Genetics, 16, 98 - 112. https://doi.
org/10.1038/nrg3861.
Krebs, J. E., Goldstein, E. S., & Kilpatrick, S. T. (2013). Lewin’s Genes. United States:
Jones & Bartlett Learning.
Ku, C.-S., Vasiliou, V., & Cooper, D. N. (2012). A new era in the discovery of de novo
mutations underlying human genetic disease. Human Genomics, 6(1), 27. https://
doi.org/10.1186/1479-7364-6-27.
Li, Y., & Zhou, H. (2009). tRNAs as regulators in gene expression. Science in China
Series C: Life Sciences, 52(3), 245–252. https://doi.org/10.1007/s11427-009-0039-y.
Lodish, H., Berk, A., Kaiser, C. A., Krieger, M., Bretscher, A., Ploegh, H., … Scott, M. P.
(2012). Molecular Cell Biology. New York: W Freeman and Co.
López-Flores, I., & Garrido-Ramos, M. A. (2012). The repetitive DNA content of eukaryotic
genomes. Genome Dynamics, 7, 1–28. https://doi.org/10.1159/000337118.
Lynch, M. (2010a). Evolution of the mutation rate. Trends in Genetics, 26(8), 345–352.
https://doi.org/10.1016/j.tig.2010.05.003.
Lynch, M. (2010b). Rate, molecular spectrum, and consequences of human mutation.
Proceedings of the National Academy of Sciences of the United States of America,
107(3), 961–8. https://doi.org/10.1073/pnas.0912629107.
30
Conceptos en Ciencias Ómicas
Malone, C. D., & Hannon, G. J. (2009). Small RNAs as Guardians of the Genome. Cell,
136(4), 656- 668. https://doi.org/10.1016/j.cell.2009.01.045.
Mehrotra, S., & Goyal, V. (2014). Repetitive Sequences in Plant Nuclear DNA: Types,
Distribution, Evolution and Function. Genomics, Proteomics and Bioinformatics,
12(4), 164–171. https://doi.org/10.1016/j.gpb.2014.07.003.
Miller, G. (2010). The Seductive Allure of Behavioral Epigenetics. Science, 329, 24 - 27.
https://doi.org/10.1126/science.329.5987.24.
Milo, R., Jorgensen, P., Moran, U., Weber, G., & Springer, M. (2009). BioNumbers The
database of key numbers in molecular and cell biology. Nucleic Acids Research,
38(SUPPL.1), 750–753. https://doi.org/10.1093/nar/gkp889.
Ørom, U. A., & Shiekhattar, R. (2013). Long Noncoding RNAs Usher In a New Era
in the Biology of Enhancers. Cell, 154(6), 1190–1193. https://doi.org/10.1016/j.
cell.2013.08.028.
Palazzo, A. F., & Lee, E. S. (2015). Non-coding RNA: what is functional and what is
junk? Frontiers in Genetics, 6, 2. https://doi.org/10.3389/fgene.2015.00002.
Parisien, M., Wang, X., & Pan, T. (2013). Diversity of human tRNA genes from the
1000-genomes project. RNA Biology, 10(12), 1853–1867. https://doi.org/10.4161/
rna.27361.
Parra, G., Bradnam, K., Ning, Z., Keane, T., & Korf, I. (2009). Assessing the gene space
in draft genomes. Nucleic Acids Research, 37(1), 289–297. https://doi.org/10.1093/
nar/gkn916.
Ponting, C. P., Oliver, P. L., & Reik, W. (2009). Evolution and Functions of Long
Noncoding RNAs. Cell, 136(4), 629–641. https://doi.org/10.1016/j.cell.2009.02.006.
Raina, M., & Ibba, M. (2014). TRNAs as regulators of biological processes. Frontiers in
Genetics, 5(JUN), 1 - 14. https://doi.org/10.3389/fgene.2014.00171.
Sander, J. D., & Joung, J. K. (2014). CRISPR-Cas systems for editing, regulating and
targeting genomes. Nat Biotech, 32(4), 347–355. Recuperado de http://dx.doi.
org/10.1038/nbt.2842.
Tchurikov, N. A. (2005). Molecular mechanisms of epigenetics. Biochemistry (Moscow),
70(4), 406 - 423. https://doi.org/10.1007/s10541-005-0131-2.
Treangen, T. J., & Salzberg, S. L. (2012). Repetitive DNA and next-generation sequencing:
computational challenges and solutions. Nature Reviews. Genetics, 13(1), 36 - 46.
https://doi.org/10.1038/nrg3117.
Veltman, J. a, & Brunner, H. G. (2012). De novo mutations in human genetic disease.
Nature Reviews. Genetics, 13(8), 565–75. https://doi.org/10.1038/nrg3241.
Weinhold, B. (2006). Epigenetics: the science of change. Environmental Health
Perspectives., 114(3), A160–A167. https://doi.org/10.1289/ehp.114-a160.
Wilson, D. N., & Cate, J. H. D. (2012). The Structure and Function of the Eukaryotic
Ribosome. Cold Spring Harbor Perspect Biol, 4, a011536. https://doi.org/10.1101/
cshperspect.a011536.
Woodhams, M. D., Stadler, P. F., Penny, D., & Collins, L. J. (2007). RNase MRP and
the RNA processing cascade in the eukaryotic ancestor. BMC Evolutionary Biology,
7(Suppl 1), S13–S13. https://doi.org/10.1186/1471-2148-7-S1-S13.
Yandell, M., & Ence, D. (2012). A beginner’s guide to eukaryotic genome annotation.
Nature Rev Genet, 13(5), 329–342. https://doi.org/10.1038/nrg3174.
31
2. BIOINFORMÁTICA Y BIOLOGÍA COMPUTACIONAL
ROMAIN GUYOT
SIMÓN OROZCO-ARIAS
ANDREA GONZÁLEZ MUÑOZ
MARCO AURELIO CRISTANCHO ARDILA
La bioinformática es un campo científico muy nuevo (de unas pocas décadas) y sus
orígenes aún no están claros. Además, la verdadera definición y áreas de aplicación de
la bioinformática no están bien definidas ni comprendidas por numerosos científicos. La
principal explicación para esta confusión en sus orígenes y definiciones radica en que
la bioinformática es un campo híbrido derivado de diversas disciplinas, tales como la
genética, biología, genómica, bioquímica, informática, matemática, entre otras.
La definición corta para la bioinformática puede ser el uso de la informática para manejar
y analizar la información biológica. En el 2001, el Centro Nacional de Información en
Biotecnología (NCBI, por sus siglas en inglés) definió claramente bioinformática como:
32
Conceptos en Ciencias Ómicas
Además del mejoramiento técnico de la secuenciación, la teoría general que sugería que
las moléculas (proteínas y nucleótidos) podrían ser portadoras de información biológica y
evolutiva se expandió por la comunidad científica (Hagen, 2000). En 1954, surgió uno de los
lenguajes de programación de alto nivel de más amplia aceptación científica, denominado
Fortran, que fue desarrollado por Backus e IBM, y liberado por IBM en 1957. Fortran fue
considerado de fácil aprendizaje por científicos, incluso es usado hoy en día.
Por todos estos logros pioneros, Margaret Dayhoff es considerada la fundadora del campo
de la bioinformática en sus definiciones modernas (en 1980 desarrolló incluso un sistema
de bases de datos en línea al que se podía acceder vía línea telefónica, la primera base de
datos de secuencias disponible para la búsqueda desde computadores remotos). Aunado
a lo anterior, la base de datos pionera de Margaret Dayhoff –llamada el “Atlas de Secuencia
y Estructura Proteica” – fue usada para establecer en 1984 la base de datos PIR (Recurso
de Información de Proteína), que aún es usada 33 años después por numerosos científicos
en todo el mundo.
33
Por lo tanto, con la primera base de datos de secuencias proteicas y los trabajos
pioneros de homología de proteínas surgió un gran interés en detectar homología y
similitud estadísticamente significativa entre proteínas lejanamente relacionadas,
creando herramientas y algoritmos para los alineamientos de secuencias (desarrollados
inicialmente en los años 70). El algoritmo Needleman y Wunsch, que continúa siendo un
método estándar y preciso para alinear dos secuencias, fue desarrollado para encontrar un
alineamiento óptimo mediante un enfoque de ventana corrediza o sliding window (usando
programación dinámica) (Needleman & Wunsch, 1970). Dicho alineamiento se conoce
ahora como “alineamiento global” entre dos secuencias, puesto que el algoritmo pretende
encontrar un alineamiento óptimo entre todos los residuos de las dos secuencias.
Desde los años 80, la secuenciación de ADN, que se hizo popular en los laboratorios de
biología molecular de todo el mundo, junto con el desarrollo de algoritmos y bases de
datos, llevaron a la determinación de los científicos de disponer de programas capaces
de manipular y analizar secuencias individuales o en conjunto. En los inicios, el Grupo
de Computación Genética de la Universidad de Wisconsin (UWGCG) desarrolló un primer
conjunto de programas sobre computadores VAX (Devereux, Haeberli & Smithies, 1984)
para analizar y manipular secuencias. Más tarde, se hizo disponible una suite comercial
de 130 programas para el análisis de secuencias (también llamado el Paquete Wisconsin
(Wisconsin PackageTM) (Womble, 1999)).
Con su instalación en un servidor Unix y disponibilidad vía remota por terminal de línea
de comandos, GCG fue muy popular para proyectos que abarcaban un gran número de
34
Conceptos en Ciencias Ómicas
En este capítulo hemos visto que numerosos conceptos y herramientas que estaban
disponibles desde inicios de los años 70 y 80 permitieron el desarrollo de la bioinformática
en el contexto del análisis de cientos a miles de secuencias (Figura 2.1). Actualmente
existen más de 201 millones de entradas en GenBank (que representan más de 234 Giga
pares de bases (Gpb)), 487 millones de secuencias en la división de proyectos de Whole
genome shotgun (WGS) (que representan 2164 Gpb), junto con mucha más información
almacenada en el sistema repositorio de lecturas de secuencia Sequence Read Archive
(SRA) del NCBI (más de 100 Tera pb (Tpb) para el 2011).
Estos valores se duplican cada 18 meses. Esta cantidad de información, más lo que se
producirá con las nuevas tecnologías de secuencias, constituye uno de los retos de la
bioinformática, en términos del desarrollo de bases de datos y herramientas de análisis. Se
estima que para el año 2025 se tendrán datos de secuencia de al menos 1 billón de seres
humanos, sin contar los datos que se obtendrán a partir de otros grupos de organismos
(Stephens et al., 2015). Los retos que se presentan para una ciencia como la bioinformática
ante esta avalancha de datos son enormes en el desarrollo de sistemas eficientes de
transferencia, análisis, visualización y almacenamiento de datos.
35
Alineamiento global Alineamientos Genoma
Primera secuencia Un sistema de base
Needlman & Wunsch múltiples humano
proteica (insulina de datos de
bovina) por F. Sanger proteínas "en línea" Genoma de
Arabidopsis
Primera colección de Técnicas de Alineamiento local ~20000
secuencias proteicas secuenciación de Smith & Waterman Genoma de genomas
(M. Dayhoff) ADN Sanger la levadura secuenciados
1955 1960 1965 1970 1975 1980 1985 1990 1995 2000 2005 2010 2015
Primer modelo
probabilístico de
evolución proteica Base de
PAM (M. Dayhoff) datos PIR
DDBJ
Primeros
programas
Construcción de CGC
árboles filogenéticos
(Fitch & Margoliash)
GenBank
Primer
microprocesador EMBL FASTA
Liberación del Intel 4004
lenguaje de Fundación de BLAST EMBOSS
programación Microso
Fortran Protocolo
TCP
Creación de la WWW
36
Conceptos en Ciencias Ómicas
Una arquitectura de clúster HPC está compuesta generalmente por uno o varios nodos
maestros, los cuales se encargan de la administración de toda la arquitectura, la interacción
directa con el usuario y el monitoreo de servicios; varios nodos de procesamiento, que
se encargan de ejecutar los procesos solicitados por el usuario; un sistema de archivos
distribuido; y un esquema de interconexión de alto rendimiento, como Ethernet, Myrinet
o Infiniband, que permiten una conexión en red veloz, con baja latencia, para transferir
datos entre nodos del clúster. Además, cada nodo está compuesto por unidades de
procesamiento, bien sea solo CPUs o en combinación con GPUs y MICs, con memoria
compartida y/o distribuida (Barrios, Ceballos & Bedoya, 2014).
37
están prestando especial atención a crear interfaces gráficas amigables y que no suponen
un cambio drástico para usuarios tradicionales.
En este sentido, Perl es un lenguaje potente para escribir scripts; Python es un lenguaje
de fácil codificación; Java es un lenguaje portable orientado a objetos; R es un lenguaje y
ambiente para computación estadística; finalmente, C y C++ son muy eficientes en sistemas
operativos y controladores. De esta manera, la programación en bioinformática determina
varios aspectos computacionales en un análisis de datos, como espacio de memoria y
almacenamiento requerido, velocidad de computación y vinculación entre diferentes
programas involucrados en un mismo análisis global (implementado en los llamados
pipelines o flujos), entre otros (Fourment & Gillings, 2008).
38
Conceptos en Ciencias Ómicas
Hemos visto que la bioinformática está orientada al análisis de los datos que se producen
en las ciencias ómicas, las cuales incluyen la genómica, transcriptómica, metagenómica,
proteómica, metabolómica, entre otras. En conjunto, estas ómicas componen un
conocimiento extensivo e integral de los sistemas biológicos a diferentes niveles y
representan cantidades masivas de información, hasta tal punto que la cantidad de datos
biológicos existente actualmente alcanza los exabytes (EB), equivalente a 106 Terabytes
(TB) (Li & Chen, 2014). Por esta razón, se habla actualmente de ‘Big Data’ en bioinformática,
por lo cual esta disciplina se está enfrentando a los desafíos tecnológicos que surgen a la
hora de adquirir, almacenar, distribuir, analizar e integrar Big Data para la extracción de
nuevo conocimiento.
Big Data se ha definido como todo el conjunto de datos que no se pueden procesar o
analizar utilizando procesos o herramientas tradicionales como bases de datos relacionales
o tablas de Excel. Así, la bioinformática se ha enfrentado al reto de optimizar procesos
en relación con el manejo del volumen de datos, la velocidad de procesamiento de los
datos y la variabilidad inherente a los datos biológicos. Tratar con Big Data en biología es
esencial, puesto que la naturaleza compleja y heterogénea de un sistema biológico amerita
39
investigaciones que abarquen grandes tamaños de muestra e integren datos de diferentes
niveles biológicos, con el fin de obtener una visión global y dinámica de los procesos y
fenómenos biológicos.
40
Conceptos en Ciencias Ómicas
41
2.4. Referencias
42
Conceptos en Ciencias Ómicas
43
3. SECUENCIACIÓN
ASTRID CATALINA ALVAREZ-YELA
En este capítulo haremos un recorrido a través del tiempo para conocer los métodos
y técnicas bioquímicas que han sido desarrolladas para determinar la secuencia de
nucleótidos del ADN. Describiremos las principales características de las tecnologías
desarrolladas comercialmente, teniendo en cuenta los métodos bioquímicos que emplean,
sus rendimientos, tasas de error y las ventajas que ofrecen.
En este método el ADN que se analiza es clonado in vivo usando vectores bacterianos, para
obtener una cantidad suficiente de la muestra. Posteriormente, el ADN se extrae de los
vectores y se usa para el proceso de secuenciación en cuatro reacciones independientes.
Las reacciones se llevan a cabo en cuatro tubos diferentes que contienen los reactivos de
polimerización de ADN (cebadores, polimerasa, 2’-deoxinucleótidos (dNTPs), etc.) y sólo
uno de los cuatro diferentes ddNTPs. Cuando un ddNTP es introducido en la cadena, el
proceso de extensión termina y, como se desarrolla simultáneamente en las diferentes
copias del genoma, se obtienen fragmentos de diferentes longitudes con un último
nucleótido en común.
44
Conceptos en Ciencias Ómicas
• ABI Prism 310: fue lanzada en 1996 como el primer secuenciador capilar.
• GE Healtcare MegaBACE - ABI Prism 3700 DNA Analyzer: lanzadas en
1998 y 1999 como los primeros secuenciadores capilares paralelizados con
96 capilares en un solo sistema.
• ABI 3710xl: equipo lanzado en el 2000 con un arreglo de 96 capilares y
capaz de producir 900 lecturas con un Phred de 20, para un rendimiento
total de 96 kb/3 horas.
La tecnología Sanger dominó el mercado durante 30 años en los que permitió la obtención
del primer genoma secuenciado, correspondiente al bacteriófago φX174 (5.386 pb),
facilitó el estudio de genomas pequeños de diferentes microorganismos y contribuyó
significativamente a la secuenciación del genoma humano. Estos resultados impulsaron
iniciativas para el desarrollo de nuevas tecnologías, como por ejemplo, el programa de los
1000 genomas del Instituto Nacional de Salud (NIH) y el Instituto Nacional de Investigación
del Genoma Humano (NHGRI) de los Estados Unidos, financiado con más de 70 millones
de dólares (Mardis, 2011). Dicho desarrollo se hizo tangible en el 2005, con un cambio
total en la concepción de los equipos de secuenciación y el surgimiento de las plataformas
de nueva generación (del inglés: Next Generation Sequencing).
45
3.2. Secuenciación de segunda generación
Las nuevas plataformas centran sus esfuerzos en la creación de librerías genómicas para
secuenciación, en la paralelización del proceso y en el análisis de grandes cantidades de
datos; estas son las tres principales características que compararemos en este capítulo
porque representan a los equipos lanzados al mercado como equipos de segunda
generación, y las que han determinado el éxito y la permanencia de las grandes compañías
a través del tiempo.
La primera tecnología de NGS lanzada al mercado se denominó 454, fue producida por
Roche Life Science en 2005 e inauguró el uso de PCR en emulsión para procesos de
secuenciación. Para iniciar el análisis, el ADN es particionado en diferentes fragmentos
a los que se les agregan adaptadores en los extremos, dichos adaptadores permiten su
captura dentro de perlas de estreptavidina que son incorporadas en gotas de emulsión.
Estas gotas tienen todos los reactivos de una reacción de PCR y actúan como pequeños
reactores en los que se producen alrededor de 107 copias de un molde de ADN (Margulies
et al., 2005). Idealmente, en cada gota de emulsión se ha cargado un único fragmento de
ADN y, por tanto, las copias son idénticas y altamente fieles al molde.
Cuando las copias están listas se procede a su secuenciación sobre una placa picotituladora,
la cual permite el análisis de los millones de fragmentos generados de manera simultánea
a través de un proceso denominado pirosecuenciación. Esta tecnología identifica
incorporaciones individuales de nucleótidos por medio de una cascada de reacción que
46
Conceptos en Ciencias Ómicas
Este pirofosfato es transformado a ATP por una ATP sulfurilasa y el ATP es captado
por una luciferasa que lo usa para emitir luz (Kircher & Kelso, 2010). La producción de
quimioluminiscencia es detectada por una cámara con dispositivo de carga acoplada. Los
resultados son analizados y la presencia de los picos de luz permite establecer el orden de
los nucleótidos en la secuencia analizada. El método fue paralelizado posteriormente para
poder incorporar cerca de 2 millones de pozos en una única placa, donde se alojan perlas
de 28 µm de diámetro cubiertas con las cadenas sencillas a ser analizadas. Esta tecnología
fue adquirida por Roche en 2007.
Con 454 pueden generarse lecturas de 100 a 500 pb con un rendimiento aproximado de 80
a 120 Mb en 4 horas (750 Mb en un día), con un costo estimado de USD $20 por Mb (Kircher
& Kelso, 2010; Morozova & Marra, 2008). Sin embargo, algunas de las limitaciones de la
tecnología residen en la incorrecta estimación de regiones homopoliméricas, pequeñas
inserciones/deleciones, errores asociados a la incorporación de más de un fragmento
en una perla de amplificación o la reducción de la eficiencia de las enzimas, con una
consecuente disminución en la intensidad de la señal emitida.
Lo anterior conlleva tasas de error más altas que las de Sanger, alrededor de ≈ 10-3 ó
10-4, pero menores a las de otras tecnologías. Debido a sus características, 454 ha sido
la tecnología más utilizada en investigaciones científicas con más de 100 publicaciones
y ha sido altamente recomendada para la identificación de polimorfismos de nucleótido
simple (SNPs). Roche descontinuó su producción en 2016 por los bajos rendimientos y
altos costos frente a sus competidores.
47
3.2.2. Secuenciación SOLiD
La cadena generada se desnaturaliza y se remueve del molde para iniciar otro ciclo de
hibridación. En los siguientes cinco ciclos de hibridación se utilizan cebadores más cortos
que los utilizados previamente, con la diferencia en una base (n-1), de modo que al completar
el proceso cada nucleótido es analizado por duplicado permitiendo la discriminación
entre un error de secuenciación y un polimorfismo en la secuencia (Moorthie, Mattocks &
Wright, 2011). Existen 16 sondas de acuerdo a las combinaciones de dinucleótidos que se
pueden rastrear y que están marcadas fluorescentemente por cuatro colorantes, dando
como resultado un campo de color que debe ser registrado y analizado por el dispositivo
para generar la secuencia completa (Goodwin et al., 2016).
48
Conceptos en Ciencias Ómicas
• Ion Proton: equipo comercializado desde el 2012, produce lecturas de 200 pb con
una capacidad hasta de 10 Gb (Reuter, Spacek & Snyder, 2015). Recomendado
para secuenciación de exomas y análisis de transcriptoma completo.
• IonPersonal Genome Machine (PGM) Dx: equipo lanzado en el 2016, produce
lecturas de 400 pb con una capacidad de 1 Gb por corrida (Reuter et al., 2015). Útil
para resecuenciación de genomas y análisis de genomas pequeños.
• Ion S5 XL: equipo lanzado en 2016 con un sistema de preparación de librerías (Ion
Chef) y de cargado del sistema para automatizar todo el proceso. Sin embargo,
no genera librerías pareadas (Goodwin, McPherson & McCombie, 2016). Produce
lecturas de 200 a 600 pb, con una capacidad máxima de 16 Gb por corrida.
49
3.2.4. Secuenciación Illumina®
La secuenciación se da en ciclos consecutivos en los que se dispone una mezcla con los
reactivos necesarios y un solo dNTP marcado y bloqueado para que se dé la síntesis de la
cadena complementaria a los amplicones iniciales. Los nucleótidos no ligados son lavados
junto con los residuos de reacción, se revela la identidad del que fue incorporado por la
fluorescencia emitida, se remueve el fluoróforo y el grupo bloqueado para que comience
el nuevo ciclo (Goodwin, McPherson & McCombie, 2016). Algunos de los nuevos equipos
producidos por Illumina® funcionan con un sistema de dos fluoróforos en lugar de cuatro,
requiriendo menos reactivos, mejorando el rendimiento y acelerando los procesos de
secuenciación (Reuter, Spacek & Snyder, 2015).
Con Illumina® pueden generarse lecturas desde 25 hasta 300 pb, con rendimientos
aproximados desde 36 Gb a 1,8 Tb en tiempos de 24 horas a tres días (Buermans & Den
Dunnen, 2014). A pesar de que la tecnología es más efectiva determinando regiones
homopoliméricas (99,5% de precisión), no es viable para resolver regiones repetitivas
cortas, por el tamaño pequeño de las lecturas producidas. Se han reportado tasas de
error alrededor de ≈ 10-2 - 10-3 asociadas a problemas de sustitución de nucleótidos, baja
representación de regiones ricas en AT y GC, ruido introducido durante la creación de las
librerías o desfases en la lectura de los racimos durante la secuenciación (Morozova &
Marra, 2008; Kircher & Kelso, 2010). A pesar de estas limitaciones, la secuenciación con
Illumina® es una de las más utilizadas actualmente para todo tipo de análisis genéticos e
investigaciones científicas.
50
Conceptos en Ciencias Ómicas
Una de las limitaciones más grandes de las lecturas cortas obtenidas a partir de los
equipos de segunda generación es que no son apropiadas para realizar ensamblaje de
novo de genomas porque éstos presentan regiones altamente repetitivas, con alteraciones
en el número de copias o variaciones estructurales, que son relevantes en los procesos de
evolución y adaptación de las especies (Morozova & Marra, 2008). Como se ha mencionado
previamente, el uso de lecturas pareadas facilita un poco la localización de estas regiones
51
y, por tanto, mejora en cierta medida el uso de estas tecnologías para estas aplicaciones,
sin ser suficiente.
Es por ello que las tecnologías más recientes, denominadas de tercera generación, buscan
generar una mayor resolución de estas regiones mediante la generación de lecturas más
largas (Kbs), lo cual eliminaría las ambigüedades de elementos problemáticos para la
secuenciación previa. Adicionalmente, las plataformas eliminan los errores asociados a la
amplificación inicial de los fragmentos de ADN por PCR, basándose en la secuenciación de
molécula única.
52
Conceptos en Ciencias Ómicas
La plataforma más usada hasta el momento para la generación de lecturas largas fue
lanzada por Pacific Bioscience® en 2010 y se basa en la secuenciación de moléculas
únicas en tiempo real (SMRT). La preparación de los fragmentos a secuenciar inicia ligando
adaptadores en forma de horquilla sobre los extremos de moléculas de ADN o ADNc
digeridas, generando un molde con tapa (campana SMRT). Este molde es leído varias veces
por una polimerasa, aumentando así la precisión y generando cadenas complementarias
con una secuencia consenso circular para cada molde (Goodwin et al., 2016; Reuter et al.,
2015).
Este proceso ocurre en celdas de flujo especializadas para detección de señales, con miles
de pozos de fondo transparente (ZMW), en los que se fija la polimerasa para permitir que
la cadena de ADN a analizar sea procesada. La síntesis de las cadenas complementarias
de ADN es visualizada en tiempo real en cada pozo por medio de una cámara que registra
el color y la duración de la luz emitida por los nucleótidos marcados, que se incorporan en
el fondo de la celda. Las señales emitidas se van registrando de forma secuencial porque la
polimerasa rompe el enlace del fluoróforo durante la incorporación y éste se difunde fuera
del pozo y lejos del sensor.
• PacBio® RS II: después del PacBio® RS, que fue vendido a un grupo limitado de
clientes, el PacBio® RS II llegó al mercado en 2013. Es capaz de producir lecturas
promedio 15 Kb con algunos fragmentos individuales que pueden alcanzar hasta
los 60 Kb y tiene un rendimiento máximo de 1 Gb por corrida.
• PacBio® Sequel System: equipo lanzado en 2015 con una capacidad de
secuenciación diez veces mayor a la del RS II.
53
Tras la eliminación de la amplificación del ADN por PCR, con la tecnología de secuenciación
de molécula única, y de los ciclos iterativos de procesamiento, con la secuenciación en
tiempo real, una nueva generación de tecnologías llegaría al mercado con la eliminación
final de la necesidad de usar la polimerasa para mediar la lectura de los nucleótidos en una
secuencia de interés. La única tecnología de cuarta generación que ha llegado al mercado
elimina esta dependencia y ofrece una concepción diferente de la secuenciación.
Con esta plataforma las tasas de error por inserción/deleción y sustitución son alrededor
del 30%, convirtiénlas en una limitante para su uso. Adicionalmente, se han reportado fallas
en el sistema a la hora de identificar bases modificadas, ya que estas alteran los cambios
reportados en el voltaje. Se espera que mejoras en la parte química y los algoritmos del
sistema permitan superar estas dificultades.
54
Conceptos en Ciencias Ómicas
• MK1 MinION: este equipo fue lanzado en el 2014 como el secuenciador más
pequeño del mercado con 3x10 cm, solo requiere un computador personal y es
una gran opción para trabajos de campo por su alta portabilidad. Genera lecturas
de 5 a 60 Kb de longitud y tienen una capacidad máxima de 10 Gb por corrida.
• GridIONx5: este equipo es un sistema de mesa compacto diseñado para ejecutar
y analizar hasta cinco celdas de Flujo MinION. Es ideal para laboratorios con
múltiples proyectos que necesitan las ventajas de la secuenciación nanopore:
preparación simple de las librerías genómicas, análisis en tiempo real y lecturas
largas. La versión actual de la química y el programa permiten la generación de
hasta 100 Gb de datos durante una ejecución y el módulo de cálculo es capaz de
analizar esos datos en tiempo real.
• PromethION: es un instrumento de mesa diseñado para análisis de alto
rendimiento y alto número de muestras. Su diseño modular permite un nuevo
paradigma de flujo de trabajo versátil en el que muchos experimentos diferentes
se pueden ejecutar en tiempo real, sin restricciones de tiempos de ejecución fijos.
Usa la misma tecnología que el secuenciador MinION. Planea ser la plataforma
más grande de generación de datos con 48 celdas de flujo, cada una con 3000
poros que detectan 500 pb por segundo. Su rendimiento total puede ser de 2 a 4
Tb por corrida a toda capacidad.
55
A continuación, se resumen las principales características de las plataformas de
secuenciación a través del tiempo (Tabla 2.1).
Longitud
Costo
Método de de Tasa de
Plataforma Fabricante Rendimiento estimado Link
secuenciación lecturas error
($USD)
(pb)
Sanger Applied Terminación de la 600 - 6 Mb/día ≈10-3 500/Mb https://www.
Biosystems cadena 1000 thermofisher.
- Life com/co/
Technologies en/home/
- Thermo life-science/
Fisher sequencing/
Scientific sanger-
sequencing.html
454 Life Science - Pirosecuenciación 700 - 35 - 700 Mb/ 10-3 ó 10-4 20/Mb http://allseq.
Roche >1000 día com/knowledge-
bank/
sequencing-
platforms/454-
roche/
SOLiD Applied Secuenciación por 25 - 75 125 - 400 10-3 ó 10-4 5,81/Mb https://www.
Biosystems ligación Mb/día thermofisher.
- Life com/co/
Technologies en/home/
- Thermo life-science/
Fisher sequencing/
Scientific next-generation-
sequencing/
solid-next-
generation-
sequencing.html
Ion Torrent Life Detección óptica 35 - 400 25 Mb - 2 ≈ 10-2 25 - https://www.
Technologies de iones H+ pb Gb/h 3500/Gb thermofisher.
- Thermo com/co/en/
Fisher home/brands/
Scientific ion-torrent.html
Illumina® Solexa - Secuenciación 25 - 500 1,5 - 25 Gb/h ≈ 10-2 - 10-3 20 - https://www.
Illumina® por síntesis con pb 1000/Gb Illumina.com/
terminadores
reversibles
Heliscope Helicos Secuenciación por 24 - 70 pb 4150 Mb/día ≈ 10-2 0,33/Mb http://seqll.
Bioscience síntesis com/
PacBio® Pacific Secuenciación de 10 - 15 Kb 1 Gb/4 horas 15% 1000/Gb http://www.
Bioscience moléculas únicas pacb.com/
en tiempo real
(SMRT)
Oxford Oxford Traslocación en 5 - 60 Kb 1,5 Gb/48 h 30% 750/Gb https://
Nanopore Nanopore nanoporos nanoporetech.
Technologies com/
56
Conceptos en Ciencias Ómicas
3.4. Referencias
Buermans, H. P. J., & Den Dunnen, J. T. (2014). Next generation sequencing technology:
Advances and applications. Biochimica et Biophysica Acta, 1842(10), 1932 - 1941.
http://doi.org/10.1016/j.bbadis.2014.06.015.
Cohen, A. S., Najarian, D. R., Paulus, A., Guttman, A., Smith, J. A., & Karger, B. L. (1988).
Rapid separation and purification of oligonucleotides by high-performance capillary
gel electrophoresis. Proceedings of the National Academy of Sciences, 85, 9660–
9663.
Deamer, D., Akeson, M., & Branton, D. (2016). Three decades of nanopore sequencing.
Nature Biotechnology, 34(5), 518–524. http://doi.org/10.1038/nbt.3423.
Feng, Y., Zhang, Y., Ying, C., Wang, D., & Du, C. (2015). Nanopore-based fourth-
generation DNA sequencing technology. Genomics, Proteomics and Bioinformatics,
13(1), 4–16. http://doi.org/10.1016/j.gpb.2015.01.009.
Goodwin, S., McPherson, J. D., & McCombie, W. R. (2016). Coming of age: ten years of
next-generation sequencing technologies. Nature Reviews Genetics, 17(6), 333 - 351.
http://doi.org/10.1038/nrg.2016.49.
Illumina. (2009). Go where the biology takes you. Recuperado de https://www.
Illumina.com/documents/products/brochures/brochure_genome_analyzer.pdf.
Kircher, M., & Kelso, J. (2010). High-throughput DNA sequencing - Concepts and
limitations. BioEssays, 32(6), 524–536. http://doi.org/10.1002/bies.200900181.
Life technologies. (Sin fecha). discover what comes from accuracy. Retrieved from
https://www3.appliedbiosystems.com/cms/groups/global_marketing_group/
documents/generaldocuments/cms_088661.pdf.
Mardis, E. R. (2011). A decade’s perspective on DNA sequencing technology. Nature,
470(7333), 198 - 203. http://doi.org/10.1038/nature09796.
Mardis, E. R. (2013). Next-Generation Sequencing Platforms. Annu. Rev. Anal. Chem,
6, 287–303. http://doi.org/10.1146/annurev-anchem-062012-092628.
Margulies, M., Egholm, M., Altman, W. E., Attiya, S., Bader, J. S., & Bemben, L. A. (2005).
Genome sequencing in microfabricated high-density picolitre reactors. Nature, 437,
376–380.
Metzker, M. L. (2010). Sequencing technologies - the next generation. Nature Reviews.
Genetics, 11(1), 31– 46. http://doi.org/10.1038/nrg2626.
Moorthie, S., Mattocks, C. J., & Wright, C. F. (2011). Review of massively parallel DNA
sequencing technologies. The HUGO Journal, 5(1– 4), 1 - 12. http://doi.org/10.1007/
s11568 011 9156-3.
Morozova, O., & Marra, M. A. (2008). Applications of next-generation sequencing
technologies in functional genomics. Genomics, 92(5), 255–264. http://doi.
org/10.1016/j.ygeno.2008.07.001.
Pacific bioscience. (2016). The Sequencing Marketplace. Recuperado de http://allseq.
com/knowledge bank/sequencing platforms/pacific-biosciences/.
Prober, J. M., Trainor, G. L., Dam, R. J., Hobbs, F. W., Robertson, C. W., Zagursky, R. J.,
… Baumeister, K. (1987). A system for rapid DNA sequencing with fluorescent chain-
terminating dideoxynucleotides. Science, 238, 336–341.
57
Reuter, J. A., Spacek, D. V., & Snyder, M. P. (2015). High-Throughput Sequencing
Technologies. Molecular Cell, 58(4), 586–597. http://doi.org/10.1016/j.
molcel.2015.05.004.
Watson, J. D., & Crick, F. H. C. (1953). Molecular structure of nucleic acids. Nature.
Recuperado de http://doi.org/10.1097/BLO.0b013e3181468780.
58
Conceptos en Ciencias Ómicas
De igual forma, estas ciencias están asociadas con el desarrollo de algoritmos basados
en modelos matemáticos y estadísticos, con el fin de almacenar, recuperar y compartir
datos de alto rendimiento, para la comparación de secuencias, la construcción del
árboles filogenéticos/evolutivos, el reconocimiento de patrones específicos en el genoma,
la anotación de secuencias, el desciframiento de rutas metabólicas o el diseño de
medicamentos (modelado molecular) (Yadav, 2015).
Otros casos son, el EBI, que tiene un portal de servicios de bioinformática que enumera
una variedad de bases de datos y herramientas adaptadas para temas específicos;
Bioconductor que proporciona herramientas de análisis y scripts desarrollados por los
59
estadísticos para una variedad de análisis y soluciones bioinformáticas; GitHUB el cual
es un repositorio gratuito que facilita la colaboración y el intercambio de herramientas y
funciones informáticas, y finalmente, Expert Protein Analysis System que es una biblioteca
particularmente reconocida por las herramientas de proteómica. Sin embargo, con esta
gran cantidad de posibilidades, es necesario ser precavidos con el uso de las herramientas,
ya que ninguna es integral e infalible, y se hace imperativo la elección con sensatez de las
más adecuadas para los propósitos del proyecto del usuario final. Por lo tanto, la gestión
y la minería de datos son dos temas importantes para la investigación generada por las
“ómicas”, exigiendo la intervención inmediata de la bioinformática.
Estas especies junto con el sorgo (Paterson et al., 2009); maíz (Schnable et al., 2009);
soja (Schmutz et al., 2014); papa (The Potato Genome Sequencing Consortium, 2011);
garbanzo (Jain et al., 2013); cebada (The Barley Genome Sequencing Consortium, 2012);
sandía (Guo et al., 2013), melón (Garcia-Mas et al., 2012) y trigo (Brenchley et al., 2012)
tienen diferentes bases de datos con un genoma completo disponible al público que quiera
consultarlo y usarlo para estudios de mejora genética. En la actualidad hay más de 52
genomas de cultivos y árboles secuenciados y publicados.
Las ómicas también presentan una relación e impacto estrecho en el campo de la salud
60
Conceptos en Ciencias Ómicas
61
4. GENÓMICA
DIANA LÓPEZ-ALVAREZ
ANDREA GARAVITO
La genómica es la ciencia que estudia los diferentes ámbitos del genoma, desde su
estructura y función hasta la interacción existente entre los genes y el ambiente en el
que se desarrolla el organismo. La genómica se subdivide en cuatro principales áreas,
dependiendo del ámbito de estudio que implican:
Determinar la estrategia para llevar a cabo una secuenciación del genoma de interés es
el primer paso a seguir, siendo crucial interrogarse sobre varias cuestiones básicas antes
de planificar y llevar a cabo el proyecto. El primer y más importante cuestionamiento es
determinar el por qué la secuencia del genoma del organismo es necesaria, y cuál es el
62
Conceptos en Ciencias Ómicas
objetivo al que se busca llegar con ella. Si se parte del hecho de que la secuenciación
completa de un genoma es un proceso largo, complejo y costoso, se debe considerar si
es posible o no responder a la pregunta biológica utilizando algún otro tipo de técnica
menos demandante. Si definitivamente la pregunta a responder requiere la secuenciación
del genoma, es importante determinar el nivel de refinamiento esperado, puesto que de
éste dependerá la metodología a utilizar y los recursos económicos y computacionales
requeridos para completar el proyecto.
Cabe anotar que bajo las anteriores premisas, solo unos cuantos genomas eucariotas se
encuentran a nivel de un genoma terminado. De hecho, en la base de datos GOLD, de más
de 132000 proyectos de secuenciación de genomas reportados hasta el momento, solo
unos 6500 genomas bacterianos y 287 eucariotas se consideran como terminados3. En
la actualidad solo existen unos cuantos genomas totalmente secuenciados y finalizados,
tales como: el genoma humano, el del ratón, el de Arabidopsis (pequeña planta de la
familia de las brasicáceas, que ha sido utilizada como modelo en plantas), y el del arroz,
todos ellos obtenidos con base en la metodología de clon por clon. Es de esperar que
con el avance en las tecnologías de secuenciación, muchos más genomas lleguen a estar
totalmente terminados en los años venideros.
63
complejidad de su genoma y su nivel de heterocigosidad. Dichas consideraciones pueden
ser menos relevantes para la mayoría de animales y microorganismos, sin embargo, son
importantes al momento de secuenciar genomas de plantas.
Respecto a la complejidad del genoma, varios aspectos son altamente relevantes para un
programa de secuenciación genómica. El primero es el tamaño del genoma en estudio,
puesto que de él dependerá el número de lecturas necesarias para alcanzar la cobertura o
profundidad, y por ende, la calidad del ensamblaje deseado. Las variaciones en el tamaño
del genoma dentro de los taxones se encuentran en su mayoría dentro de una escala de
una a una y media orden de magnitud (Fedoroff, 2012). Pero existen casos excepcionales
como el de las angiospermas, donde el rango de tamaños genómicos varía en más de tres
órdenes de magnitud (con genomas haploides que se encuentran entre los 63 Mb y 150
Gb) (Kelly et al., 2012). Las variaciones pueden ocurrir entre organismos relativamente
cercanos, haciendo necesario conocer de antemano el tamaño estimado para la especie
de interés.
El segundo aspecto es el nivel de ploidía, porque tiene un efecto directo en el tamaño del
genoma, y a su vez en el grado de complejidad al momento del ensamblaje. Dicha complejidad
está ligada al alto grado de redundancia y a los posibles errores en la resolución de regiones
homólogas (Renny-Byfield & Wendel, 2014). En tercer lugar, se encuentra la existencia de
duplicaciones genómicas ancestrales recientes, que de la misma forma que los eventos de
poliploidización, pueden aumentar los errores en el ensamblaje de las regiones parálogas.
El último aspecto, aunque no menos importante, es el porcentaje de secuencias repetitivas.
Las secuencias repetitivas pueden representar hasta un 90% del genoma (Wegrzyn et
al., 2014), y puesto que dicho porcentaje está altamente correlacionado con el tamaño
del mismo, se esperan porcentajes altos en los genomas de mayor tamaño. La mayoría
de las secuencias repetitivas corresponden a elementos transponibles, principalmente
retrotansposones con LTR (Long Terminal Repeats), los cuales por su gran tamaño son los
responsables de muchas de las variaciones estructurales encontradas entre los genomas
de organismos relacionados y de la consecuente expansión en el tamaño del genoma
(Fedoroff, 2012).
64
Conceptos en Ciencias Ómicas
fragmentadas, debido a la falta de resolución de los márgenes entre las regiones altamente
heterocigotas, ensambladas en contigs alternativos y aquellas homocigotas ya colapsadas.
El diseño experimental es un término usado para planear eficientemente los métodos para
la obtención de los datos, con el fin de obtener la máxima cantidad de información a
partir de la menor cantidad de trabajo. Cuando se va a llevar a cabo un estudio en el
campo de las ómicas, es necesario establecer ciertas consideraciones antes de comenzar el
experimento, mencionadas previamente, todo esto con el fin de tener claro los pasos para
la generación de los datos de secuenciación. En la siguiente sección vamos a poner a su
disposición algunas consideraciones pertinentes:
65
perderá. Existen lecturas cortas de alta calidad; dependiendo del experimento será
la exigencia de una mínima longitud de lectura.
f. Complejidad de la librería: es considerado el número de distintos fragmentos en
una librería. No obstante, después de la amplificación, se pueden tener muchas
copias de un mismo fragmento inicial que no ayudan a aumentar dicha complejidad
e incluso puede ser perjudicial para su análisis.
g. ¿Cuál equipo de secuenciación se utilizará?: considerar qué tipos de lecturas se
obtienen y cuál es la longitud de las lecturas.
4.2.1. Muestreo
4.2.2. Réplicas
Siempre damos más importancia a las réplicas biológicas que a las técnicas, no obstante,
cuando estamos pensando en evaluar una tecnología esa importancia se invierte, debido
a que es necesario estudiar la variación a diferentes niveles. Hay que tener en cuenta que
las repeticiones biológicas son a menudo más eficaces en el aumento de la potencia para
detectar metabolitos / genes diferenciales.
66
Conceptos en Ciencias Ómicas
Para secuenciar un genoma el primer paso es recuperar el ADN del organismo. Para
ello se necesita una muestra suficientemente grande de material (sangre, saliva, hojas,
dependiendo del tipo de organismo), a partir de la cual se busca obtener las moléculas
de ADN lo más intactas posibles, por medio de un proceso que busca liberar el ADN de
cada una de las células presentes en la muestra y purificarlo. Una vez obtenido el ADN es
procesado para permitir su secuenciación, siendo los pasos requeridos dependientes del
tipo de tecnología utilizada.
67
de secuencias que representen varias veces la totalidad del genoma del organismo. El
número de veces dependerá del grado de complejidad, el tipo de tecnología utilizada y la
calidad deseada del ensamblaje final (Sims et al., 2014).
Dichos genomas fueron obtenidos por secuenciación de tipo Sanger (ver Capítulo 3),
requiriendo pasar por la clonación del genoma fragmentado dentro de vectores moleculares
como los BACs (Cromosomas artificiales bacterianos).
Esta técnica, así como la secuenciación Sanger en sí misma, son procesos dispendiosos
tanto en el tiempo (13 años para alcanzar el primer borrador del genoma humano) y costos
derivados (300 millones de dólares para el mismo). A partir de 2005, con la comercialización
de las nuevas tecnologías de secuenciación Next generation sequencing o NGS, hemos
sido testigos de la creciente facilidad con la que se puede obtener la secuencia de un
genoma completo, del aumento en la resolución obtenida, y de la impresionante reducción
en los costos derivados.
Para finales del año 2015, el costo de obtención de un borrador de alta calidad de un
genoma humano estaba en menos de 1500 dólares, tardando 26 horas para su consecución
(sin incluir el tiempo necesario para los análisis bioinformáticos posteriores)4 .
Un ejemplo de las impresionantes repercusiones que ha tenido la espectacular reducción
de costos es el hito de 50 genomas de plantas secuenciados (ver Figura 4.1), que fue
alcanzando en 2013 (Michael & Jackson, 2013). Se espera en los años por venir que la
4 Para mayor información consultar la página https://www.genome.gov/sequencingcosts/.
68
Conceptos en Ciencias Ómicas
NovaSeq
Número acumulado de genomas
200
PACBIO Sequel
de plantas publicadas
MinION
Populus trichocarpa (500Mb)
PACIBIO RS
100
Hiseq2000
ABI Solid
50 454
0
2000
2006
2009
2008
2004
2002
2003
2005
2007
2001
2010
2016
2014
2012
2013
2015
2017
2011
Año
Figura 4.1. Número de genomas de plantas publicados: representación gráfica del número
de genomas de plantas publicados en los últimos 18 años. Los datos provienen de la página
http://www.plabipd.de/
Estudios de epigenética
Existen técnicas que permiten estudiar una parte representativa del genoma de un
individuo, caracterizar su genotipo y compararlo con el de otros individuos mediante
69
diferentes marcadores genéticos. Esto porque en ocasiones cuando el objetivo del
proyecto no requiere la realización de una secuenciación completa, existe la posibilidad
de hacer una selección de los fragmentos genómicos a secuenciar. Dicha selección pasa
por un enriquecimiento o una selección previa de los fragmentos, haciendo uso de una
gran variedad de técnicas fundamentadas en cuatro métodos moleculares: la captura por
hibridación, la amplificación por PCR, la amplificación utilizando sondas invertidas que
equivale a una combinación de las dos primeras y la utilización de enzimas de restricción.
La captura por hibridación, la amplificación por PCR y la amplificación por sondas invertidas
son comúnmente utilizadas en la secuenciación de exomas, mientras que la amplificación
por PCR y la utilización de enzimas de restricción se focalizan más en la obtención de
variantes y SNPs utilizados como marcadores moleculares, como en el caso del Genotyping
by sequencing o GBS (ver más adelante).
Hay muchos tipos de marcadores moleculares disponibles, pero el que debe seleccionarse
de acuerdo a un determinado proyecto depende de:
Sin embargo, una vez obtenidos los datos del secuenciador, la bioinformática nos permite
disponer de herramientas para identificar posibles marcadores a partir de los datos crudos.
No hay un método estándar para el procesamiento de los mismos, pero si existen unos
pasos mínimos que se llevan a cabo, en tanto el procesamiento puede variar dependiendo
de la construcción de las librerías y el método de secuenciación empleado.
70
Conceptos en Ciencias Ómicas
Este método emplea el uso de enzimas de restricción (ER), para realizar cortes en regiones
específicas del genoma (enzimas sensibles a las regiones metiladas), obteniendo muchos
loci distribuidos al azar por el genoma. Entre los diferentes métodos que emplean ER se
encuentran la secuenciación de representación reducida (RRL), la secuenciación de ADN
asociada a los sitios de restricción (RAD-seq) y la secuenciación de baja cobertura para
genotipado (GBS).
Esta técnica fue originalmente descrita por Miller y colaboradores (2007) y está basada
en la plataforma de matriz de oligonucleótidos sonda (microarrays). Baird y colaboradores
(2008), adaptaron posteriormente los RAD-seq a la plataforma de secuenciación masiva
(amplificación por puente y secuenciación por síntesis) para detectar de manera eficiente
los polimorfismos de ADN sin necesidad de ningún conocimiento molecular de las especies
objeto de estudio.
71
Lo anterior se puede llevar a cabo, en tanto se dispone o no de un genoma de referencia.
Cuando se dispone de dicho genoma los reads pueden mapearse y localizarse en sus
cromosomas. En el caso de no disponer de tal genoma, como ocurre en la mayoría de
las especies no modelo, se procede al ensamblaje de novo de los reads obtenidos de la
secuenciación de los extremos de fragmentos amplificados en clústeres. La solidez de este
método ha sido corroborada por simulaciones en ordenador y mapeo (Amores et al., 2014).
Los datos SNPs obtenidos de la técnica RAD están siendo utilizados para reconstruir
filogeografías y arboles filogénicos en diversos organismos (Lemmon & Lemmon, 2012;
McCormack et al., 2013; Zellmer et al., 2012), incluso sin disponer de un conocimiento
previo sobre la diversidad de sus genomas (Catchen et al., 2013; Mastretta-Yanes et al.,
2015; Nadeau et al., 2012; Rubin et al., 2012). El hecho de que los SNPs estén distribuidos
a lo largo del genoma nuclear y que vayan asociados a una variación neutra o adaptativa,
además de su relativa facilidad de genotipado y de transferencia tecnológica entre los
laboratorios (Ogden et al., 2013), ha permitido que un gran número de complejos de
72
Conceptos en Ciencias Ómicas
especies incluyendo las plantas poliploides comiencen a ser estudiadas con estos
marcadores (Buggs et al., 2012; Ilut et al., 2012; Lai et al., 2012; Wang et al., 2013).
Es un método para reducir la complejidad del genoma que también emplea enzimas
de restricción, pero sensibles a metilación para su digestión. Se diferencia de los RAD-
seq y RRL porque no lleva a cabo una selección de fragmentos por tamaño antes de la
secuenciación. Este método fue descrito la primera vez por Elshire et al. (2011).
Exoma
El exoma es la parte del genoma formado por los exones, los cuales son las regiones
codificantes que se van a transcribir para dar lugar a las proteínas. El estudio del exoma ha
cobrado relevancia en los últimos años y corresponde a una de las formas más completas
y complejas de estudiar nuestro ADN; un exoma humano consiste en, aproximadamente,
180000 exones que constituyen cerca del 1% del total del genoma (unas 30 megabases de
ADN). Su importancia radica en que se ha centrado en mapear variantes codificantes que
permiten identificar causas de enfermedades, ya que la mayoría de alelos involucrados
en enfermedades mendelianas afectan directamente la secuencia codificante. Además,
una alta proporción de las variantes que alteran una proteína afectan su función y son
deletéreas.
Genome Skimming
73
sondas para aproximaciones de reducción del genoma basados en hibridación (Straub et
al., 2012).
Esta técnica se ha utilizado con éxito para una variedad de propósitos (Bock et al., 2014;
Malé et al., 2014), compensando el reducido número de marcadores independientes
recuperados frente a otras ventajas; no haciéndose necesario un genoma de referencia.
Teniendo en cuenta que se necesita una menor cobertura y se pueden secuenciar más
muestras con códigos de barras, reduciendo de manera crucial el coste por muestra, su
uso es bastante empleado para estudios poblacionales o filogenéticos que emplean altos
números de muestra.
Chip-seq
El control de calidad de los datos crudos permite llevar a cabo un análisis rápido del
estado de las lecturas obtenidas con el fin de identificar y excluir datos con problemas
serios de calidad. Las herramientas usadas permiten determinar la calidad de las bases
(probabilidad de que la base asignada sea la correcta), la distribución de los nucleótidos,
la distribución del contenido de GC, secuencias repetidas, entre otros parámetros, como
es el caso del programa FastQC 5.
Entre las estrategias para excluir datos, existe la tendencia a filtrar las lecturas que tengan
poca calidad, o cortarlos a partir de la posición en la cual la calidad comienza a decaer.
Entre los programas más usados encontramos Cutadapt6 , Trimmomatic (Bolger et al.,
2014) y FASTX-Toolkit7 . En el caso de lecturas largas, se han desarrollado flujos de trabajo
como el HGAP8 , sin embargo, hay que tener en cuenta que con los avances informáticos
actuales, todos los días tenemos nuevos programas en uso.
Otra situación a tener en cuenta frente al control de calidad son los contaminantes. En
la actualidad existen diferentes herramientas disponibles que sirven para realizar una
comprobación rápida de posibles contaminantes en lecturas de secuenciación de muestras
o librerías. Esto se lleva a cabo dándole a cada una de esas lecturas una asignación
taxonómica, que en algunos casos puede llegar hasta nivel de especie, detectando, de esta
manera, si las mismas están contaminadas con ADN de otras fuentes. Es decir, si se está
realizando un ensamblaje de novo de una especie X que desafortunadamente presenta
5 Al respecto se recomienda visitar la página http://www.bioinformatics.babraham.ac.uk/projects/fastqc/.
6 Para obtener más información sobre el programa se recomienda visitar la página http://code.google.com/p/cutadapt/.
7 Hay información disponible sobre el programa en http://hannonlab.cshl.edu/fastx_toolkit.com.
8 Hay información disponible sobre el programa en https://github.com/PacificBiosciences/Bioinformatics.Training/wiki/HGAP.
74
Conceptos en Ciencias Ómicas
• Blast.
• Kraken9.
• Centrifuge10.
• Blobology11.
4.2.6. Ensamblaje
Una vez que se han limpiado restos de adaptadores en las lecturas obtenidas por el
secuenciador, y las secuencias de baja calidad han sido retiradas, es posible comenzar con
el ensamblaje del genoma. Idealmente, un ensamblaje de genoma es el set de secuencias
reunidas que mejor se aproxima al genoma secuenciado.
Dependiendo del tipo de genoma existen diferentes programas, cuya escogencia dependerá
principalmente del organismo con el que se está trabajando, y del tipo de secuenciación
utilizado. Para secuencias cortas, como las que se obtienen en la secuenciación Illumina®,
se utilizan programas basados en los grafos de Bruijn (DBG - De Bruijn graph assembly),
que son representaciones de los solapamientos entre fragmentos cortos de secuencias
llamados k-meros; mientras que para las secuencias más largas, como las obtenidas con
PacBio® o Nanopore® se usan los ensambladores basados en el consenso por solapamiento
(OLC – Overlap/Layout/Consensus assembly), que utilizan la similitud entre secuencias
para determinar los solapamientos.
En ambos casos las lecturas obtenidas son introducidas a los programas de ensamblaje,
capaces de entregar fragmentos únicos reconstruidos (llamados contigs). Lo que se busca
posteriormente es reorganizar dichos contigs con la ayuda de informaciones adicionales
que permitan organizarlos para construir lo que se llama scaffolds (supercontigs).
75
cuyo nivel de refinamiento depende de los factores ya mencionados. A continuación, se
detallan algunos programas bioinformáticos para el ensamblaje de genomas, clasificados
de acuerdo con los pasos de análisis: 1. Ensamblaje y 2. Evaluación de la calidad del
ensamblaje.
Ensamblaje
SPAdes
Velvet
76
Conceptos en Ciencias Ómicas
ABySS
MaSuRCA
Es un ensamblador que combina la eficiencia de los grafos de Bruijn con las características
del ensamblaje OLC, permitiendo longitudes de lecturas variables y tolerando un nivel
significativo de errores en el secuenciamiento. MaSuRCA transforma las lecturas en
“paired-end” en un número menor de “super-lecturas” de mayor longitud. Las super-
lecturas son una extensión base a base de la lectura original, desde sus dos extremidades
siempre y cuando la extensión sea única. Dichas super-lecturas permite el ensamblaje de
datos provenientes de lecturas cortas (Illumina®), o mezclas entre lecturas cortas y largas.
FALCON
CANU
77
QUAST
4.2.7. Anotación
La anotación se refiere a dos procesos: en primer lugar, los genes y sus estructuras
intrónicas-exónicas (anotación estructural) y en segundo lugar, agregar metadatos, tales
como asociaciones con términos de Ontología de genes (GO, del inglés Gene Ontology) y
descripciones funcionales, a anotaciones estructurales (anotación funcional). La anotación
de estructuras génicas se divide en una fase “computacional”, en la cual se generan
predicciones de genes ab initio, basadas en modelos matemáticos, y predicciones basadas
en evidencias, como secuencias de expresión, transcritos y proteínas conocidas. La fase
siguiente consiste en la “anotación”, en la cual se asignan descripciones funcionales a los
genes predichos en la primera fase.
Un pipeline para anotación genómica debe integrar y manejar diferentes tipos de evidencias
en la forma de secuencias expresadas (ESTs), datos de proyectos de RNA-Seq, homologías
de proteínas y predicciones de genes, con la capacidad de poder sintetizar todos estos
datos en modelos de genes consistentes, para luego generar predicciones robustas de
sus atributos funcionales. Por lo anterior se obtienen archivos de salida con los datos de
anotación organizados, de tal manera que se puedan ver gráficamente en visualizadores
genómicos y almacenar en bases de datos de anotación.
78
Conceptos en Ciencias Ómicas
Augustus
Glimmer
Glimmerhmm
Repeatmasker
Realiza un tamizaje de las secuencias de ADN para buscar regiones repetitivas y de baja
complejidad. La salida del programa es una anotación detallada de las repeticiones
presentes en las secuencias de entrada, así como una versión modificada de la secuencia
de entrada, en la cual se han enmascarado todas las repeticiones anotadas (reemplazas
por Ns).
Transdecoder v3.0.0
79
NCBI-blast
Rapsearch.
Interproscan
Hmmer
Tmhmm
Signalp
80
Conceptos en Ciencias Ómicas
Blast2GO
Maker
El resultado de las anotaciones de los genes puede ser visto directamente en el computador
o puede ser cargado en páginas web que permiten encontrar las características de los genes
anotados, a través de herramientas diseñadas para la descripción, el análisis, visualización
y la distribución de la anotación. Uno de los programas más utilizados actualmente para
la visualización y exploración de datos de genoma es JBrowse, derivado de GBrowse, uno
de los primeros visualizadores.
81
4.3. Referencias
Adams M.D., Celniker S.E., Holt R.A., Evans C.A., Gocayne J.D., Amanatides P.G.,
Scherer S.E., Li P.W., Hoskins R.A., Galle R.F., George R.A., Lewis S.E., Richards S.,
Ashburner M., Henderson S.N., Sutton G.G., Wortman J.R., Yandell M.D., Zhang
Q., Chen L.X., Brandon R.C., Rogers Y.-H.C., Blazej R.G., Champe M., Pfeiffer B.D.,
Wan K.H., Doyle C., Baxter E.G., Helt G., Nelson C.R., Gabor G.L., Miklos, Abril
J.F., Agbayani A., An H.-J., Andrews-Pfannkoch C., Baldwin D., Ballew R.M., Basu
A., Baxendale J., Bayraktaroglu L., Beasley E.M., Beeson K.Y., Benos P.V., Berman
B.P., Bhandari D., Bolshakov S., Borkova D., Botchan M.R., Bouck J., Brokstein P.,
Brottier P., Burtis K.C., Busam D.A., Butler H., Cadieu E., Center A., Chandra I.,
Cherry J.M., Cawley S., Dahlke C., Davenport L.B., Davies P., Pablos B.d., Delcher A.,
Deng Z., Mays A.D., Dew I., Dietz S.M., Dodson K., Doup L.E., Downes M., Dugan-
Rocha S., Dunkov B.C., Dunn P., Durbin K.J., Evangelista C.C., Ferraz C., Ferriera
S., Fleischmann W., Fosler C., Gabrielian A.E., Garg N.S., Gelbart W.M., Glasser K.,
Glodek A., Gong F., Gorrell J.H., Gu Z., Guan P., Harris M., Harris N.L., Harvey D.,
Heiman T.J., Hernandez J.R., Houck J., Hostin D., Houston K.A., Howland T.J., Wei
M.-H., et al. (2000). The Genome Sequence of Drosophila melanogaster. Science,
287:2185.
Amores, A., Catchen, J., Nanda, I., Warren, W., Walter, R., Schartl, M., Postlethwait J.H.
(2014). A RAD-Tag Genetic Map for the Platyfish (Xiphophorus maculatus). Reveals
Mechanisms of Karyotype Evolution Among Teleost Fish. Genetics, 197, 625-U307.
DOI: 10.1534/genetics.114.164293.
Baird N.A., Etter P.D., Atwood T.S., Currey M.C., Shiver A.L., Lewis Z.A., Selker E.U.,
Cresko W.A., Johnson E.A. (2008). Rapid SNP Discovery and Genetic Mapping Using
Sequenced RAD Markers. Plos One 3.
Bankevich A., Nurk S., Antipov D., Gurevich A.A., Dvorkin M., Kulikov A.S., Lesin V.M.,
Nikolenko S.I., Pham S., Prjibelski A.D., Pyshkin A.V., Sirotkin A.V., Vyahhi N., Tesler
G., Alekseyev M.A., Pevzner P.A. (2012). SPAdes: A New Genome Assembly Algorithm
and Its Applications to Single-Cell Sequencing. Journal of Computational Biology,
19, 455-477. DOI: 10.1089/cmb.2012.0021.
Bock, D.G., Kane N.C., Ebert, D.P., Rieseberg, L.H. (2014). Genome skimming reveals
the origin of the Jerusalem Artichoke tuber crop species: neither from Jerusalem nor
an artichoke. New Phytologist, 201, 1021-1030. DOI: 10.1111/nph.12560.
Bolger, A.M., Lohse, M., Usadel, B. (2014). Trimmomatic: a flexible trimmer for Illumina
sequence data. Bioinformatics, 30, 2114-2120. DOI: 10.1093/bioinformatics/btu170.
Brenchley R., Spannagl M., Pfeifer M., Barker G.L.A., D’Amore R., Allen A.M., McKenzie
N., Kramer M., Kerhornou A., Bolser D., Kay S., Waite D., Trick M., Bancroft I., Gu
Y., Huo N., Luo M.C., Sehgal S., Gill B., Kianian S., Anderson O., Kersey P., Dvorak
J., McCombie W.R., Hall A., Mayer K.F.X., Edwards K.J., Bevan M.W., Hall N. (2012).
Analysis of the breadwheat genome using whole-genome shotgun sequencing.
Nature, 491, 705-710. DOI: 10.1038/nature11650.
Buggs R.J.A., Renny-Byfield S., Chester M., Jordon-Thaden I.E., Viccini L.F., Chamala
82
Conceptos en Ciencias Ómicas
S., Leitch A.R., Schnable P.S., Barbazuk W.B., Soltis P.S., Soltis D.E. (2012). Next-
generation sequencing and genome evolution in allopolyploids. American Journal of
Botany, 99, 372-382. DOI: 10.3732/ajb.1100395.
Catchen, J., Bassham, S., Wilson, T., Currey, M., O’Brien, C., Yeates, Q., Cresko, W.A.
(2013). The population structure and recent colonization history of Oregon threespine
stickleback determined using restriction-site associated DNA-sequencing. Molecular
Ecology, 22, 2864-2883. DOI: 10.1111/mec.12330.
Chain P.S.G., Grafham D.V., Fulton R.S., FitzGerald M.G., Hostetler J., Muzny D., Ali
J., Birren B., Bruce D.C., Buhay C., Cole J.R., Ding Y., Dugan S., Field D., Garrity
G.M., Gibbs R., Graves T., Han C.S., Harrison S.H., Highlander S., Hugenholtz P.,
Khouri H.M., Kodira C.D., Kolker E., Kyrpides N.C., Lang D., Lapidus A., Malfatti S.A.,
Markowitz V., Metha T., Nelson K.E., Parkhill J., Pitluck S., Qin X., Read T.D., Schmutz
J., Sozhamannan S., Sterk P., Strausberg R.L., Sutton G., Thomson N.R., Tiedje J.M.,
Weinstock G., Wollam A., Detter J.C. (2009). Genome Project Standards in a New Era
of Sequencing. Science, 326, 236.
Davey, J.W., Hohenlohe, P.A., Etter, P.D., Boone, J.Q., Catchen, J.M., Blaxter, M.L.
(2011) Genome-wide genetic marker discovery and genotyping using next-generation
sequencing. Nature Reviews Genetics 12:499-510.
Elshire, R.J., Glaubitz, J.C., Sun, Q., Poland, J.A., Kawamoto, K., Buckler, E.S., Mitchell,
S.E. (2011). A Robust, Simple Genotyping-by-Sequencing (GBS). Approach for High
Diversity Species. Plos One 6.
Etter, P.D., Bassham, S., Hohenlohe, P.A., Johnson, E.A., Cresko, W.A. (2011). SNP
discovery and genotyping for evolutionary genetics using RAD sequencing. Methods
in molecular biology (Clifton, N.J.). 772, 157-78. DOI: 10.1007/978-1-61779-228-1_9.
Fedoroff, N.V. (2012) Transposable Elements, Epigenetics, and Genome Evolution.
Science, 338, 758-767. DOI: 10.1126/science.338.6108.758.
Fleischmann R.D., Adams M.D., White O., Clayton R.A., Kirkness E.F., Kerlavage A.R.,
Bult C.J., Tomb J.F., Dougherty B.A., Merrick J.M., et al.(1995). Whole-genome
random sequencing and assembly of Haemophilus influenzae Rd. Science, 269, 496.
Garcia-Mas J., Benjak A., Sanseverino W., Bourgeois M., Mir G., Gonzalez V.M., Henaff
E., Camara F., Cozzuto L., Lowy E., Alioto T., Capella-Gutierrez S., Blanca J., Canizares
J., Ziarsolo P., Gonzalez-Ibeas D., Rodriguez-Moreno L., Droege M., Du L., Alvarez-
Tejado M., Lorente-Galdos B., Mele M., Yang L.M., Weng Y.Q., Navarro A., Marques-
Bonet T., Aranda M.A., Nuez F., Pico B., Gabaldon T., Roma G., Guigo R., Casacuberta
J.M., Arus P., Puigdomenech P. (2012). The genome of melon (Cucumis melo L.).
Proceedings of the National Academy of Sciences of the United States of America
109, 11872-11877. DOI: 10.1073/pnas.1205415109.
Gawad, C., Koh, W., Quake, S.R. (2016). Single-cell genome sequencing: current state
of the science. Nat Rev Genet, 17, 175-188. DOI: 10.1038/nrg.2015.16.
Goff S.A., Ricke D., Lan T.H., Presting G., Wang R.L., Dunn M., Glazebrook J., Sessions
A., Oeller P., Varma H., Hadley D., Hutchinson D., Martin C., Katagiri F., Lange B.M.,
Moughamer T., Xia Y., Budworth P., Zhong J.P., Miguel T., Paszkowski U., Zhang S.P.,
83
Colbert M., Sun W.L., Chen L.L., Cooper B., Park S., Wood T.C., Mao L., Quail P., Wing
R., Dean R., Yu Y.S., Zharkikh A., Shen R., Sahasrabudhe S., Thomas A., Cannings R.,
Gutin A., Pruss D., Reid J., Tavtigian S., Mitchell J., Eldredge G., Scholl T., Miller R.M.,
Bhatnagar S., Adey N., Rubano T., Tusneem N., Robinson R., Feldhaus J., Macalma T.,
Oliphant A., Briggs S.…(2002a). A draft sequence of the rice genome (Oryza sativa
L. ssp japonica). Science, 296, 92-100. DOI: 10.1126/science.1068275.
Goffeau A., Barrell B.G., Bussey H., Davis R.W., Dujon B., Feldmann H., Galibert F.,
Hoheisel J.D., Jacq C., Johnston M., Louis E.J., Mewes H.W., Murakami Y., Philippsen
P., Tettelin H., Oliver S.G. (2002b). A Draft Sequence of the Rice Genome (Oryza
sativa L. ssp. japonica). Science, 296, 92-100. DOI: 10.1126/science.1068275.
Goffeau, A., Barrell, B.G., Bussey, H., Davis, R.W., Dujon, B., Feldmann, H., Galibert, F.,
Hoheisel, J.D…(1996). Life with 6000 Genes. Science, 274, 546.
Grattapaglia, D., Sederoff, R. (1994) Genetic-Linkage Maps of Eucalyptus-Grandis
and Eucalyptus-Urophylla Using a Pseudo-Testcross - Mapping Strategy and Rapd
Markers. Genetics, 137, 1121-1137.
Guo, S., Zhang, J., Sun, H., Salse, J., Lucas, W.J., Zhang, H., Zheng Y., Mao, L., Ren, Y…
(2013). The draft genome of watermelon (Citrullus lanatus) and resequencing of 20
diverse accessions. Nat Genet, 45, 51- 58. DOI: http://www.nature.com/ng/journal/
v45/n1/abs/ng.2470.html#supplementary-information.
Gupta, P.K., Rustgi, S., Mir, R.R. (2008). Array-based high-throughput DNA markers for
crop improvement. Heredity, 101, 5-18.
Hegarty, M., Yadav, R., Lee, M., Armstead, I., Sanderson, R., Scollan, N., Powell, W.,
Skot, L. (2013). Genotyping by RAD sequencing enables mapping of fatty acid
composition traits in perennial ryegrass (Lolium perenne (L.)). Plant Biotechnology
Journal, 11, 572-581.
Heinner, G. (2015). Hacia la medicina personalizada: implicancias de las ciencias básicas
y las “ómicas” en la práctica clínica. Revista Peruana de Medicina Experimental y
Salud Publica, 32, 629-632.
Hirsch, C.N., Foerster, J.M., Johnson, J.M., Sekhon, R.S., Muttoni, G., Vaillancourt, B.,
Peñagaricano, F., Lindquist, E…(2014). Insights into the Maize Pan-Genome and
Pan-Transcriptome. The Plant Cell, 26, 121-135.
Ilut, D.C., Coate, J.E., Luciano, A.K., Owens, T.G., May, G.D., Farmer, A., Doyle, J.J.
(2012). A comparative transcriptomic study of an allotetraploid and its diploid
progenitors illustrates the unique advantages and challenges of rna-seq in plant
species. American Journal of Botany. 99, 383-396. DOI: 10.3732/ajb.1100312.
International Human Genome Sequencing Consortium. (2001). Initial sequencing and
analysis of the human genome. Nature, 409, 860 - 921. DOI: http://www.nature.
com/nature/journal/v409/n6822/suppinfo/409860a0_S1.html.
Jain, M., Misra, G., Patel, R.K., Priya, P., Jhanwar, S., Khan, A.W., Shah, N., Singh, V.K…
(2013). A draft genome sequence of the pulse crop chickpea (Cicer arietinum L.).
Plant Journal, 74, 715-729. DOI: 10.1111/tpj.12173.
Kelly, L.J., Leitch, A.R., Fay, M.F., Renny-Byfield, S., Pellicer, J., Macas, J., Leitch, I.J.
(2012). Why size really matters when sequencing plant genomes.
84
Conceptos en Ciencias Ómicas
85
RADseq: An Inexpensive Method for de novo SNP Discovery and Genotyping in Model
and Non-Model Species. Plos One 7, e37135. DOI: 10.1371/journal.pone.0037135.
Poland, J.A., Brown, P.J., Sorrells, M.E., Jannink, J.L. (2012). Development of High-
Density Genetic Maps for Barley and Wheat Using a Novel Two-Enzyme Genotyping-
by-Sequencing Approach. Plos One 7.
Renny-Byfield, S., Wendel, J.F. (2014). Doubling down on genomes: Polyploidy and
crop plants. American Journal of Botany, 101, 1711-1725.
Rosenblum, E.B., James, T.Y., Zamudio, K.R., Poorten, T.J., Ilut, D., Rodriguez, D.,
Eastman, J.M., Richards-Hrdlicka, K…(2013). Complex history of the amphibian-
killing chytrid fungus revealed with genome resequencing data. Proceedings of the
National Academy of Sciences, 110, 9385-9390.
Rubin, B.E.R., Ree, R.H., & Moreau, C.S. (2012). Inferring Phylogenies from RAD
Sequence Data. Plos One 7. DOI: 10.1371/journal.pone.0033394.
Sato S., Nakamura Y., Kaneko T., Asamizu E., Kato T., Nakao M., Sasamoto S., Watanabe
A…(2008). Genome Structure of the Legume, Lotus japonicus. DNA Research: An
International Journal for Rapid Publication of Reports on Genes and Genomes, 15,
227-239. DOI: 10.1093/dnares/dsn008.
Scaglione, D., Acquadro, A., Portis, E., Tirone, M., Knapp, S.J., & Lanteri, S. (2012). RAD
tag sequencing as a source of SNP markers in Cynara cardunculus L. Bmc Genomics,
13.
Schmutz, J., McClean, P.E., Mamidi, S., Wu, G.A., Cannon, S.B., Grimwood, J., Jenkins, J.,
Shu, S.Q…(2014). A reference genome for common bean and genome-wide analysis
of dual domestications. Nature Genetics, 46, 707-713. DOI: 10.1038/ng.3008.
Schnable, P.S., Ware, D., Fulton, R.S., Stein, J.C., Wei, F.S., Pasternak, S., Liang, C.Z.,
Zhang, J.W…(2009). The B73 Maize genome: Complexity, diversity, and dynamics.
Science, 326, 1112-1115. DOI: 10.1126/science.1178534.
Sims, D., Sudbery, I., Ilott, N.E., Heger, A., & Ponting, C.P. (2014). Sequencing depth
and coverage: key considerations in genomic analyses. Nat Rev Genet, 15, 121-132.
DOI: 10.1038/nrg3642.
Straub, S.C.K., Parks, M., Weitemier, K., Fishbein, M., Cronn, R.C., & Liston, A. (2012).
Navigating the tip of the genomic iceberg: next-generation sequencing for plant
systematics. American Journal of Botany, 99, 349-364. DOI: 10.3732/ajb.1100335.
The Arabidopsis Genome Initiative. (2000). Analysis of the genome sequence of the
flowering plant Arabidopsis thaliana. Nature, 408, 796- 815. DOI: http://www.
nature.com/nature/journal/v408/n6814/suppinfo/408796a0_S1.html.
The Barley Genome Sequencing Consortium. (2012). A physical, genetic and functional
sequence assembly of the barley genome. Nature, 491, 711-716.
The C.elegans Sequencing Consortium. (1998). Genome Sequence of the Nematode C.
elegans: A Platform for Investigating Biology. Science, 282, 2012.
The International Brachypodium Initiative. (2010). Genome sequencing and analysis
of the model grass Brachypodium distachyon. Nature, 463, 763- 768. DOI: Doi
10.1038/Nature08747.
86
Conceptos en Ciencias Ómicas
The Potato Genome Sequencing Consortium. (2011). Genome sequence and analysis of
the tuber crop potato. Nature, 475, 189 - 195. DOI: http://www.nature.com/nature/
journal/v475/n7355/abs/nature10158-f1.2.html#supplementary-information.
Treangen, T.J., & Salzberg, S.L. (2012). Repetitive DNA and next-generation sequencing:
computational challenges and solutions. Nat Rev Genet, 13, 36-46.
Wang, N., Fang, L.C., Xin, H.P., Wang, L.J., & Li, S.H. (2012). Construction of a high-
density genetic map for grape using next generation restriction-site associated DNA
sequencing. Bmc Plant Biology, 12.
Wang, N., Thomson, M., Bodles, W.J.A., Crawford, R.M.M., Hunt, H.V., Featherstone,
A.W., Pellicer, J., & Buggs, R.J.A. (2013). Genome sequence of dwarf birch (Betula
nana) and cross-species RAD markers. Molecular Ecology, 22, 3098-3111. DOI:
10.1111/mec.12131.
Wegrzyn, J.L., Liechty, J.D., Stevens, K.A., Wu, L.-S., Loopstra, C.A., Vasquez-Gross,
H.A., Dougherty, W.M., Lin, B.Y…(2014). Unique Features of the Loblolly Pine (Pinus
taeda L.) Megagenome Revealed Through Sequence Annotation. Genetics, 196, 891-
909. DOI: 10.1534/genetics.113.159996.
Weigel D., Mott R. (2009). The 1001 Genomes Project for Arabidopsis thaliana. Genome
Biology, 10, 107. DOI: 10.1186/gb-2009-10-5-107.
Yadav, D. (2015). Relevance of Bioinformatics in the era of Omics driven research.
Journal of Next Generation Sequencing & Applications, 2, e102. DOI: 10.4172/2469-
9853.1000e102.
Young, B., Beck, S., Córdova, J., Embert, D., Franke, I., Hernandez, P., Herzog, S.,
Pacheco, V…(2007). Digital distribution maps of species endemic to the east slope
of the Andes in Peru and Bolivia. NatureServe. Virginia, USA: Arlington.
Zellmer, A.J., Hanes, M.M., Hird, S.M., & Carstens, B.C. (2012). Deep Phylogeographic
Structure and Environmental Differentiation in the Carnivorous Plant Sarracenia
alata. Systematic Biology, 61, 763-777.
87
5.METAGENÓMICA
JEANNETH MOSQUERA RENDÓN
DIANA LÓPEZ-ALVAREZ
En la Tierra encontramos que los microorganismos son los seres vivos con mayor
abundancia, incluso encontramos más células bacterianas en un cuerpo humano que sus
propias células. Además, las bacterias y las arqueas pueden vivir en toda clase de ambientes
–incluyendo ambientes extremos de 340°C (Wooley, Godzik & Friedberg, 2010)–; éstas son
esenciales para la vida, ya que son fuente primaria de nutrientes. Sin embargo, solo un
pequeño porcentaje de estos microorganismos pueden ser cultivados y secuenciados de
manera aislada, lo que hace difícil su estudio.
Sus aplicaciones son inmensas, dado que podemos secuenciar toda la vida en la Tierra,
desde el suelo, pasando por el mar, hasta el aire; acelerando el descubrimiento de nuevos
filos, clases, géneros y especies, así como nuevos genes, enzimas y funciones que tengan
impacto en sectores como la agroindustria y la farmacéutica. Además, tiene aplicación en
el monitoreo de ecosistemas naturales o sometidos a presiones ambientales con el fin
de proponer medidas que ayuden a su restauración. Finalmente, una de las medidas más
importantes desde el punto de vista antropocéntrico es el conocimiento del microbioma
humano, porque puede aportarnos información de la salud de las personas.
88
Conceptos en Ciencias Ómicas
5.1. Definición
89
la tierra, ciencias biomédicas, bioenergía, biorremediación, biotecnología y agricultura
(Figura 5.1).
Ciencias
biomédicas
Ayuda en la comprensión
del papel del microbioma
humano en la salud, y en el
desarrollo de nuevas estrategias
de diagnóstico y tratamiento
de diferentes Biotecnología
Ciencias de la vida Permite la identificación
enfermedades.
Aporta en el avance del y explotación de
entendimiento de las metabolitos y enzimas
comunidades microbianas, su presentes en las comunidades
ecología y su evolución. microbianas que generan
productos industriales
Bioenergía (alimentos, cosméticos,
Favorece el desarrollo de farmaceúticos, etc)
sistemas y procesos
Desde el primer registro de una célula bacteriana en 1663, por Antonie van Leeuwenhoek,
se han desarrollado diferentes estrategias para estudiar los microorganismos presentes
en los diferentes ambientes. En la actualidad, se ha logrado describir diferentes especies
microbianas mediante el análisis de secuencias de ADN de microrganismos sin necesidad
de ser cultivados. Esto se evidencia en los diferentes proyectos pioneros desarrollados en
metagenómica (Tabla 5.1), dentro de los cuales cabe resaltar uno de los primeros estudios
realizados y publicados sobre comunidades microbianas de aguas superficiales oceánicas
en el Mar de los Sargazos (Bermudas), que fueron secuenciadas empleando tecnología
Sanger, obteniendo 1045 mil millones de pares de bases, correspondientes a 1,66 millones
de lecturas, donde fueron encontrados aproximadamente 1800 distintas especies y más
de 1,2 millones de nuevos genes codificantes incluyendo 782 nuevos genes fotorreceptores
(Venter, 2004).
Uno de los estudios más ambiciosos de los últimos años ha sido el proyecto de Expedición
de Muestreo Oceánica Global (GOS), desarrollado durante los años 2006 y 2007, en el
que fueron analizados 200 litros de agua del Océano Atlántico noroeste y del Pacífico
90
Conceptos en Ciencias Ómicas
tropical, obteniendo 7,7 millones de lecturas de 800 pb, con la identificación de nuevas
especies de bacterias y nuevas familias de proteínas (Rusch et al., 2007). Otro proyecto
de gran dimensión fue el Proyecto del Microbioma Humano (HMP), desarrollado en el
2008, cuyo objetivo fue identificar y caracterizar los microorganismos residentes en cinco
diferentes zonas del cuerpo humano (cavidad oral, piel, vagina, intestinos y cavidad nasal/
pulmonar), buscando correlaciones entre los cambios de los microbiomas de pacientes
enfermos y sanos. En este proyecto fueron secuenciadas más de 2000 muestras,
generando aproximadamente 23 millones de lecturas de alta calidad, las cuales pudieron
ser asignadas a 674 clados taxonómicos (Nelson et al., 2010).
Los estudios anteriores fueron realizados en virtud de los avances en el desarrollo de las
tecnologías de secuenciación de los últimos años (ver Capitulo 3), permitiendo la reducción
de los costos y haciéndolas más asequibles a los investigadores, con mejores rendimientos
de producción de datos y calidad, impulsando así la revolución de los estudios de
diversidad microbiana, la búsqueda e identificación de nuevas enzimas, metabolitos, rutas
metabólicas, la comprensión de la dinámica de comunidades microbianas y su importancia
en diferentes áreas como salud, agricultura, biotecnología, entre otras. Por consiguiente,
en la actualidad se cuenta con 17412 metagenomas, 1312 metatranscriptomas, 78221
amplicones, 138 ensamblajes, los cuales se encuentran dispuestos en bases de datos
públicas33.
91
Proyecto Descripción Resultado Referencia bibliográfica
Nueve medioambientes: 1040665 lecturas Este estudio comparativo (Dinsdale et al., 2008)
Subterráneo, salino, bacterianas de 45 muestras demuestra que, aunque
marino, agua dulce, coral, distintas y 541979 la diversidad funcional se
microbialitos, pescado, secuencias virales de 41 mantiene en los distintos
animal, mosquito. muestras distintas. Resultó medio ambiente existen
en aproximadamente 150 mil diferencias relativas que
millones de pb de secuencia. permiten predecir las
condiciones biogeoquímicas
PIROSECUENCIACIÓN de cada medio ambiente.
Los resultados revelan
Océano Ártico. 195107 lecturas de 16S ARNr las características (Galand, Casamayor,
Ocho muestras en de arqueas de 8 muestras biogeográficas de las Kirchman, Potvin, y Lovejoy,
distintas localizaciones y con una media de 24388 arqueas marinas del ártico 2009).
profundidades lecturas por muestra. y como ciertos tipos de
arqueas dominan en las
PIROSECUENCIACIÓN distintas profundidades del
océano ártico.
Los datos revelaron que
Cinco manantiales 14000 a 15000 lecturas por ciertos filos predominan (Inskeep et al., 2010).
geotermales del parque muestra. según las condiciones
nacional de Yellowstone de cada manantial. Las
con distintas propiedades SANGER actividades enzimáticas
fisicoquímicas. que encontraron
indican cuales son las
funciones importantes
en cada medioambiente
especialmente actividades
relacionados con el
transporte de electrones.
92
Conceptos en Ciencias Ómicas
Estudios Metagenómicos
93
5.3.1. Estudios metagenómicos mediante el enfoque de amplificación de gen
marcador o metagenómica dirigida
I. Preprocesamiento de lecturas
94
Conceptos en Ciencias Ómicas
En este paso se emplean las lecturas para construir o ensamblar contigs, que permitan
obtener secuencias lo suficientemente confiables que cubran parcial o totalmente el
genoma de los microorganismos analizados. Las secuencias generadas en este paso sirven
de suministro para la detección de marcos abiertos de lectura ORFs, es decir, las zonas
del genoma que contienen secuencias que codifican genes. Este paso reside en una tarea
de gran requerimiento computacional, debido a los altos recursos de procesamiento de
memoria que requieren los diferentes algoritmos dedicados al ensamblaje, los cuales
disponen de dos estrategias: ensamblaje basado en referencia o ensamblaje de novo.
La elección de alguno de ellos depende del conjunto de datos que será analizado y las
necesidades específicas de la pregunta de investigación. El ensamblaje de novo, se refiere
al ensamblaje de secuencias contiguas largas o contigs sin la utilización de un genoma
conocido. Contrario al ensamblaje de referencia que emplea uno o más genomas de
referencia para realizar la creación de contigs.
Seguido del ensamblaje de los contigs y la predicción de los ORFs, se encuentra el paso
de la asignación funcional de las secuencias mediante: (a) predicción de funciones al
realizar la identificación de características de interés dentro de los genes como dominios
conservados, motivos o patrones funcionales empleando diferentes bases de datos de
proteínas curadas; y (b) la asignación funcional de genes putativos, la cual se basa en la
búsqueda de secuencias homólogas en bases de datos curadas de proteínas. Gracias a la
predicción de genes, secuencias peptídicas o enzimas de las secuencias metagenómicas
es posible realizar el análisis del potencial metabólico de las comunidades microbianas
estudiadas.
Existen diferentes herramientas tales como MG-RAST (Meyer, Paarmann, D’Souza, &
Etal., 2008), IMG/M (Markowitz et al., 2012), FragGeneScan (Rho, Tang & Ye, 2010),
MetaGeneMark (Zhu, Lomsadze & Borodovsky, 2010), Metagene (Noguchi, Park & Takagi,
2006) y Orphelia (Hoff, Lingner, Meinicke & Tech, 2009), desarrolladas para la clasificación
de tramos de secuencia, tanto codificantes o no codificantes. Adicionalmente, encontramos
bases de datos de referencia ampliamente utilizadas para obtener anotaciones para el
conjunto de datos metagenómicos como: KEGG, SEED, COG/KOG, PFAM y TIGRFAM
(Oulas et al., 2015).
95
diferentes herramientas para lograr esta labor, dentro de las que cabe resaltar: Phylopythia,
S-GSOM, PCAHIER, TACAO, IMG/M, MG-RAST, Mothur, MEGAN, QIIME, TANGO, CARMA,
SOrt-ITEMS, MetaPhyler, PhymmBL and MetaCluster (Neelakanta & Sultana, 2013).
Un estudio de metagenómica contiene una gran cantidad de datos que requieren ser
cuidadosamente evaluados utilizando métodos estadísticos apropiados. Por este motivo,
existen diferentes herramientas bioinformáticas como MOTHUR (Schloss et al., 2009),
QIIME (Caporaso et al., 2010), MEGAN (Huson, Auch, Qi & Schuster, 2007), que permiten
llevar a cabo:
96
Conceptos en Ciencias Ómicas
5.4. Referencias
Andrews, S. (2010). FastQC: A quality control tool for high throughput sequence data.
Recuperado de //www.bioinformatics.babraham.ac.uk/projects/fastqc/.
Caporaso, J. G., Kuczynski, J., Stombaugh, J., Bittinger, K., Bushman, F. D., Costello,
E. K., Knight, R…. (2010). QIIME allows analysis of high-throughput community
sequencing data. Nature Methods, 7(5), 335– 6. Recuperado de http://www.nature.
com/naturemethods/.%5Cnhttp://dx.doi.org/10.1038/nmeth.f.303.
Cole, J. R., Wang, Q., Fish, J. A., Chai, B., McGarrell, D. M., Sun, Y., & Tiedje, J. M. (2014).
Ribosomal Database Project: Data and tools for high throughput rRNA analysis.
Nucleic Acids. Recuperado de https://doi.org/10.1093/nar/gkt1244.
Dinsdale, E. A., Edwards, R. A., Hall, D., Angly, F., Breitbart, M., Brulc, J. M., Rohwer,
F…(2008). Functional metagenomic profiling of nine biomes. Nature. Recuperado de
https://doi.org/10.1038/nature06810.
Edgar, R. C. (2010). Search and clustering orders of magnitude faster than BLAST.
Bioinformatics.Recuperado de https://doi.org/10.1093/bioinformatics/btq461.
Federhen, S. (2012). The NCBI Taxonomy. Nucleic Acids Res. DOI: https://doi.
org/10.1093/nar/gkr1178.
Galand, P. E., Casamayor, E. O., Kirchman, D. L., Potvin, M., & Lovejoy, C. (2009).
Unique archaeal assemblages in the Arctic Ocean unveiled by massively parallel tag
sequencing. The ISME Journal. DOI: https://doi.org/10.1038/ismej.2009.23.
Gilbert, J. A., Jansson, J. K., & Knight, R. (2014). The Earth Microbiome project:
successes and aspirations. BMC Biology, 12(1), 69.DOI: https://doi.org/10.1186/
s12915-014-0069-1.
Handelsman, J., Rondon, M. R., Brady, S. F., Clardy, J., & Goodman, R. M. (1998).
Molecular biological access to the chemistry of unknown soil microbes: a new
frontier for natural products. Chemistry & Biology. DOI:https://doi.org/10.1016/
S1074-5521(98)90108-9.
HannonLab. (2014). FASTX toolkit.
Hoff, K. J., Lingner, T., Meinicke, P., & Tech, M. (2009). Orphelia: Predicting genes
in metagenomic sequencing reads. Nucleic Acids Research. DOI: https://doi.
org/10.1093/nar/gkp327
Huson, D. H., Auch, A. F., Qi, J., & Schuster, S. C. (2007). MEGAN analysis of
metagenomic data MEGAN analysis of metagenomic data. Genome Research. DOI:
https://doi.org/10.1101/gr.5969107.
Inskeep, W. P., Rusch, D. B., Jay, Z. J., Herrgard, M. J., Kozubal, M. A., Richardson, T.
H., Frazier, M… (2010). Metagenomes from high-temperature chemotrophic systems
reveal geochemical controls on microbial community structure and function. PLoS
ONE. DOI: https://doi.org/10.1371/journal.pone.0009773.
Li, M., Copeland, A., & Han, J. (2011). DUK – A Fast and Efficient Kmer Matching Tool.
Lawrence Berkeley National Laboratory. LBNL Paper LBNL-4516E-Poster P.
Li, W., & Godzik, A. (2006). Cd-hit: A fast program for clustering and comparing
large sets of protein or nucleotide sequences. Bioinformatics. DOI: https://doi.
org/10.1093/bioinformatics/btl158.
97
Markowitz, V. M., Chen, I. M. A., Chu, K., Szeto, E., Palaniappan, K., Grechkin, Y.,
Kyrpides, N. C… (2012). IMG/M: The integrated metagenome data management and
comparative analysis system. Nucleic Acids Research. DOI:https://doi.org/10.1093/
nar/gkr975.
McDonald, D., Price, M. N., Goodrich, J., Nawrocki, E. P., DeSantis, T. Z., Probst, A.,
Hugenholtz, P…(2012). An improved Greengenes taxonomy with explicit ranks for
ecological and evolutionary analyses of bacteria and archaea. The ISME Journal.
DOI: https://doi.org/10.1038/ismej.2011.139.
Meyer, F., Paarmann, D., D’Souza, M., & Etal. (2008). The metagenomics RAST
server—a public resource for the automatic phylo- genetic and functional analysis of
metagenomes. BMC Bioinformatics. DOI:https://doi.org/10.1186/1471-2105-9-386.
Mukherjee, S., Huntemann, M., Ivanova, N., Kyrpides, N. C., & Pati, A. (2015). Large-
scale contamination of microbial isolate genomes by Illumina PhiX control. Standards
in Genomic Sciences. DOI:https://doi.org/10.1186/1944-3277-10-18.
Neelakanta, G., & Sultana, H. (2013). The Use of Metagenomic Approaches to Analyze
changes in Microbial communities. Microbiology Insights, 6, 37– 48. DOI:https://
doi.org/10.4137/MBI.S10819.
Nelson, K. E., Weinstock, G. M., Highlander, S. K., Worley, K. C., Creasy, H. H., Wortman,
J. R., Zhu, D… (2010). A Catalog of Reference Genomes from the Human Microbiome.
Science. DOI:https://doi.org/10.1126/science.1183605.
Nesme, J., Achouak, W., Agathos, S. N., Bailey, M., Baldrian, P., Brunel, D., Bodelier,
P…(2016). Back to the Future of Soil Metagenomics Edited by . 7(February), 1–5.
DOI:https://doi.org/10.3389/fmicb.2016.00073.
Noguchi, H., Park, J., & Takagi, T. (2006). MetaGene: Prokaryotic gene finding from
environmental genome shotgun sequences. Nucleic Acids Research. DOI:https://
doi.org/10.1093/nar/gkl723.
Oulas, A., Pavloudi, C., Polymenakou, P., Pavlopoulos, G. A., Papanikolaou, N.,
Kotoulas, G., Iliopoulos, I…(2015). Metagenomics: Tools and insights for analyzing
next-generation sequencing data derived from biodiversity studies. Bioinformatics
and Biology Insights. DOI:https://doi.org/10.4137/BBI.S12462.
Pylro, V. S., Roesch, L. F. W., Ortega, J. M., do Amaral, A. M., Tola, M. R., Hirsch, P.
R., Azevedo, V…(2014). Brazilian Microbiome Project: Revealing the Unexplored
Microbial Diversity-Challenges and Prospects. Microbial Ecology, 67(2), 237–241.
DOI:https://doi.org/10.1007/s00248-013-0302-4.
Rho, M., Tang, H., & Ye, Y. (2010). FragGeneScan: Predicting genes in short and error-
prone reads. Nucleic Acids Research.DOI: https://doi.org/10.1093/nar/gkq747.
Rusch, D. B., Halpern, A. L., Sutton, G., Heidelberg, K. B., Williamson, S., Yooseph, S.,
Venter, J. C…(2007). The Sorcerer II Global Ocean Sampling expedition: Northwest
Atlantic through eastern tropical Pacific. PLoS Biology.DOI: https://doi.org/10.1371/
journal.pbio.0050077.
Schloss, P. D., Westcott, S. L., Ryabin, T., Hall, J. R., Hartmann, M., Hollister, E. B., Weber,
C. F…(2009). Introducing mothur: Open-source, platform-independent, community-
supported software for describing and comparing microbial communities. Applied
and Environmental Microbiology. DOI:https://doi.org/10.1128/AEM.01541-09.
98
Conceptos en Ciencias Ómicas
Tyson, G. W., Chapman, J., Hugenholtz, P., Allen, E. E., Ram, R. J., Richardson, P. M.,
Banfield, J. F…(2004). Community structure and metabolism through reconstruction
of microbial genomes from the environment. Nature.DOI: https://doi.org/10.1038/
nature02340.
Venter, J. C. (2004). Environmental Genome Shotgun Sequencing of the Sargasso Sea.
Science. DOI:https://doi.org/10.1126/science.1093857.
Vogel, T. M., Simonet, P., Jansson, J. K., Hirsch, P. R., Tiedje, J. M., van Elsas, J. D.,
Philippot, L…(2009). TerraGenome: a consortium for the sequencing of a soil
metagenome. Nat Rev Micro, 7(4), 252. Recuperado de http://dx.doi.org/10.1038/
nrmicro2119.
Wooley, J. C., Godzik, A., & Friedberg, I. (2010). A primer on metagenomics. PLoS
Computational Biology. DOI:https://doi.org/10.1371/journal.pcbi.1000667.
Yilmaz, P., Parfrey, L. W., Yarza, P., Gerken, J., Pruesse, E., Quast, C., Glöckner, F. O…
(2014). The SILVA and “all-species Living Tree Project (LTP)” taxonomic frameworks.
Nucleic Acids Research. DOI:https://doi.org/10.1093/nar/gkt1209.
Zhu, W., Lomsadze, A., y Borodovsky, M. (2010). Ab initio gene identification in
metagenomic sequences. Nucleic Acids. Recuperado de https://doi.org/10.1093/
nar/gkq275.
99
6. TRANSCRIPTÓMICA
KELLY BOTERO OROZCO
ANDREA GONZÁLEZ MUÑOZ
Esta naturaleza variable del transcriptoma en el espacio y tiempo hace que su estudio,
denominado transcriptómica, nos permita conocer diferencias cuantitativas y cualitativas
entre múltiples moléculas de ARNm (Tan, Ipcho, Trengove, Oliver & Solomon, 2009) para
entender los elementos funcionales del genoma y los constituyentes de las redes génicas de
los diferentes tipos y procesos celulares ante determinados eventos inductores (Weake &
Workman, 2010). Así mismo, la transcriptómica provee información que permite catalogar
todos los transcritos de la célula, con el fin de determinar el perfil transcripcional de los
genes, identificar los extremos 5’ y 3’ del genoma e identificar patrones de empalme y
regulación coordinada de los genes (Imadi, Kazi, Ahanger, Gucel & Ahmad, 2015).
100
Conceptos en Ciencias Ómicas
y secuenciación de ARN (Tan et al., 2009; Wang et al., 2009). Antes del avance de las
tecnologías de secuenciación de nueva generación (NGS), el estudio de la expresión
génica se centraba en uno o pocos transcritos a la vez, a través de tecnologías como
Northern Blot, basado en la separación del ARN por peso molecular usando electroforesis
en gel desnaturalizante y su transferencia a un soporte sólido, donde la presencia y la
abundancia del ARN de interés son inferidas con sondas de hibridación (VanGuilder,
Vrana & Freeman, 2008). Otra técnica consiste en la reacción en cadena de la polimerasa
cuantitativa con transcriptasa inversa (RT-qPCR), que utiliza la transcriptasa inversa para
convertir el ARNm en ADN complementario (ADNc), luego amplifica las secuencias de un
gen de interés usando cebadores específicos y permite cuantificar la abundancia de ARNm
mediante la medición de los productos de la amplificación (Becker-André & Hahlbrock,
1989; Noonan et al., 1990).
Por otro lado, la técnica de los microarreglos permite la detección y cuantificación de miles
de transcritos conocidos o putativos de una célula (Schena, Shalon, Davis & Brown, 1995),
mediante la medición de la intensidad de una señal fluorescente emitida en la hibridación
entre el ADNc y una sonda oligo-nucleotídica inmovilizada en una matriz sólida (Pozhitkov,
Tautz & Noble, 2007). Debido a su costo y eficiencia, los microarreglos son aún comúnmente
utilizados por muchos laboratorios alrededor del mundo para diferentes análisis de
expresión génica (Morozova, Hirst & Marra, 2009), entre ellos, la identificación de perfiles
de expresión (Nowrousian, 2007), detección y cuantificación de isoformas y evaluación
de genes relacionados con respuestas a estímulos o a condiciones particulares (Schenk
et al., 2000). No obstante, los microarreglos no permiten la detección de transcritos
desconocidos, ni estudiar la secuencia de los transcritos detectados (Morozova et al.,
2009). Además, la cuantificación de los transcritos puede resultar imprecisa, debido a que
está determinada por la señal fluorescente emitida durante la hibridación.
101
del extremo 3’ o 5’ de un clon de ADNc (Pozhitkov et al., 2007; Bouck & Vision, 2007;
Morozova et al., 2009).
Las ESTs representan típicamente sólo secuencias parciales de los transcritos originales,
incluso, los ensamblajes rara vez cubren los transcritos completos, por lo cual resultan
difíciles de evaluar cuando no existe un genoma de referencia (Bouck & Vision, 2007).
Sumado a esto, debido al costo del método para generar las ESTs, estas no son secuenciadas
con una profundidad suficiente para proporcionar un análisis cuantitativo de la expresión
génica (Tan et al., 2009).
Por otra parte, el Análisis en Serie de la Expresión Génica (SAGE, del inglés Serial
Analysis of Gene Expression) (Velculescu, Zhang, Vogelstein & Kinzler, 1995) se basa en
la secuenciación y cuantificación de oligoetiquetas de 14 o 21 pb que van del extremo
3’ al extremo 5’ del ARNm, y luego se comparan contra bases de datos de ESTs o de
genomas para identificar los correspondientes genes expresados. Los experimentos SAGE
impusieron ventajas sobre los microarreglos, como la capacidad para detectar transcritos
nuevos y obtener mediciones directas de la abundancia de los transcritos detectados.
De igual forma, existen múltiples variantes del SAGE como MicroSAGE (Datson, van der
Perk-de Jong, van den Berg, de Kloet y Vreugdenhil, 1999), SAGE-lite (Peters et al., 1999),
SADE (Virlon et al., 1999), (Virlon et al., 1999), Long-SAGE (Saha et al., 2002), SuperSAGE
(Irie, Matsumura, Terauchi & Saitoh, 2003) y DeepSAGE (Nielsen, Hogh & Emmersen,
2006), que fueron desarrolladas para mejorar la técnica (Tan et al., 2009).
102
Conceptos en Ciencias Ómicas
I. Experimento.
II. Preparación de las librerías y secuenciación.
III. Flujo de análisis bioinformáticos de datos de RNA-Seq.
103
Extracción de ARN Biología
experimental
Análisis de genes
diferencialmente Biología
expresados (DEGs) Anotación estructural de sistemas
del transcriptoma
Análisis de enriquecimiento
Inferencias biológicas
104
Conceptos en Ciencias Ómicas
6.2.1. Experimento
De esta manera, y de acuerdo con las más recientes directrices del proyecto ENCODE34
para las mejores prácticas en RNA-Seq, en el diseño del experimento se debe definir el
número de réplicas biológicas y técnicas que deben ser secuenciadas por cada tratamiento.
Las réplicas experimentales son importantes para evaluar y aislar fuentes de variación en
las medidas de un experimento, con el propósito de controlar el efecto del ruido sobre los
resultados de los análisis y pruebas de hipótesis. Las réplicas biológicas corresponden a
muestras biológicamente diferentes e independientes, que se miden de manera paralela
y aportan una medida de la variación biológica aleatoria que puede ser fuente de ruido.
Por su parte, las réplicas técnicas son mediciones repetidas de una misma muestra y
representan la variación aleatoria y fuente de ruido asociado a aspectos técnicos como
equipos y protocolos (Blainey, Krzywinski & Altman, 2014).
El proyecto ENCODE recomienda incluir dos o más réplicas biológicas. Algunos autores
recomiendan de dos a cuatro (Liu, Zhou, & White, 2013), y otros reportan que menos de
doce réplicas pueden inducir a la identificación tanto de verdaderos negativos como falsos
positivos (Schurch et al., 2016). De otro lado, en términos de réplicas técnicas, ENCODE
menciona que no se requieren réplicas de la misma librería de ARN, excepto en casos
donde se conoce o sospecha de una variabilidad biológica inusualmente alta, en los cuales
es crítico separar la variación técnica de la biológica. A este respecto, estudios de ARNs de
34 Disponible en https://www.encodeproject.org/.
105
baja abundancia pueden requerir un alto número de réplicas biológicas y, eventualmente,
réplicas técnicas, debido a que son por naturaleza más variables que los ARNs de alta
abundancia. En cualquier caso, determinar con cuidado el número de réplicas es clave para
el éxito de un análisis de expresión diferencial (Anders & Huber, 2010; Eduardo et al., 2014;
Soneson & Delorenzi, 2013).
Para la preparación de las librerías de RNA-Seq se requiere la extracción del ARN total de
la muestra y su posterior procesamiento para enriquecer el ARN de interés. Como en todo
experimento de NGS, la calidad e integridad del material genético es clave para garantizar
la calidad de las librerías y de los datos de secuenciación generados. La selección del
protocolo de extracción de ARN total y su posterior estabilización y almacenamiento
es determinante para evitar la degradación de este ácido nucleico inestable y de rápida
degradación, dada su naturaleza transitoria en la célula como molécula mensajera.
Una vez extraído el ARN total de la muestra, se deben emplear protocolos para remover el
ARNr que se encuentra de manera abundante en las células, hasta un 90% del ARN total.
En este capítulo nos centraremos en el estudio del RNA-Seq orientado al ARNm, por ser
la aplicación más ampliamente usada. El enriquecimiento de ARNm a partir de muestras
de eucariotas generalmente implica el enriquecimiento selectivo de estas moléculas por
captura de colas poli(A) o la eliminación del ARNr por degradación. La selección de uno u
otro método depende de la cantidad inicial de ARNm en la muestra, de tal manera que, si se
encuentra en baja proporción con respecto al ARN total, se debe optar por la eliminación del
ARNr. Por su parte, en procariotas, la ausencia de poliadenilación del ARNm hace que sólo
sea viable realizar eliminación del ARNr (Conesa et al., 2016). Finalmente, la preparación de
una librería concluye con la síntesis de ADNc a partir del ARNm a través de la transcriptasa
inversa. Las moléculas de ADNc están ligadas a adaptadores para obtener librerías de
ADNc, que son amplificadas mediante variantes de la PCR. Las librerías son secuenciadas
masivamente y en paralelo con tecnologías NGS (las más empleadas actualmente para
RNA-Seq son Illumina® e Ion TorrentTM), donde millones de secuencias cortas –llamadas
lecturas– son generadas.
106
Conceptos en Ciencias Ómicas
Por otro lado, en años recientes ha sido de interés construir librerías de RNA-Seq ‘hebra-
específicas’, las cuales conservan la información sobre la hebra o cadena de ADN de la cual
se transcribió la molécula de ARN (sentido o antisentido). Esta información es útil para los
análisis de descubrimiento de nuevos transcritos y cuantificación de la expresión, porque
evita confusiones o errores en las estimaciones de abundancia debido al solapamiento de
transcritos (Conesa et al., 2016).
Sumado a los aspectos anteriormente discutidos, otro punto clave para considerar
en un experimento de RNA-Seq es la profundidad de secuenciación (o cobertura de
secuenciación), que corresponde al número de veces que cada nucleótido está representado
en un cierto número de lecturas de longitud dada. En términos generales, una mayor
cobertura disminuye la tasa de error de cada nucleótido en un ensamblaje de secuencias,
no obstante, la selección de una mayor o menor cobertura dependerá del propósito de
estudio y la naturaleza de la muestra de ARN.
107
Después de la secuenciación de las librerías de RNA-Seq, se obtienen las lecturas crudas de
secuenciación. Estas se procesan mediante un flujo de análisis bioinformático que permite
obtener información acerca de los transcritos expresados, los perfiles de expresión y el
potencial metabólico de las muestras analizadas, con el fin de asociar esta información
genética a un fenotipo de interés.
Al igual que para los demás datos de NGS, las lecturas crudas producto de RNA-Seq se
deben someter a control de calidad para determinar la calidad por base secuenciada
y por lectura secuenciada, contenido de A, T, G y C, distribución de la longitud de las
lecturas, presencia de secuencias de adaptadores, secuencias sobrerrepresentadas y
posible contaminación, así como otros sesgos técnicos que pueden afectar el análisis de
los datos. Para datos de secuenciación generados en la plataforma Illumina®, el análisis
de calidad de las lecturas se realiza más comúnmente con el programa FastQC, mientras
que para datos de la plataforma Ion TorrentTM, por ejemplo, se recomienda el programa
MAPQ, debido a las diferencias en codificación de valores de calidad de las bases y otras
características propias de la plataforma de secuenciación. Con base en los reportes de
calidad generados por los dos programas anteriormente mencionados, generalmente
se determina si las lecturas crudas requieren de un preprocesamiento antes de pasar a
ensamblaje y análisis posteriores. Este paso consiste en la eliminación de secuencias de
adaptadores, corte (trimming) y filtrado de bases de baja calidad, entre otros, para lo cual
se emplean comúnmente programas como Trimmomatic, Cutadapt y FastX-Toolkit.
108
Conceptos en Ciencias Ómicas
En caso de contar con un genoma o transcriptoma de referencia, las lecturas pueden ser
mapeadas a la referencia disponible, utilizando programas como BWA, Bowtie o Bowtie2,
MAQ, TopHat, STAR, entre otros. En el mapeo de lecturas de RNA-Seq contra un genoma
de referencia, los alineadores empleados para este fin, tales como TopHat y STAR, cuentan
con algoritmos optimizados para mapear lecturas divididas (denominadas splice o junction
reads en inglés), las cuales mapean en el límite entre dos exones y por tanto resultan
fragmentadas por una región intrónica en el genoma de referencia. Esto es problemático
computacionalmente para alineadores como BWA, Bowtie y MAQ, porque interfieren en
la inserción de saltos o gaps tan largos como aquellos correspondientes a empalmes
(junctions).
109
requiere, en consecuencia, del mapeo de las lecturas de secuenciación contra un genoma
o transcriptoma de referencia. En caso de no existir uno, se utiliza como referencia un
transcriptoma ensamblado de novo a partir de las mismas lecturas.
Normalizar por el tamaño de librería implica llevar a una misma escala todas las
librerías correspondientes a cada tratamiento para evitar falsos positivos, dado que
una librería con mayor profundidad de secuenciación tiene más probabilidad de tener
genes diferencialmente sobreexpresados, respecto a otra librería, sin ser consecuencia
del tratamiento. Además, los transcritos más afectados por una baja profundidad de
secuenciación serán aquellos con bajos niveles de expresión y longitudes reducidas, debido
a que un transcrito de mayor longitud presentará más probabilidad de ser secuenciado y
de tener un número mayor de lecturas alineadas que uno de menor longitud, implicando
una mayor probabilidad de ser detectado como un DEG, sin ser biológicamente real (Dillies
et al., 2013; Oshlack & Wakefield, 2009).
Existen diferentes métodos de normalización, los más utilizados son la normalización por
tamaño de librería y por longitud del fragmento o transcrito (Eduardo et al., 2014). Un
método que realiza ambas normalizaciones es Fragments Per Kilobase of Transcript Per
Million Mapped Reads (FPKM) o Reads per Kilobase of Transcript per million mapped reads
(RPKM); la única diferencia entre ambos, es que el primero utiliza fragmentos y el segundo
lecturas. Se emplea generalmente la normalización FPKM cuando se tienen librerías tipo
PE, debido a que estas tienen dos lecturas por fragmento. Una vez normalizados los datos
por estos métodos, es posible cuantificar niveles de transcriptos y realizar comparaciones
más precisas entre las muestras (Mortazavi et al., 2008).
110
Conceptos en Ciencias Ómicas
Debido al gran número de genes presentes en cada ensayo de RNA-Seq, se requiere una
corrección para las múltiples comparaciones (una por cada gen entre dos tratamientos),
para evitar falsos positivos, ya que a medida que aumentan las comparaciones, aumenta
la probabilidad de encontrar diferencias debidas al azar. Lo anterior hace referencia
al concepto de tasa de falsos descubrimientos (FDR), el cual es ampliamente utilizado
para controlar este tipo de error. La estimación correcta del FDR requiere de valores de
significancia precisos, basados en una distribución teórica de los datos.
Por consiguiente, si dicha distribución teórica no se cumple será difícil rechazar falsos
positivos de forma acertada. Por eso los métodos usados actualmente no asumen una
distribución normal de los datos, la cual no se cumple para datos de RNA-Seq, sino que
se basan en una distribución de Poisson (Marioni, Mason, Mane, Stephens & Gilad,
2008) o una binomial negativa (Anders & Huber, 2010) para controlar mejor la sobre-
dispersión observada entre réplicas técnicas y biológicas, respectivamente. Tal es el caso
de programas paramétricos como EdgeR y DESeq2, que constituyen dos de los paquetes
más ampliamente usados en análisis de expresión diferencial y hacen parte del programa
estadístico R. Estos programas asumen una distribución teórica de Poisson o binomial
negativa de los datos y basan sus cálculos en una estimación de la relación existente entre
media y varianza. Otros programas comúnmente usados para expresión diferencial a partir
de datos de RNA-Seq son: PoissonSeq, baySeq y Cuffdiff de la Suite Tuxedo (Rapaport et
al., 2013; Trapnell et al., 2012).
111
sub o sobrerrepresentadas. También se pueden determinar vías metabólicas de KEGG
donde pueden estar participando los genes y a través de las cuales se puede identificar
si hay una expresión coordinada de determinados genes (mediante la construcción de
redes de coexpresión génica) y los módulos funcionales enriquecidos en dichas redes,
entre otros análisis derivados. Toda esta información obtenida a partir de datos de RNA-
Seq y la identificación de genes diferencialmente expresados permite conocer un perfil
transcripcional y un panorama de los procesos celulares e interacciones génicas que
pueden estar ocurriendo en una célula o tejido bajo una condición o momento dado.
112
Conceptos en Ciencias Ómicas
6.3. Referencias
Adams, M. D., Kelley, J. M., Gocayne, J. D., Dubnick, M., Polymeropoulos, M. H., Xiao,
H., Moreno, R. F…(1991). Complementary DNA sequencing: expressed sequence
tags and human genome project. Science, 252(5013), 1651–6.
Anders, S., & Huber, W. (2010). Differential expression analysis for sequence count
data. Genome Biology, 11(10), R106.DOI: https://doi.org/10.1186/gb-2010-11-
10-r106.
Becker-André, M., & Hahlbrock, K. (1989). Absolute mRNA quantification using the
polymerase chain reaction (PCR). A novel approach by a PCR aided transcript
titration assay (PATTY). Nucleic Acids Research, 17(22), 9437–46.
Blainey, P., Krzywinski, M., & Altman, N. (2014). Points of Significance: Replication.
Nat Meth, 11(9), 879–880. Recuperado de http://dx.doi.org/10.1038/nmeth.3091.
Bouck, A., & Vision, T. (2007). The molecular ecologist’s guide to expressed sequence
tags. Molecular Ecology, 16(5), 907–924.DOI: https://doi.org/10.1111/j.1365-
294X.2006.03195.x
Brown, T. (2002). Transcriptomes and Proteomes. En Genomes. (Garland Sc). Oxford.
Bullard, J. H., Purdom, E., Hansen, K. D., & Dudoit, S. (2010). Evaluation of statistical
methods for normalization and differential expression in mRNA-Seq experiments.
BMC Bioinformatics, 11, 94. DOI:https://doi.org/10.1186/1471-2105-11-94.
Cloonan, N., Forrest, A. R. R., Kolle, G., Gardiner, B. B. A., Faulkner, G. J., Brown, M.
K., Grimmond, S. M…(2008). Stem cell transcriptome profiling via massive-scale
mRNA sequencing. Nature Methods, 5(7), 613– 619. DOI:https://doi.org/10.1038/
nmeth.1223.
Conesa, A., Madrigal, P., Tarazona, S., Gomez-Cabrero, D., Cervera, A., McPherson, A.,
Mortazavi, A…(2016). A survey of best practices for RNA-Seq data analysis. Genome
Biology, 17(1), 13. DOI:https://doi.org/10.1186/s13059-016-0881-8.
Datson, N. A., van der Perk-de Jong, J., van den Berg, M. P., de Kloet, E. R., & Vreugdenhil,
E. (1999). MicroSAGE: a modified procedure for serial analysis of gene expression in
limited amounts of tissue. Nucleic Acids Research, 27(5), 1300–7.
Dillies, M.-A., Rau, A., & Aubert, J. (2013). A comprehensive evaluation of normalization
methods for Illumina high-throughput RNA sequencing data analysis. Briefings in
Bioinformatics, 14(6), 671– 683. DOI: http://dx.doi.org/10.1093/bib/bbs046.
Eduardo, A., Cubillos, R., Jiménez, L. P., Sc, M., Jimena, A., Giraldo, B., & Ph, D. (2014).
Una revisión para no expertos rna-Seq Data Analysis in Prokaryotes. A Review for
Non-experts, 19(2), 131–142.
Finotello, F., & Di Camillo, B. (2015). Measuring differential gene expression with RNA-
Seq: challenges and strategies for data analysis. Briefings in Functional Genomics,
14(2), 130–142.DOI: https://doi.org/10.1093/bfgp/elu035.
Imadi, S. R., Kazi, A. G., Ahanger, M. A., Gucel, S., & Ahmad, P. (2015). Plant
transcriptomics and responses to environmental stress: an overview. Journal of
Genetics, 94(3), 525–537.DOI: https://doi.org/10.1007/s12041-015-0545-6.
113
Irie, T., Matsumura, H., Terauchi, R., & Saitoh, H. (2003). Serial Analysis of Gene
Expression (SAGE) of Magnaporthe grisea : genes involved in appressorium
formation. Molecular Genetics and Genomics, 270(2), 181– 189. https://doi.
org/10.1007/s00438-003-0911-6.
Liu, Y., Zhou, J., & White, K. P. (2013). RNA-Seq differential expression studies:
more sequence, or more replication? Bioinformatics, 30(3), 301– 304. https://doi.
org/10.1093/bioinformatics/btt688.
Marioni, J. C., Mason, C. E., Mane, S. M., Stephens, M., & Gilad, Y. (2008). RNA-Seq: An
assessment of technical reproducibility and comparison with gene expression arrays.
Genome Research, 18(9), 1509– 1517. DOI:https://doi.org/10.1101/gr.079558.108.
Martin, L. B. B., Fei, Z., Giovannoni, J. J., & Rose, J. K. C. (2013). Catalyzing plant
science research with RNA-Seq. Frontiers in Plant Science, 66.DOI: https://doi.
org/10.3389/fpls.2013.00066.
Morozova, O., Hirst, M., & Marra, M. (2009). Applications of new sequencing
technologies for transcriptome analysis. Annual Review of Genomics, 10, 135– 151.
DOI:https://doi.org/10.1146/annurev-genom-082908-145957.
Mortazavi, A., Williams, B. A., McCue, K., Schaeffer, L., & Wold, B. (2008). Mapping
and quantifying mammalian transcriptomes by RNA-Seq. Nature Methods, 5(7),
621–628.DOI: https://doi.org/10.1038/nmeth.1226.
Nielsen, K. L., Hogh, A. L., & Emmersen, J. (2006). DeepSAGE--digital transcriptomics
with high sensitivity, simple experimental protocol and multiplexing of samples.
Nucleic Acids Research, 34(19), e133– e133. DOI:https://doi.org/10.1093/nar/gkl714.
Noonan, K. E., Beck, C., Holzmayer, T. A., Chin, J. E., Wunder, J. S., Andrulis, I. L…
(1990). Quantitative analysis of MDR1 (multidrug resistance) gene expression in
human tumors by polymerase chain reaction. Proceedings of the National Academy
of Sciences of the United States of America, 87(18), 7160–4.
Nowrousian, M. (2007). Of patterns and pathways: microarray technologies for the
analysis of filamentous fungi. Fungal Biology Reviews, 21(4), 171– 178. DOI:https://
doi.org/10.1016/j.fbr.2007.09.002.
Okoniewski, M. J., & Miller, C. J. (2006). Hybridization interactions between probesets
in short oligo microarrays lead to spurious correlations. BMC Bioinformatics, 7(1),
276. DOI:https://doi.org/10.1186/1471-2105-7-276.
Oshlack, A., & Wakefield, M. J. (2009). Transcript length bias in RNA-Seq data
confounds systems biology. Biology Direct, 4, 14. DOI:https://doi.org/10.1186/1745-
6150-4-14.
Peters, D. G., Kassam, A. B., Yonas, H., O’Hare, E. H., Ferrell, R. E., & Brufsky, A. M.
(1999). Comprehensive transcript analysis in small quantities of mRNA by SAGE-lite.
Nucleic Acids Research, 27(24), e39.
Pozhitkov, A. E., Tautz, D., & Noble, P. A. (2007). Oligonucleotide microarrays: Widely
applied - Poorly understood. Briefings in Functional Genomics and Proteomics, 6(2),
141–148. DOI: https://doi.org/10.1093/bfgp/elm014.
114
Conceptos en Ciencias Ómicas
Rapaport, F., Khanin, R., Liang, &., Pirun, M., Krek, A., Zumbo, P., Betel, D…(2013).
Comprehensive evaluation of differential gene expression analysis methods for
RNA-Seq data. Genome Biology, 14(9), 3158. DOI:https://doi.org/10.1186/gb-2013-
14-9-r95.
Royce, T. E., Rozowsky, J. S., & Gerstein, M. B. (2007). Toward a universal microarray:
prediction of gene expression through nearest-neighbor probe sequence
identification. Nucleic Acids Research, 35(15), e99. DOI:https://doi.org/10.1093/
nar/gkm549.
Saha, S., Sparks, A. B., Rago, C., Akmaev, V., Wang, C. J., Vogelstein, B., Velculescu, V.
E…(2002). Using the transcriptome to annotate the genome. Nature Biotechnology,
20(5), 508–512. DOI: https://doi.org/10.1038/nbt0502-508.
Schena, M., Shalon, D., Davis, R. W., & Brown, P. O. (1995). Quantitative monitoring
of gene expression patterns with a complementary DNA microarray. Science,
270(5235), 467–70.
Schenk, P. M., Kazan, K., Wilson, I., Anderson, J. P., Richmond, T., Somerville, S. C.,
& Manners, J. M. (2000). Coordinated plant defense responses in Arabidopsis
revealed by microarray analysis. Proceedings of the National Academy of Sciences
of the United States of America, 97(21), 11655–60. DOI:https://doi.org/10.1073/
pnas.97.21.11655.
Schurch, N. J., Schofield, P., Gierliński, M., Cole, C., Sherstnev, A., Singh, V., Barton, G.
J…(2016). How many biological replicates are needed in an RNA-Seq experiment and
which differential expression tool should you use? RNA, 22(6), 839–851. DOI:https://
doi.org/10.1261/rna.053959.115.
Sims, D., Sudbery, I., Ilott, N. E., Heger, A., & Ponting, C. P. (2014). Sequencing depth
and coverage: key considerations in genomic analyses. Nature Reviews. Genetics,
15(2), 121–32. DOI: https://doi.org/10.1038/nrg3642.
Soneson, C., & Delorenzi, M. (2013). A comparison of methods for differential
expression analysis of RNA-Seq data. BMC Bioinformatics, 14(1), 91. DOI:https://
doi.org/10.1186/1471-2105-14-91.
Soto, J., & Lopez, C. (2012). RNA-Seq : herramienta transcriptómica útil para el estudio
de interacciones planta-patógeno. Fitosanidas, 16(2), 101–113.
Strickler, S. R., Bombarely, A., & Mueller, L. a. (2012). Designing a transcriptome next-
generation sequencing project for a nonmodel plant species. American Journal of
Botany, 99(2), 257–66. DOI:https://doi.org/10.3732/ajb.1100292.
Tan, K. C., Ipcho, S. V. S., Trengove, R. D., Oliver, R. P., & Solomon, P. S. (2009).
Assessing the impact of transcriptomics, proteomics and metabolomics on fungal
phytopathology. Molecular Plant Pathology, 10(5), 703–715. DOI:https://doi.
org/10.1111/j.1364-3703.2009.00565.x.
Trapnell, C., Roberts, A., Goff, L., Pertea, G., Kim, D., Kelley, D. R., Pachter, L…(2012).
Differential gene and transcript expression analysis of RNA-Seq experiments with
TopHat and Cufflinks. Nature Protocols, 7(3), 562– 578. DOI:https://doi.org/10.1038/
nprot.2012.016.
115
VanGuilder, H. D., Vrana, K. E., & Freeman, W. M. (2008). Twenty-five years of
quantitative PCR for gene expression analysis. BioTechniques, 44(5), 619– 626.
DOI:https://doi.org/10.2144/000112776.
Velculescu, V. E., Zhang, L., Vogelstein, B., & Kinzler, K. W. (1995). Serial analysis of
gene expression. Science, 270(5235), 484–7.
Virlon, B., Cheval, L., Buhler, J. M., Billon, E., Doucet, A., & Elalouf, J. M. (1999). Serial
microanalysis of renal transcriptomes. Proceedings of the National Academy of
Sciences of the United States of America, 96(26), 15286–91.
Wang, Z., Gerstein, M., & Snyder, M. (2009). RNA-Seq: a revolutionary tool for
transcriptomics. Nature Reviews. Genetics, 10(1), 57–63. DOI:https://doi.
org/10.1038/nrg2484.
Weake, V. M., & Workman, J. L. (2010). Inducible gene expression: diverse regulatory
mechanisms. Nature Reviews. Genetics, 11(6), 426–37. DOI:https://doi.org/10.1038/
nrg2781.
116
Conceptos en Ciencias Ómicas
7. METABOLÓMICA
MARTHA ZULUAGA
En este sentido, esta ciencia emergente integra tres áreas del conocimiento como son: la
biología, la química y la bioinformática. Parte de una pregunta biológica, la cual es estudiada
a través de experimentación e instrumentación química, y finalmente, los resultados
son analizados a través de las herramientas bioinformáticas (Figura 7.1). Así mismo, los
estudios metabolómicos se pueden dividir en tres grandes procesos: el primero tiene que
ver con la muestra, la recolección, el tratamiento químico y el análisis instrumental para
la adquisición de datos espectrales (por espectrometría de masas o resonancia magnética
nuclear). En segundo lugar, el tratamiento bioinformático y quimiométrico de las señales y
en tercer lugar, el tratamiento estadístico para la interpretación biológica.
117
Pregunta Biológica
Planteamiento del probleme y
condiciones experimentales
Diseño de Experimentos
1 3
Obtención de muestras Análisis instrumental
2 Análisis quimico
Preparación de las muestras RMN MS
Detección de Picos: 1 3
Normalización
Deconvolución de señales
Procesamieno de datos
2 4
Alineación Identificación
Interpretación biológica
7. 1. Diseño experimental
118
Conceptos en Ciencias Ómicas
El análisis estadístico de los datos se puede abordar con un modelo de regresión multivariado
y un análisis discriminante. Hay distintos estudios que presentan análisis de varianzas con
pruebas post hoc para la determinación de diferencias entre las variables en varios grupos
experimentales, pero hay que tener presente que los metabolitos (variables) son datos
altamente correlacionados. Por lo tanto, se debe tener especial cuidado y certeza que los
datos analizados no presentan colinealidad.
119
expuestos). Generalmente se realiza mediante algoritmos supervisados de aprendizaje de
máquina o modelos de regresión multivariada.
35 Disponible en https://xcmsonline.scripps.edu.
36 Disponible en mzmine.github.io/.
37 Disponible en https://www.bioconductor.org/packages/release/bioc/html/MAIT.html.
120
Conceptos en Ciencias Ómicas
La preparación de la muestra depende, no sólo del origen y tipo de muestra, sino también
del tipo de estudio metabolómico a llevar a cabo (dirigido o no dirigido), y posteriormente
de la técnica instrumental a utilizar (LC/MS, GC/MS o NMR). La preparación de la muestra
de un estudio dirigido busca separar las sustancias a analizar y reducir al máximo las
interferencias de la matriz. Por otro lado, en un estudio no dirigido se debe tener cuidado
de no alterar la composición de la muestra, es decir, se debe cuidar la integridad de todos
los metabolitos presentes en la muestra. Dependiendo del origen de las muestras estas
pueden ser desde los metabolitos endógenos de las células (Zuluaga et al., 2016) hasta
muestras ambientales. Esta gran variación de matrices representa la gran diversidad en
las opciones para la elección del método. Sin embargo, hay aspectos en común que el
tratamiento de la muestra requiere abordar. Por ejemplo, remover macromoléculas,
disminuir o eliminar compuestos que puedan generar un efecto matriz de supresión de
iones, y remover interferencias que puedan afectar la adquisición de datos. Una revisión
más detallada de la preparación de muestras de diferentes matrices puede ser encontrada
en la revisión de Zuluaga et al., (2016).
121
OMe
O O HCI N
R OH NH2 60 C/15min
R OH
OMe
37 C OMe
N O O
Si N H
30min Si
R OH F3C N F3C N
R O
122
Conceptos en Ciencias Ómicas
Por otro lado, los estudios basados en la espectrometría de masas se han vuelto más
populares debido a la disponibilidad en los laboratorios, la versatilidad y los costos de
mantenimiento. El tipo de ionización más comúnmente utilizada en esta revisión fue la
ionización por electrospray (ESI) combinada con la técnica cromatográfica líquida (LC/
MS TOF), en tanto esta provee una buena sensibilidad y selectividad por un amplio rango
de compuestos. Sin embargo, una de las limitaciones de los estudios metabolómicos en
los que se utiliza cromatografía líquida, es el procesamiento de los datos, ya que consume
mucho tiempo por las librerías de espectros basadas en tiempos de retención, además son
limitadas y generalmente deben ser construidas por cada laboratorio, lo que hace que se
incrementen los costos por la consecución de estándares.
Finalmente, los estudios basados en cromatografía gaseosa son muy populares, en cuanto
el costo total por muestra puede llegar a ser menor que las otras técnicas y el libre acceso a
librerías y repositorios de espectros hace que el procesamiento de los datos sea más fácil,
asequible y transparente. La limitación se sitúa en el procesamiento de muestra, dado que
estas deben ser derivatizadas para convertirlas en compuestos volátiles, lo cual puede
aumentar el error experimental y afectar la reproducibilidad. No obstante, hay protocolos
generales establecidos para el tratamiento de muestras para estudios metabolómicos.
123
química ocurre mediante una reacción bimolecular, en la que el metano es sometido a
presiones de 1mm Hg generando iones metonio (CH5+) que son puestos en contacto con
las moléculas de la muestra generando la ionización de las mismas.
Ionización
Por desorción
Fase de Vapor
MALDI
Ionización
química
SELDI
Por otro lado, la ionización por electrospray se realiza a presión atmosférica, haciendo
pasar la muestra más el solvente por un capilar metálico al cual al final se le aplica una
corriente de 3-4 KV. Esto genera una niebla de finas gotas cargadas eléctricamente, lo
que facilita la evaporación del solvente y las moléculas pueden quedar cargadas positiva
o negativamente. La ionización en superficie es utilizada para compuestos de baja
volatilidad, en los que la ionización ocurre sobre una superficie a elevadas temperaturas.
La ionización FAB se da a través de átomos de xenón o cesio que son impactados sobre
una matriz, la cual cede un protón que ionizaría la muestra que está embebida en la matriz.
Esta se utiliza generalmente para moléculas polares y de alto peso molecular. La ionización
DART consta de un haz formado por átomos de helio producidos por descarga eléctrica
que impacta la muestra y transfiere protones a los analitos, no requiere un solvente matriz.
Finalmente, la ionización asistida por láser, consiste en la pulsación de ondas de luz que
impactan una matriz en el caso MALDI (ionización por desorción con láser asistida por una
matriz) para generar el agente ionizante, y por ende, ionizar los metabolitos. En el caso
SELDI (ionización por desorción con láser sobre una superficie), los analitos se fijan sobre
124
Conceptos en Ciencias Ómicas
una superficie sólida por adsorción, la cual se recubre con un solvente que actúa como una
matriz que posteriormente es irradiado con el láser para generar los agentes ionizantes.
Respecto a los analizadores de masas, tienen como objetivo el separar los iones generados
en el proceso de ionización. Estos se pueden clasificar en dos grandes grupos: los
analizadores de barrido y los analizadores de transmisión de iones simultáneo. Dentro
del primer grupo se encuentran el analizador magnético y el cuadrupolar. En el segundo
grupo se encuentran el analizador de trampa de iones, el tiempo de vuelo y el analizador
de transformada de Fourier (Figura 7.4). La diferencia que existe entre los analizadores
se puede resumir en tres parámetros: la resolución, la masa máxima que pueden medir y
la transmisión de iones. En la Tabla 7.1 se muestran las diferencias entre los dos tipos de
analizadores respecto a los parámetros (Stashenko y Martínez, 2010).
Analizadores
de
masas
Analizadores
Analizadores de transmisión
de barrido de iones
simultáneos
Analizador de
tiempo de
vuelo
Analizador
magnético
Analizador de
trampa de
iones
Analizador
cuadrupolar
Analizador de
transformada
de Fourier
125
frecuencia adicional externa que es aplicada, y permite que los iones sean eyectados de
la trampa en orden creciente de la relación m/z. En el analizador de tiempo de vuelo los
iones generados en la fuente son acelerados mediante un pulso de potencial eléctrico y la
velocidad de cada ion es inversamente proporcional a su relación masa carga, haciendo el
tiempo de análisis muy corto.
Analizadores de
Parámetro. Analizadores de barrido. transmisión de iones Comentario.
simultáneo.
Las masas exactas permiten
Masas nominales (Números Masas exactas (hasta seis
Resolución diferencias isómeros y
enteros) decimales)
especies isobáricas
Los TOF, Virtualmente
Masa máxima Límite para la masa
infinito
Relación entre los iones que
se forman en la cámara de
Transmisión de iones Baja sensibilidad Alta sensibilidad ionización y los que después
de atravesar el analizador
alcanzan el detector
Debido a que los estudios metabolómicos están conformados de un gran número de datos,
de la misma forma que las otras ómicas es necesario el uso de herramientas informáticas
para un apropiado tratamiento de los datos (Sugimoto, Kawakami, Robert & Soga,
2012), las cuales han crecido en los últimos años. En la tabla 7.2 se presenta la lista de
las plataformas de acceso libre y comercial para procesamiento de datos metabolómicos
basados en espectrometría de masas.
126
Conceptos en Ciencias Ómicas
127
7.3.1. Formato y filtrado
Los métodos de filtrado se utilizan principalmente para remover los efectos del ruido o
la línea base. En los estudios por cromatografía acoplados a espectrometría de masas se
espera obtener dos tipos de ruido: el generado por el equipo (ruido aleatorio) y el generado
por el solvente. Los algoritmos más utilizados para la remoción del ruido son los siguientes:
movimiento de ventana (moving average window), filtrado por mediana (median filter),
Savitzky-Golay, polinomio local (local plynomial fitting) y transformación ondeada (wavelet
transformation). Estas técnicas de filtrado y suavizado se usan fundamentalmente en
cromatografía líquida, puesto que por efecto de los solventes de la fase móvil, las señales
son menos homogéneas que en la cromatografía gaseosa.
El filtrado por la mediana (median filter) consiste en reemplazar cada punto (K) de
las fluctuaciones del ruido por la media de todos los valores K. Este valor K debe ser
optimizado a través de blancos con diferentes condiciones y solventes, porque un K muy
grande puede tener un alto grado de suavizado y ocultar algunas señales verdaderas,
mientras que valores muy pequeños pueden no hacer mucho cambio en las señales.
128
Conceptos en Ciencias Ómicas
De allí se separan las señales y se tabulan en orden de tiempo de retención y m/z; si bien
esto ayuda en gran medida a la organización y separación de los datos, hay un factor
experimental que se debe tener en cuenta: la ionización (ya que para ionizaciones suaves,
como la de electrospray, se pueden encontrar tablas “más limpias”). Es decir, se encuentran
menos fragmentos de un mismo compuesto, pero por lo general, en el proceso de selección
de picos se debe lidiar también con aductos de iones, isómeros y diferentes estados de
carga con la elución de compuestos en un mismo tiempo de retención. Por eso después
es necesario realizar la identificación de isómeros, aductos y la deconvolución los cuales
serán descritos a continuación.
Cuando se realiza una ionización suave, se espera obtener un solo pico por compuesto,
para que estos a su vez eluyan uno a uno de la columna cromatográfica. Sin embargo,
esto no ocurre siempre, hay compuestos que viajan a través de la columna con una
velocidad muy similar, por lo tanto, un gran número de metabolitos coeluyen y no son
cromatográficamente bien resueltos, por consiguiente, los espectros de masas también
quedan superpuestos, en este sentido, es necesario separar matemáticamente las señales
solapadas y reorganizar los iones que provienen de cada metabolito, proceso que se
conoce como deconvolución.
Los parámetros con los que se deben alimentar los diferentes programas para
deconvolucionar picos son diferentes de acuerdo a la casa comercial. En un estudio
realizado por Lu y colaboradores (2008), publicado en el Journal Trends in Analytical
Chemistry, se efectuó una comparación de tres programas, dos de ellos comerciales –
ChromaTOF y AnalyzerPro–, así como AMDIS, que se puede descargar de manera libre,
cada uno de los cuales tiene diferentes parámetros de uso y algoritmos desarrollados por
cada casa comercial.
En este estudio se encontró que AMDIS produce más falsos positivos, y los programas
AnalyzerPro y ChromaTOF reportaron más falsos negativos. No obstante, si se omitieran los
falsos negativos del programa ChromaToF, que resultó con mayor validez en los resultados,
el número de metabolitos deconvolucionados correctamente sería mayor a los otros dos,
aunque tiene la limitación de que sólo recibe datos procesados en equipos LECO, mientras
que AMDIS y AnalyzerPro, reciben los formatos universales.
129
7.3.4. Identificación de Isótopos
Los analizadores de masas de alta resolución (como TOF y RITF) permiten la identificación
de iones isotópicos, los cuales comúnmente son deconvolucionados en el flujo de trabajo
de procesamiento de datos en los estudios metabolómicos. Si el objetivo del estudio no es
seguir un patrón isotópico (bien sea porque la molécula haya sido marcada isotópicamente
en el experimento o porque se requiere identificar las transformaciones de alguna molécula),
es necesario agrupar los patrones isotópicos para minimizar el número de señales que van
a ser identificadas, y que generen una información adecuada para lo que se busca en el
experimento. Con tal fin se debe proveer al programa la información sobre la relación m/z
máxima permitida para ser considerados iguales, la tolerancia en tiempo de retención y la
carga máxima para detectar un patrón isotópico.
7.3.7. Alineación
Entre los métodos sin adición de estándar interno reside la correlación optimizada de forma
(Correlation optimized warping – COW), la cual busca exhaustivamente posibles conjuntos
de curvaturas segmentadas que puedan ser usados para alinear un cromatograma con el
otro usando una medida de correlación. El método de formación cuadrática (quadratic
warping function), modela las fluctuaciones iterativamente en una función cuadrática para
minimizar las diferencias entre las trazas de dos cromatogramas (Smith, Want, O’Maille,
Abagyan & Siuzdak, 2006).
131
temporalmente como estándares para calcular la media en tiempo de retención y la
desviación de la media para cada muestra en ese grupo. Posteriormente, a cada muestra
se le determina una curva no lineal de tiempo de retención con un modelo polinómico local
(Smith et al., 2006).
En este sentido, antes de hacer el análisis estadístico es necesario minimizar todos los
errores sistemáticos que puedan tener los datos crudos, a través de la normalización, la
transformación y el escalado de los datos, los cuales se explicaran a continuación.
132
Conceptos en Ciencias Ómicas
7.4.1. Normalización
Las transformaciones son conversiones no lineales de los datos para convertir las relaciones
multiplicativas por relaciones aditivas y para hacer la distribución del sesgo más simétrico.
Las transformaciones son necesarias para identificar las relaciones biológicas a través de
técnicas lineales (Van den Berg et al., 2006). Esto porque las transformaciones logarítmicas
reducen el orden de magnitud, haciéndolo más similar a los valores pequeños, los cuales
llegan a tener efectos de pseudo escalado entre los valores grandes y los pequeños, por lo
tanto, es importante realizar un escalado después de la transformación.
Hay diferentes metodologías para realizar un escalado, entre ellas pueden mencionarse el
auto escalado, el escalado en rango, el escalado de Pareto, el escalado extenso y el escalado
por nivel. En la Tabla 7.3 puede observarse el objetivo, las ventajas y las desventajas de
cada estrategia.
133
Tabla 7.3. Métodos de escalado, objetivo, ventajas y desventajas.
134
Conceptos en Ciencias Ómicas
135
7.4.7. Análisis de redes: del análisis estadístico a la interpretación biológica
El análisis de redes de metabolitos se utiliza principalmente para para mostrar las relaciones
bioquímicas existentes entre los metabolitos. Comúnmente las redes se construyen a
partir de los nodos (metabolitos) y los enlaces que son los que presentan las diferentes
relaciones entre ellos. Estas relaciones pueden ser de tipo químico (una reacción, una
enzima, una ruta bioquímica, entre otros); de tipo estructural (similitud en espectro de
masas o similitud estructural) y de tipo estadístico (correlación positiva o correlación
negativa) (Grapov, Wanichthanarak & Fiehn, 2015).
Las redes metabólicas están representadas por redes de escala libre, este tipo de topología
se presenta cuando hay pocos nodos con una alta conectividad y el resto de nodos tienen
pocos enlaces. Dentro de la topología de la red hay propiedades estructurales globales y
propiedades locales. En el grupo de las globales se encuentran el grado de distribución
entendido como el número de enlaces que tiene un nodo, el coeficiente de agrupamiento
(clustering) y la modularidad. En el grupo de las locales residen los subgrafos, las medidas
de centralidad, las rutas y el análisis de interacción elementaria.
Medidas globales
Medidas locales
Las medidas locales permiten inferir en los patrones de interacción. Los subgrafos
representan un subgrupo de nodos con un grupo de enlaces conectados entre ellos (una
misma ruta bioquímica o un mismo patrón de fragmentación en el espectro de masas). Por
otro lado, la centralidad es una medida local de la posición relativa de un nodo dentro del
grafo y es usada para estimar la importancia relativa dentro de una red.
Hay diferentes medidas de centralidad basadas en la conectividad del nodo, las cuales
se denominan “Degree Centrality” o grado de centralidad. Estas calculan las rutas más
cortas con otros nodos de proximidad central también llamadas Closeness Centrality, así
como las que calculan el número de rutas más cortas que pasan a través del nodo, y se
denominan intermediación o betweenness centrality. Otra medida local es la redundancia
136
Conceptos en Ciencias Ómicas
(Pathway redundancy), esta mide la presencia de muchas rutas entre el mismo par de
nodos, este es un indicador de robustez en las rutas bioquímicas y está correlacionado con
las medidas de intermediación.
38 http://dgrapov.github.io/MetaMapR/
137
7.5. Referencias
138
Conceptos en Ciencias Ómicas
139
8. PROTEÓMICA
ANDREA GONZÁLEZ MUÑOZ
ANDRÉS QUINTERO
DIANA LÓPEZ ALVAREZ
Las proteínas con respecto a sus correspondientes genes y transcritos tienen una mayor
complejidad, ya que están sujetas a modificaciones post-transcripcionales y post-
traduccionales (Zhang, Wu, Stenoien & Paša-Tolić, 2014), haciendo que con relativa
frecuencia no exista una correlación directa entre el flujo de la información de ADN-ARN
o de ARN-proteína (Wright, Noirel, Ow & Fazeli, 2012). Por lo tanto, el proteoma, como se
le conoce al complemento proteico del genoma, tiene mayor complejidad que el genoma
o el transcriptoma (este término fue usado por primera vez en 1994). El proteoma es
considerado un elemento altamente variable en función del tiempo y de las condiciones
micro y macro ambientales (Garavito et al., 2017), debido a que estos factores modulan el
perfil de expresión de proteínas en un sistema biológico (Chandrasekhar, Dileep, Lebonah
& Kumari, 2014).
140
Conceptos en Ciencias Ómicas
El bottom-up tiene una similitud con la técnica de secuenciación shotgun, con la finalidad
de generar un perfil proteico global. Por su parte, el top-down está orientado al estudio
de modificaciones post-traduccionales, la identificación de éstas a partir de péptidos se
ve limitada por una posible cobertura incompleta de la proteína e incapacidad de predecir
el patrón combinatorio de múltiples modificaciones en una misma proteína. Esto último
es relevante para las histonas que presentan combinaciones específicas de acetilaciones,
metilaciones y fosforilaciones que regulan el funcionamiento de la cromatina (Garavito et
al., 2017).
Debido a que una muestra biológica está compuesta por una mezcla compleja de proteínas,
es necesario llevar a cabo un proceso de separación o fraccionamiento para que puedan ser
analizadas por espectrometría de masas, permitiendo incrementar el número de proteínas
identificadas. Dicha separación se puede realizar mediante electroforesis bidimensional en
geles de poliacrilamida (conocida como 2D-PAGE o 2D SDS-PAGE), en la cual se separan
las proteínas, con sus variantes y modificaciones, en una primera dimensión del gel de
acuerdo con su punto isoeléctrico y en una segunda dimensión según su peso molecular
(Chandramouli & Qian, 2009). Adicionalmente, la segunda estrategia de separación de
mayor precisión y más usada, es la cromatografía líquida de alta resolución (HPLC), que se
basa en propiedades fisicoquímicas diferenciales entre las proteínas, de tal manera que se
141
separan en diferentes fracciones a través de su elución por la columna de cromatografía
(Garavito et al., 2017).
Entre los desafíos que implica este paso se pueden encontrar, la complejidad de la muestra
biológica, el amplio rango dinámico de concentración de sus proteínas y/o la naturaleza
bioquímica de algunas proteínas, por ejemplo, el enfoque top-down que presenta mayores
desafíos para las técnicas de separación, requiriéndose el uso de diferentes formas de pre-
fraccionamiento.
Los espectrómetros de masas son instrumentos compuestos por una fuente de ionización,
un analizador y un detector de iones, que miden la masa de moléculas cargadas para la
posterior identificación de éstas, sus modificaciones químicas y estructura (Garavito et
al., 2017). En la actualidad existen en el mercado diferentes tipos de espectrómetros de
masas que incluyen el cuadrupolo, la trampa de iones (2D y 3D) y el tiempo de vuelo (Time
of Flight o TOF).
142
Conceptos en Ciencias Ómicas
A menudo se utilizan las dos técnicas de ionización, debido a que no todos los péptidos
presentan la misma eficiencia de ionización, la cual puede depender de la técnica empleada
(Garavito et al., 2017). En consecuencia, para realizar MS/MS de mezclas que sean poco
complejas se pueden emplear espectrómetros de masas tipo MALDI-TOF-TOF. Respecto a
la cuantificación basada en espectrometría de masas, con el fin de determinar la cantidad
de proteínas presentes en la muestra analizada, existen diferentes métodos como: el
Isotope-Coded Affinity Tags (ICAT); Isobaric tags for relative and absolute quantitation
(iTRAQ); Stable isotope labeling with aminoacid in cell culture (SILAC), y finalmente, la
de libre marcaje o label free, que está siendo bastante utilizada en la actualidad, debido
a que no emplea ningún marcaje minimizando el número de pasos en la preparación de la
muestra.
Entre los diferentes análisis bioinformáticos algunos son similares a los usados en
metabolómica, dado que emplean la tecnología de espectrometría de masas. Para la
cuantificación de las proteínas se lleva a cabo un paso de normalización de cada muestra.
Identificación de péptidos
143
de SearchGUI es un .zip, en el que se encuentran todos los resultados de la búsqueda de
cada uno de los algoritmos de búsqueda.
Así mismo, se usa otro programa llamado PeptideShaker, el cual consiste en un motor de
búsqueda independiente de plataforma, para la interpretación de datos de identificación
de resultados proteómicos. Para obtener resultados consenso de todas las búsquedas
realizadas, se utiliza, por ende, PeptideShaker, el cual evalúa todos los modelos encontrados
por los algoritmos de búsqueda y los concatena en un solo archivo de extensión .cpsx.
Luego, se vuelve a utilizar PeptideShaker para crear un archivo de anotación de péptidos
mz ident (.mzid), el cual contiene las anotaciones para cada uno de los espectros que
están en el archivo mgf.
Cuantificación de proteínas
Una vez se obtiene la identificación de cada uno de los espectros, es necesario cuantificar
el valor de expresión de las proteínas a las cuales les fueron identificados péptidos. Esto
se realiza sobre el ambiente de programación y estadístico R, que usa el paquete MSnbase
y el paquete MzID para leer los datos crudos y el archivo de identificación; a partir de esto
se hace la cuantificación de todas las proteínas identificadas. Una vez se tiene la tabla de
expresión, es necesario normalizar los datos usando el paquete Vsn y, posteriormente, el
análisis multivariable se realiza con el paquete PcaMethods.
MSnbase
Vsn
MzID
PcaMethods
144
Conceptos en Ciencias Ómicas
8.2. Referencias
145
www.bios.co
ISBN: 978-958-59498-5-0
1956.12.17
9 789585 949850