BIIN U2 Contenido
BIIN U2 Contenido
BIIN U2 Contenido
Programa de la asignatura:
Bioinformática
U2 Análisis computacional de
secuencias de ADN
Índice
Presentación de la unidad
Así, durante esta unidad se abordarán aspectos teóricos sobre la búsqueda y análisis de
secuencias de ácidos nucleicos, particularmente del alineamiento de secuencias como
una herramienta para buscar similitudes entre las secuencias y con ello, poder inferir su
función. Posteriormente, nos centraremos en la utilización de distintas bases de datos y
software para obtener información diversa de secuencias de ácidos nucleicos y sus
aplicaciones prácticas. Se indicará el uso de estos programas paso por paso, esperando
que refuerces y practiques estos conocimientos al realizar las actividades planteadas. En
esta unidad, se espera un compromiso mayor de tu parte por practicar el uso del software
y en el análisis de los datos obtenidos.
Propósitos de la unidad
Competencia específica
En la unidad pasada buscamos una secuencia de ADN en la base de datos del NCBI, sin
embargo, existen otras bases de datos en las que podemos hacer una búsqueda y
dependiendo de la base datos que utilicemos, nuestra secuencia, así como los resultados
mostrados, puede presentar diversos formatos.
organismo al que pertenece, la proteína que codifica, entre otros. La línea de cabecera es
seguida por una o más líneas conteniendo la secuencia, ya sea de nucleótidos o de
aminoácidos. Ejemplo de secuencia de ADN en este formato:
Formato FASTA
Para la búsqueda de secuencias de nucleótidos, una de las bases de datos más utilizada
es EMBL-EBI. Esta base de datos utiliza el Archivo Europeo de Nucleótidos o ENA, por
sus siglas en inglés (European Nucleotide Archive). ENA captura y presenta la
información relacionada a trabajos experimentales que se basan en secuencias de
nucleótidos. Un flujo de trabajo típico incluye el aislamiento y la preparación del material
para secuenciación, un corrimiento en una máquina secuenciadora en la cual los datos de
la secuencia son producidos y finalmente la realización de un análisis bioinformático. ENA
registra esta información en un modelo de datos que expone la información de entrada
(muestra, diseño experimental, configuración de la máquina), datos de la máquina de
salida (trazo de la secuencia, lecturas y puntuaciones de calidad) y posteriormente la
interpretación de la información (montaje, mapeo, anotaciones funcionales). En el
siguiente enlace podrás entrar directamente a la página de ENA, realizar búsquedas y
obtener más información: http://www.ebi.ac.uk/ena/about/about.
Los datos que llegan a ENA provienen de diversas fuentes. Estos datos incluyen envío de
datos en bruto, secuencias ensambladas y notaciones a pequeña escala de secuencias.
A pesar de que en este curso no utilizaremos esta base de datos, es importante que al
menos sepas reconocer sus características principales. Para acceder a ella, da click en la
siguiente dirección de internet: http://www.ebi.ac.uk/ena/
Texto libre: búsqueda de texto libre. Se proporciona desde la página principal de ENA a
través de la búsqueda disponible en la parte superior de todas las páginas web EMBL-
EBI. Las opciones de búsqueda avanzada están disponibles en la página de ENA
(búsqueda avanzada).
Una vez que introdujiste la secuencia de búsqueda, los resultados pueden verse como se
muestra en el siguiente ejemplo:
Envío de listas: Todos los usuarios son alentados a suscribirse a “ena-announce”, para
recibir los datos vía mail.
Los parámetros son tipos de variables usadas para personalizar el análisis de secuencias,
estas variables influyen en el análisis y de esta manera intervienen indirectamente en el
resultado. En los alineamientos, la selección de parámetros ajusta los posibles resultados
de la búsqueda, a lo que el investigador le interesa. Los parámetros por diseño que utiliza
BLAST son óptimos, sin embargo en ocasiones se deben cambiar para obtener resultados
más específicos o cuando se sospecha de homología entre especies muy divergentes, se
deben “agrandar” o “achicar” los filtros para poder detectar adecuadamente.
Ejemplos de cómo se despliegan las ventanas donde uno puede cambiar los parámetros
de este programa son mostrados en las imágenes siguientes, localiza cada uno de los
parámetros. Cabe mencionar que si además colocas el cursor en el ícono del signo de
interrogación, obtendrás una breve descripción de ese parámetro.
Archaea
Bacteria
Eucarionte
Embryophyta
Hongos
Metazoos
Vertebrata
Mammalia
Rodentia
Primates
NCBI-gi: Causa identificadores gi NCBI para mostrarse en la salida, además del número
de acceso y nombre del locus.
Figura 1. Alineamiento de dos secuencias. El principio teórico del alineamiento de dos secuencias
se basa en encontrar coincidencias entre éstas. En este caso, las coincidencias son señaladas por
una línea vertical que comunica aquéllos nucleótidos idénticos entre una y otra secuencia en el
orden en el que se encuentran dispuestos. Debido a que de 10 nucleótidos que conforman a la
secuencia, 6 son idénticos, el porcentaje de similitud entre ellas es del 60%.
Figura 2. Tipos de alineamiento entre dos secuencias. De acuerdo a la región de comparación que
abarque el alineamiento, éste puede ser clasificado en alineamiento global (A), donde se incluye
toda la secuencia en su totalidad, o local (B), donde sólo se compara una parte de la secuencia.
La lógica que se sigue para llevar a cabo los análisis por alineamientos es comparar las
diferencias entre dos o más secuencias, con el propósito de encontrar similitudes que
representen relevancia a nivel biológico. Con la secuenciación de genes, proteínas y
genomas completos, las bases de datos contienen una gran cantidad de información, con
lo cual, hoy en día se puede contrastar una secuencia contra miles de secuencias
conocidas ya descritas. El procedimiento está basado en distintos algoritmos con los
cuales se buscan las posibles coincidencias entre éstas.
Uno de los métodos usados actualmente, requiere del ajuste matemático de la cola de
distribución de puntajes (es decir el área de la distribución donde se encuentran los
valores extremos), realizados al contrastar secuencias no relacionadas elegidas al azar.
Bajo la misma lógica de encontrar el valor máximo de un atributo, en el análisis de
comparación de secuencias se busca el valor máximo de alineamiento. Ahora que ya
hemos visto como se construyen los puntajes que dan el sustrato metodológico para las
comparaciones estadísticas de secuencias, veamos el elemento teórico detrás de estas
comparaciones, es decir la prueba de hipótesis.
Usando el teorema central del límite que dice que la media de muchas muestras
independientes tiende a la media poblacional, se puede establecer un criterio de
significancia con fundamentos teórico-empíricos. Es recomendable contrastar el
porcentaje de similitud contra muchas secuencias, lo cual realza la importancia de tener
disponibles gran cantidad de secuencias para hacer comparaciones, si se obtiene un valor
p< 0.01 y se hicieron 100 comparaciones, se puede afirmar que la probabilidad de que las
similitudes se deban al azar son de 1 en 100 (Madden, 2003).
Dependiendo del software que se use para los análisis es como se presentarán los
resultados, es por esto que es mejor saber identificar qué parámetros son importantes
para la comparación de secuencias y la lógica detrás de cada forma de análisis.
Al encontrar coincidencias entre los caracteres de dos secuencias alineadas, se dice que
las secuencias son similares. ¿Pero qué tan similares son las secuencias analizadas? El
concepto de similitud se refiere a la cantidad medible de semejanzas entre una
secuencia y otra, que puede ser expresada bajo cualquier unidad cuantitativa,
normalmente se expresa como porcentaje de identidad.
Figura 3. Alineamiento entre dos secuencias de nucleótidos. Cada coincidencia entre los
nucleótidos se señala con una línea vertical. Se destaca el porcentaje de identidad y el número de
gaps encontrados.
Los datos de secuencias genéticas de los que disponemos hoy en día son tan vastos, que
la comparación de nuestra secuencia de consulta con las secuencias disponibles en las
bases de datos involucra la comparación con miles de secuencias. Además, gracias al
perfeccionamiento de los métodos de secuenciación, podemos tener secuencias con una
longitud de varios miles de pares de bases. Por lo anterior, resultaría muy complicado
alinear estas secuencias a mano, por lo que en la actualidad existe software
especializado, del cual podemos hacer uso de manera gratuita en la red para poder
realizar estos alineamientos de manera más rápida y eficiente.
BLAST (por sus siglas en inglés, Basic Local Alignment Search Tool) es una herramienta
básica de búsqueda para alineamientos locales, mantenida por el NCBI, es la más usada
para comparar regiones de similitud entre secuencias. Su programa compara secuencias
de ácidos nucleicos o de aminoácidos de consulta con secuencias de las bases de datos
y calcula la significancia estadística de los nucleótidos o aminoácidos que coinciden.
Debido a los resultados que arroja, BLAST puede utilizarse para inferir las relaciones
funcionales y evolutivas entre secuencias, así como ayudar a identificar a los miembros
de las familias de genes (Baxevanis & Ouellette, 2001). La importancia de herramientas
como BLAST se incrementa en la medida en que se secuencian más genomas o se
describe la secuencia de más proteínas.
Existen cinco programas de la herramienta BLAST con los que pueden realizarse
búsquedas o alineamientos, cuyas características principales son descritas en la Tabla 1.
La diferencia entre estos radica en dos factores: el tipo de la secuencia que se quiere
contrastar y el tipo de secuencias de la base de datos contra la que se contrastará nuestra
secuencia de interés (Orengo, Jones, Thornton, 2003).
Para utilizar el programa BLAST, lo primero que debemos tener es una secuencia de
consulta de la cual queremos obtener información. Una vez que le proporcionemos
nuestra secuencia de consulta, el programa buscará las coincidencias que existan entre
nuestra secuencia de consulta y las miles de secuencias depositas en esa base de datos.
Es de suma importancia definir la naturaleza de nuestra secuencia, es decir, si se trata de
nucleótidos o de aminoácidos, pues de lo contario, los resultados arrojados no serán
correctos o simplemente el programa no correrá. De esta manera, si tenemos una
secuencia de consulta conformada por nucleótidos, podemos pedirle al programa que la
compare con una base de datos conformada por secuencias de nucleótidos, en cuyo
caso, los resultados arrojados nos proporcionarán información sobre el gen al que
pertenece nuestra secuencia y en qué otros organismos se encuentra. Cabe mencionar
que en este caso, existe la posibilidad de que nuestra secuencia de consulta no codifique
para ninguna proteína, por esta razón, la comparación con la base de datos de
secuencias de nucleótidos es importante. Por otro lado, en el caso de que queramos
conocer si nuestra secuencia de consulta contiene información genética expresada,
podemos pedirle al programa que la secuencia de consulta conformada por nucleótidos la
traduzca primero a aminoácidos, para posteriormente compararla con bases de datos de
secuencias de aminoácidos o de nucleótidos traducidos. En este caso, podremos saber si
nuestra secuencia de consulta, codifica alguna proteína. Las otras opciones son utilizadas
cuando tenemos una secuencia de consulta conformada por aminoácidos, cuyas
características se detallaran en la siguiente Unidad.
Una vez que accediste a la página del NCBI, del lado derecho de la pantalla selecciona la
herramienta “BLAST”.
Acto seguido, se desplegará una ventana con el nombre “Enter Query Sequence”,
donde puedes introducir tu secuencia o secuencias de nucleótidos, en caso de tener más
de una, de las que quieres obtener información. Existen varias alternativas para introducir
una secuencia en esta ventana. Si tu secuencia ya está depositada en una base de datos
y conoces su número de acceso (accession number) o su gI (estos términos se
definieron en la unidad pasada), puedes anotar directamente esos números para tener
acceso a la secuencia deseada. Si no es el caso, y tu secuencia no está depositada en
ninguna base de datos y la acabas de obtener, por ejemplo, como resultado de una
clonación, o si no conoces ni el número de acceso ni el gI, entonces introducirás tu
secuencia en formato FASTA, que ya se explicó anteriormente por qué se caracteriza.
Puedes introducir tu secuencia pegándola directamente en la ventana o seleccionándola
de un archivo en tu computadora. Debajo de la ventana donde pegaste tu secuencia
podrás encontrar un apartado donde puedes poner el título a tu trabajo (Job Tittle). En la
ventana “Choose Search Set”, en el apartado “Database”, escoge la opción
“Nucleotide collection”, ya que queremos comparar nuestra secuencia contra una base
de datos de nucleótidos. Finalmente, elige la opción “BLAST” para que empiece la
búsqueda.
Una vez que inició la búsqueda, aparecerá una nueva ventana donde se indica que tu
trabajo está siendo procesado, indicando el status, la fecha de búsqueda, así como el
tiempo que ha transcurrido desde que solicitaste la búsqueda.
Una vez que termina la búsqueda, aparecerá una nueva ventana con los resultados
obtenidos. En esta ventana se mostrarán datos como el nombre del trabajo solicitado, el
tipo de molécula de que se trata, en este caso, ácidos nucleicos, la longitud de la
secuencia, entre otros. Con respecto a los resultados, aparecerá un recuadro de colores
donde se indica la longitud de tu secuencia de consulta (Query). Enseguida se muestra
con líneas rojas, la longitud de coincidencia que abarcaron aquéllas secuencias que
mostraron una identidad con tu secuencia de consulta y en orden descendente, es decir,
aquéllas que mostraron la mayor identidad se colocan en la parte superior y van
descendiendo conforme mostraron menor identidad.
Observa detenidamente los resultados, ¿qué puedes concluir? Podemos observar que los
primeros cinco resultados tienen valores de Score, Query cover, E-value e Ident idénticos,
lo que nos lleva a señalar que esas cinco secuencias son las mismas, aunque tienen
números de acceso y nombres de gen distintos. Sin embargo, todas coinciden en que
pertenecen a Saccharomyces cerevisiae, por lo que concluimos que la secuencia
pertenece a dicha levadura. Ahora bien, ya sabemos al organismo al que pertenece, pero
¿de qué gen se trata? Si te fijas en la cuarta secuencia, se lee que el gen es una HSP10,
una proteína de choque térmico de 10 kDa. Las demás secuencias sólo indican en qué
cromosoma se encuentra, pero no indican el nombre del gen, pero como ya concluimos
que las primeras cinco corresponden a la misma secuencia, entonces podemos decir que
nuestro gen pertenece a S. cerevisiae y codifica para una HSP10.
¿Qué crees que pase si usando la misma secuencia de consulta ahora utilizas las
opciones blastx o tblastx?, ¿encontrarías los mismos resultados?, ¡inténtalo! No olvides
poner tu secuencia en formato FASTA.
Secuencia de consulta:
GCGGATAGTTTGTACACATAGTGTCCCTAAAATTCCTATTGATGAATAGATCAATTTTA
TTAGCAGACAATTGGGGGCAGCAACTGAATAGCAGAAGAAATTTGAGTTCAATTATTT
TTTTTTCCTGTCATACATAATGGCCTATTTACAGGTACATACATATAGAGTATGTATATA
AAATCTCTGTTGAAGAAGACATCATTCTTAGTCCTTGGCAATCTTAGCCAGGATTTCAG
CGTCCCTGAAAAGAATAACTTCATCGTCGTTACCCAATTTAATGGTAGAACCACCAAA
CTGTGGAATCAAAACTTGGTCACCAACTTTAACTTGAGGAACAACCTTATTACCATTAG
CATCAGTAAAGCCCGGGCCTACGGCAACAACTTCAGCTTGGTTTAACTTCTCCACGTT
CTTTTCAGGTAAATACAACCCGGATGCTGTCTTTGCTTGTGCCTTGATTCTTTGGACAA
GGACACGGTCCATCAATGGAACGATAGATTTAGCAGACTTCAAAAGGGTGGACATTC
TTTTTTTTCTGTAGATTCAATATATTTTCGATCAATGGCTTCTATCAGAAATTATTTTAAA
CCTAGCACATAATAAGTTTGTACTGTATAAGCGTTTTGACTAATTTTATACATAATCAAG
CTTCTTTTTCCCATTCCTTCAAGATTCTAGAAATTTCTATCATTGATGACGGGCATTAC
CCCGTTAATGACCTTCACACGAATGAGAATTGGGCGGCTAATGAGAGAACTTCGAGA
GGTGCAATAAGTGAGAAATAACAACTTTAGAACTCATTATGATTGCTTCCAATACCTAA
TCCTACGTATGTACTAAATTAAAAAGACAGACATGCATTATTGAATATTGACATTTTGA
GAGTAACTTTTTATTATGAGTGGCATAATAAGATAATCGACGCAAGCCACAATTTATAC
AATAAAAAATGCTACCATCGCTGCTACATATGAACGAAAATAATACAACTATCGTTACG
GCCTTTGCTGAACCGTAATAAAATAAAATTCCTTGTTACATTTTTTTAGCCAGCTGCCT
CAGAAAGAGGCGTTTACTATTTAATGGAGAAAGAAAGCAAAGAAAAATAAAAGGTATT
TTCTTTACGGAAAGCCTTCGAGCAATCCAGGAGAAAGTGGACCTTTTTTTCCCAATGA
AGAGATCATAGGAGTATGGATTGAAAATATAATAGAACTTCGGGTAACGAGGTGTAAT
TTCACAGTCCATAATACAGAGCTAACGGTTTAAGGGTAAATAGTTATCTAAGTCAAGTT
TTGAAGGAACAAGTAAGAAAGGTCGCTACTGTTTCTAAACATAAGATATACAAAAATAA
ATATAGCTATCTCAATGGGTGCTGCATACAAAGTATTTGGGAAGACGGTTCAACCTCA
CGTATTGGCTATATCTACGTTTATCGCTACTGCTGCAGTGGCATCTTACTTTACCACG
AAACCAAAAACCAAAAATGAAGGCAAGAATAGTTCTGCCTTGAGCCAACAAAAAAGCG
GTGAAAGTTCAAACTCAGATGCTATGGGAAAGGACGATGATGTCGTAAAGAGTATTGA
AGGATTTTTAAATGATTTAGAGAAAGATACGAGGCAGGATACGAAAGCCAACTGATTA
TGTATAAAAATTTCTGAAATGGTGGTGTTCTTCATCGTTCAGTGAAGGGATGCACTGA
TTTCTATAAACTTGAAGCACTTTTTGAAACTACTGTTCTATAACGAAAATTAGCGTCCTT
CTTTCTATTAAGTATGCATTATACATATAATTCAATATATTCTGAATAGCAAAACGGCAA
TGAAAAAAAAAAAACACTGAAAATACTTGCCTTAGGCCATTGTGCATGATACGAATATG
CACAAAACTTGCCTCTTTTTACTTTACGGATCAATGACAACACTCAGGTGTAAGTGATA
GTTGATGGCCTTTCAATATTTGAAAGGCTGGAAGATAATTATAAAAAATCGAACTAATT
GCCTATGATTGTTTCATTACTGAGACTATTTTTTCACCTCAAGGGGGTCGTCTGAATTA
GCAAAGCCATGGCAACTAGTGCAGTGCTTGAAGTCACCAGCTCGTTTGGTTTTAGAT
GCAAGTAATGTAAAGAAATTAATTTAAATAAAATAATAAAAGTTTCTACTTTTTTTTTCAA
TTAAAAAGCATAATACAACCAATCAATTTTATCCTATTTGGCCTGACAATGATGATATC
ATAAAAGTAAACGGTTCCTTGTTTTTATTTTTCTTGCATGCACTTTTCAGAAGTCTTGGT
AGCGCTACTAACGCAAAATACGAAATATTCATTGGCTAATAAACTTGATTTTTTCATTG
AATGTCGTTTTTGAACTATATACAATATAATTAATGCTACGACCCTAAACTTTTCAACTA
ACTCTTTGACAAGGAAGCATCATCACTTATTACAACCATAGAATGTTACTTAAAGGACT
GTTCTCAT
Score, Query cover, E-value e Ident el alineamiento generado es confiable. Sin embargo,
puede haber casos en los que las secuencias de consulta no codifiquen para ninguna
proteína y se trate por ejemplo, de una secuencia intergénica (por tanto, no codificante).
Los resultados entonces no arrojaran alineamientos confiables y serán más bien
alineamientos locales. Ya que en las bases de datos se depositan sólo secuencias
codificadoras de genes, si nuestra secuencia de consulta no codifica para ninguna
proteína, el programa no encontrará coincidencias entre las secuencias, pues nuestra
secuencia, aunque sea real, no estará depositada en las bases de datos, por ser no
codificante. Sin embargo, por probabilidad, encontrará alguna coincidencia con alguna
secuencia depositada, pero si observamos los valores de Score, Query cover, E-value e
Ident, estos nos dirán que dicho alineamiento no es confiable. Enseguida se muestra el
ejemplo de resultados obtenidos al introducir como secuencia de consulta una secuencia
intergénica que pertenece al protozoario Trypanosoma cruzi. En el primer caso, el
alineamiento se realizó con blastn. Como puedes observar, los alineamientos generados
son sólo locales, por las razones que ya se explicaron anteriormente.
¿Qué pasaría si tuvieras más de una secuencia de consulta? En este caso puedes
introducir cada una de tus secuencias de manera individual como lo hicimos en el ejemplo
anterior o puedes ser más práctico y en la misma ventana introducir las varias secuencias
de consulta que quieras analizar. Lo anterior siempre y cuando el programa de análisis a
utilizar sea el mismo (blastn, tblastx, etc.), así como la naturaleza de tus secuencias, es
decir, todas deben ser nucleótidos o todas secuencias de aminoácidos. En el ejemplo de
abajo se muestra que en la misma ventana se copiaron dos secuencias de nucleótidos,
cada una en formato FASTA.
Una vez que se ejecutó el BLAST, los resultados aparecieron de la siguiente forma. En
esta ventana se muestra el alineamiento de una de las secuencias (Seq1), que
corresponden a una proteína de choque térmico de 10 kDa del parásito T. cruzi.
La nueva ventana entonces te mostrará los resultados para la otra secuencia de consulta,
en este caso, el alineamiento muestra que codifica para una proteína de la familia alpha-
crystallin small heat shock protein, también de T. cruzi. De esta forma, en un mismo paso
de ejecución puedes hacer el alineamiento de varias secuencias, accediendo a ellas
después, en la misma ventana de resultados.
El alineamiento múltiple implica alinear más de dos secuencias. Para alinear más de dos
secuencias utilizaremos el programa especializado Clustal Omega, disponible en la red de
manera gratuita.
Ahora pega tus secuencias a alinear. Este software admite distintos formatos de
secuencia, entre ellos FASTA. Introduce tus secuencias en este formato. Selecciona en la
pestaña donde se lee “Enter or paste a set of….” la opción que corresponda de acuerdo
a la naturaleza de tus secuencias, es decir, si se trata de una secuencia de aminoácidos
(PROTEIN), de ADN (DNA) o de ARN (RNA). Finalmente, ejecuta el comando “Submit”.
Para conocer el porcentaje de identidad que existe entre cada par de secuencias,
selecciona la opción “Result Summary” y enseguida “Percent Identity Matrix”. En este
punto, cabe mencionar que en los alineamientos múltiples, los porcentajes de identidad
tienen que ser calculados necesariamente asumiendo alineamientos entre un par de
secuencias.
2.3.1. Contenido GC
𝑁ú𝑚𝑒𝑟𝑜 𝑑𝑒 𝑏𝑎𝑠𝑒𝑠 𝐺 + 𝐶
𝑥 100
𝑁ú𝑚𝑒𝑟𝑜 𝑑𝑒 𝑏𝑎𝑠𝑒𝑠 𝐴 + 𝑇 + 𝐺 + 𝐶
conservan como parte de su genoma. Los genes adquiridos de esta forma son
diferenciables de los genes que conformaban al organismo ancestral debido al contenido
GC. Ya que el contenido GC es característico de cada organismo, en general, los genes
que se adquirieron de otros organismos, tienen un contenido distinto al del organismo que
los recibe. Ejemplos de genes que han sido adquiridos de esta manera en bacterias con
los que confieren resistencia a antibióticos. Otro ejemplo son los genes que están
involucrados en producir virulencia, es decir, aquéllos genes que en bacterias les permiten
infectar a un organismo. Por ejemplo, en la bacteria Salmonella enterica, cuyo contenido
GC es de aproximadamente 52%, ciertos genes asociados a virulencia presentan un
contenido GC menor, entre 37-44% (Main-Hester et al., 2008). En la bacteria
emparentada Escherichia coli, el contenido GC es del 51%.
Existen distintas bases de datos donde entre otros datos, se indica el contenido GC del
genoma de los organismos. Generalmente dichas bases de datos se encuentran
disponibles para aquéllos organismos cuyos genomas han sido completamente
secuenciados. En esta sección utilizaremos la base de datos XBase, que contiene
información relacionada a distintas especies de bacterias.
Se muestran de arriba a abajo, los siguientes datos: el organismo que seleccionaste para
obtener información (Salmonella enterica), la institución que alimenta la base datos
(Instituto Sanger), el tamaño del genoma (5.06 megabases), el estado del proyecto de
secuenciación (completado). Posteriormente, se muestra una ventana (Annotation search)
donde se introduce el nombre del gen de consulta. Después hay una opción de BLAST
(BLAST search) para realizar una búsqueda utilizando únicamente la información
correspondiente al genoma de esta bacteria. Más abajo hay diversos enlaces para
acceder al genoma completo y a genomas de bacterias emparentadas.
Ahora coloca el nombre del gen slrP en la ventana “Annotation search” y oprime search.
Acto seguido, aparecerá una ventana como la siguiente. Debajo del nombre del
organismo, aparece el nombre del gen y más abajo su contexto genómico. El contexto
genómico se refiere al contenido genético de esa zona particular del genoma, es decir,
cuáles genes se encuentran alrededor de nuestro gen de búsqueda. Como puedes
observar, los distintos genes están coloreados de manera diferencial. El color depende del
contenido GC, en la escala encontrada debajo del diagrama genético, se indica el
porcentaje GC. Así por ejemplo, un porcentaje GC de aproximadamente 45% corresponde
al color verde. De esta manera, se vuelve fácil y rápido de visualizar el contenido GC de
tus genes de consulta. Con las opciones Zoom Out y Zoom In puedes abarcar una región
mayor del contexto genético o una región menor, respectivamente.
Para conocer el porcentaje GC exacto de tu gen, coloca el cursor sobre el gen del que
quieras obtener la información y el porcentaje GC se mostrará en una pequeña ventana,
además del nombre del gen y de dónde a dónde abarca la secuencia de dicho gen, es
decir, del nucleótido 23 al 45, por ejemplo. De acuerdo a su porcentaje GC, el gen slrP
parece haber sido adquirido por transferencia horizontal. Recordemos que S. enterica
tiene un porcentaje GC de aproximadamente 52%, mientras que slrP tienen un contenido
GC de 46%, más bajo que el del resto de genoma. Lo anterior sugiere que hoy en día,
dicho gen está presente en el genoma de esta bacteria como consecuencia de un evento
de transferencia horizontal entre bacterias que ocurrió durante su evolución. Cabe
mencionar que la proteína para la que codifica el gen slrP ha sido implicada en la
virulencia de la bacteria.
Miremos ahora dos genes más allá de slrP, el gen moaA, que codifica para un cofactor de
molibdeno para biosíntesis de proteína A, implicado en el metabolismo bacteriano. El gen
tiene un porcentaje GC de 54%, muy parecido y no menor al del resto de genoma, que es
En esta sección exploramos el uso de sólo algunas funciones de esta base de datos, sin
embargo, te invitamos a que explores por tu cuenta todo el tipo de información que
puedes obtener.
Figura 4. Se muestra la doble cadena de ADN desnaturalizada y la unión de los cebadores para
dar inicio a la reacción en cadena de la polimerasa (PCR) (Imagen modificada de Konietzny y
Greiner, 2003).
Otro factor importante es la composición del extremo 3’ del cebador, ya que errores de
hibridación en el extremo 3’ resultan en reducción significativa en la eficiencia de una PCR
(Yang, et al., 2006). Se recomienda que el cebador tenga, como máximo, dos residuos G
o C en la últimas cinco bases del extremo 3’, lo cual ayuda a asegurar que las secuencias
hibriden correctamente debido a los enlaces de hidrógeno que se dan entre los residuos
de GC. Sin embargo, se debe evitar que haya secuencias de poliG (4 o más guaninas
seguidas) o poliC (4 o más citosinas seguidas) para evitar la formación de dímeros (Yang,
et al., 2006; Brown, 2000). Así mismo debe evitarse que haya secuencias
complementarias dentro de la secuencias del cebador sentido y anti sentido, más de 3
pares de bases complementarias pueden causar la formación de estructuras secundarias
y que los cebadores hibriden entre ellos, resultando en menor cantidad de cebador
disponible para amplificar, dando como consecuencia menor eficiencia de la PCR (Yang,
et al., 2006). Para una eficiente hibridación se recomienda que la composición de bases
de los cebadores sea del 45% al 55% en GC y que cebador sentido y anti-sentido hibriden
a la misma temperatura, la cual deberá estar dentro del rango de los 50 °C a los 65 °C
(Yang, et al., 2006).
GCCCCGCAAGTGACTGCGCCGGCAGGAACCTATCCGCTGTGGAGTGCTGCGAAGGT
ATATGACCAAGGGGACCGAGTGATGTTTGATGGCCGTATATTCGAGGCTAAATGGTG
GAATCGCGAAGAAAGCCCGGTAGCTTCCCTGCAGGGATCGCCCTCGGCAGCGTGGA
AGTTGTTCTCCAACGCTCAGGTGGCGCAGATCCTGGCCACCCCGGATGGTAAATAA
Copia y pega esta secuencia en la ventana del programa Primer3, como se muestra en la
siguiente imagen. En la parte inferior de la ventana del programa encontrarás diversas
secciones que le permiten controlar una amplia variedad de parámetros relacionados con
el diseño de cebadores.
Como puedes observar en los círculos rojos, Primer3 tiene habilitadas las casillas de las
opciones para seleccionar el cebador corriente arriba y corriente debajo de nuestra
secuencia de interés (Pick left primer, Pick right primer). A continuación escoge la opción
“Pick primers” para que el programa te muestre las opciones de cebadores para la
secuencia de consulta.
Start (Inicio): posición de la base del extremo 5´, con respecto a la secuencia de
consulta.
Len: Longitud del cebador en cantidad de nucleótidos.
Tm: temperatura de alineamiento.
GC %: Contenido de GC en porcentaje.
Any th: Auto-complementariedad local la cual refleja la tendencia de los cebadores a
hibridar entre su misma secuencia y formar estructuras secundarias.
“3’“: Alineamiento Global Anclado en 3’, que refleja la complementariedad entre los
cebadores sentido y antisentido, y se utiliza para predecir la formación de dímeros.
A partir de estos resultados analiza si las secuencias de los oligonucleótidos presentan las
características ideales para poder ser utilizados en la técnica de PCR.
Figura 5. Se representa una cadena de ADN covalentemente cerrada que tiene secuencias
importantes para poder fungir como un vector de clonación (Origen de replicación y secuencias de
reconocimiento para enzimas de restricción). Además algunas de las secuencias de ADN del
plásmido codifican para genes cuyos productos confieren resistencia a antibióticos (ampicilina y
tetraciclina).
En general los vectores moleculares deben cumplir con las siguientes características:
a) Tamaño pequeño. Para tener una mayor eficiencia de entrada del ADN
plasmídico a la célula huésped por el proceso de transformación.
b) Estabilidad dentro de la célula huésped.
c) Una secuencia de origen de replicación (ori).
d) Presencia de genes “marcadores de selección”. Que sean útiles para poder
diferenciar entre las células que adquirieron el vector de clonación de aquellas que
no lo hicieron, por lo general, los marcadores de selección más comunes son los
que confieren resistencia a antibióticos.
e) Presencia de un “sitio múltiple de clonación” MCS, por sus siglas en inglés
(Multiple Cloning Site) o poli-linker, que es la región donde se encuentran los sitios
de corte únicos que serán reconocidos por diversas enzimas de restricción (Krebs,
2010).
Figura 6. Vector de clonación pUC118. Se indican los orígenes de replicación, el MCS, así como el
gen de resistencia a ampicilina.
Figura 7. Vectores de expresión. En ambos vectores, A) pET-11 y B) pIX 4.0, se señalan las
regiones necesarias para la expresión de genes como por ejemplo el RBS, la región promotora, la
región terminadora o el ATG de inicio de la traducción.
Debido a que los plásmidos son muy utilizados como vectores de clonación y de
expresión, se cuenta con bases de datos en donde se localizan las secuencias y
características de estas moléculas. En la siguiente dirección de internet encontrarás el
sitio llamado Addgene en donde puedes buscar secuencias de plásmidos
http://www.addgene.org/.
La secuencia del plásmido pET-21 a (+) aparece en una interfaz como la que se muestra
a continuación. Tienes la opción de visualizar el mapa lineal y circular del plásmido si
seleccionas la pestaña “Map and Features” (mapa y características) o puedes obtener la
secuencia como se muestra si seleccionas la pestaña que dice “Sequence” (Secuencia).
de registro 11418 que corresponde a la secuencia del vector pET21a más la secuencia
del gen que codifica para una fosfatasa.
En este caso el mapa del plásmido se observa con el inserto de color rojo que
corresponde a la secuencia de la fosfatasa que fue clonada en el vector pET-21a.
Figura 8. Plásmido pET-21 a con el inserto del gen de la fosfatasa de Thermotoga maritima.
Una vez que has instalado el programa en tu computadora, empecemos a trabajar. Para
poder abrir una secuencia de estudio en el editor, es necesario que primero la guardes en
un procesador de textos, como el bloc de notas, en formato FASTA. Una vez que tienes
tus secuencias guardadas en este formato, puedes acceder a ellas en el Bioedit. Abre el
programa y en la pestaña de abrir documentos, selecciona tu archivo.
Una vez que diste click, aparecerá la siguiente ventana, donde puedes escoger las
enzimas de restricción con las cuales quieres generar el patrón de restricción. Por
ejemplo, si sólo te interesa saber si tu secuencia tiene sitios reconocidos por enzimas de
rojo corresponde al fragmento de 3720 pb que se genera del corte entre los sitios de
EcoRV (Posición 4696) y BamHI (Posición 976).
Estas herramientas son muy útiles para poder predecir los tamaños de los fragmentos
esperados después de hacer la digestión con enzimas de restricción y para poder analizar
plásmidos que ya tengan un inserto de algún gen.
Así, regresando al programa BioEdit, crearemos un mapa circular con la misma secuencia
anterior. Nuevamente abre la secuencia de interés con la opción abrir documento. En la
pestaña “Sequence”, selecciona la opción “Create Plasmid from Sequence”.
¡Muy bien!, acabas de crear un mapa circular con una secuencia genética. Dicho mapa
podría representar tu vector de clonación con el que harás diversos experimentos, al cual
le puedes introducir distinto tipo de información y agregar a tu bitácora de trabajo. Piensa
acerca de qué otros usos podrías darle a la creación de mapas circulares.
2.4. Transcriptómica
Para finalizar con esta unidad en donde hemos analizado con diferentes herramientas
secuencias de ADN, ahora revisaremos el tema de transcriptómica que involucra, como lo
viste en la unidad 1, el estudio de la molécula de RNAm.
Se sabe que todas las células de un organismo tienen el mismo ADN, sin embargo un
hepatocito es diferente morfológica y fisiológicamente a una neurona, ¿Si tienen el mismo
ADN, por qué son diferentes? La respuesta es porque no expresan los mismos genes, ni
al mismo tiempo. Para que un gen se exprese, necesita de secuencias accesorias
(promotores, represores, sitios de unión de remodeladores de la cromatina, etc.) que
recluten a la maquinaria de transcripción cuando se requiere. Del esfuerzo de comprender
como se regula la transcripción de los genes, nacieron aproximaciones que se apoyaron
en la nueva tecnología de secuenciación masiva. Uno de estos esfuerzos es la
proteómica, que tiene como objetivo analizar las proteínas de un tipo de célula, tejido u
organismo (Orengo, Jones y Thornton, 2003). Esta aproximación puede dar información
parcial sobre la expresión génica, ya que el ARNm es necesario para la síntesis de
proteínas, sin embargo como ya se había mencionado, las proteínas pueden sufrir
modificaciones post-traduccionales, las cuales no están contempladas en la información
del ARNm.
Una aproximación para conocer los genes que codifican proteínas presentes en el
genoma es el transcriptoma. El transcriptoma tiene como meta analizar la totalidad de
los ARNm que se expresan en una célula o tejido en una etapa específica del desarrollo
(Vallin, 2007). Al tomar en cuenta la totalidad de los ARNm, se puede inferir en que
momento del desarrollo y en qué tejido se activa la transcripción de un gen. Esto es de
utilidad en el diagnóstico y estudio de padecimientos ya que los cambios en la
transcripción de genes pueden estar asociados a enfermedades como el cáncer o
infecciones virales.
Los ARNm se pueden diferenciar del resto de ARN, debido a que tienen añadida una
cadena de adeninas, la cual se puede usar como sitio para diseñar los cebadores. Lo
anterior resulta bastante conveniente ya que una vez que se puede diferenciar los ARNm
del resto de los ARN y ADN, se puede amplificar con la ayuda de la enzima viral llamada
transcriptasa reversa, que sintetiza ADNc a partir de ARN. El ADNc puede ser amplificado
por PCR e identificado y de esta manera se pueden comparar las secuencias codificantes
entre tejidos u organismos e investigar homología, filogenia, equivalencia entre animales
modelo y el humano, etc.
Uno de los estudios más extensivos para conocer el transcriptoma fue hecho por el
consorcio FANTOM del instituto RIKEN en Japón, que describió el transcriptoma de una
cepa de ratón, haciendo uso de sus bibliotecas de ADN clonado. Para el análisis de la
gran cantidad de información derivada de ya sea la secuenciación masiva o los micro
arreglos es necesario utilizar herramientas bioinformáticas para la identificación de los
genes y su clasificación (Okazaki, et al., 2002).
Con este tema terminamos la Unidad 2, pero no olvides practicar y explorar los programas
por tu cuenta, verás que es muy interesante descubrir toda la información que estas
herramientas te pueden dar.
Actividades
Autorreflexiones
Cierre de la unidad
Fuentes de consulta
• Dieffenbach, C.W., Lowe, T.M.J., Dveksler, G.S. General Concepts for PCR
Oligonucleótido Design, in PCR Oligonucleotides, A Laboratory Manual,
Dieffenbach, C.W, and Dveksler, G.S., Ed., Cold Spring Harbor Laboratory Press,
New York, 1995, 133-155.
• Hartl D. L., Jones E.W. (1998). Genetics. Principles and Analysis (4º Edition). EUA:
Jones and Bartlett Publishers.
• Koning J., Wanjun G., Castoe T., Batzer M., Pollock D. (2011). Repetitive elements
may comprise over two-thirds of the human genome. PLoS Genet 7(12):
e1002384. doi:10.1371/journal.pgen.1002384.
• Maslehi R., Mills J., Signore C., Kumar A., Ambroggio X., Amiran D. (2013).
Integrative transcriptome analysis reveals dysregulations of canonical cancer
molecular pathways in placenta leading to preclamapsia. Scientific reports, 3:2407.
• Mount, David. (2001). Bioinformatics. Sequence and Genome Analysis. New York.
Cold Spring Harbor Laboratory Press.
• Okazaki, Y., et al. (2002). Analysis of the mouse transcriptome based on functional
annotation of 60,770 full-length cDNAs. Nature 420:563–573.
• Orengo C.A., Jones D.T., Thornton J.M. (2003). Bioinformatics: Genes, proteins &
computers. New York: BIOS Scientific Publishers.
• Reece R.J. (2004). Analysis of genes and genomes. UK: John Wiley & Sons, Ldt.
• Shin D.H., Roberts A., Jancarik J., Yokota H., Kim R., David E. W. and Kim S. H.
(2003). Crystal structure of a phosphatase with a unique substrate binding domain
from Thermotoga marítima. Protein Science, 12:1464–1472.
• Westhead D.R., Parish J.H., Twyman R.M. (2002). Instant Notes Bioinformatics.
New York. BIOS Scientific Publishers
• http://kinase.com/blast/docs/newoptions.html
• https://web.archive.org/web/20171120205425/http://viroblast.dbi.udel.edu/CHO/par
ameters.php#
• http://www.genomatix.de/online_help/help/sequence_formats.html
• https://www.institutoroche.es/biotecnologia/bioinformatica
• http://www.ebi.ac.uk/ena/about/about