Bioinformática
Bioinformática
Bioinformática
para educación
secundaria
Sesión 1
Bases de datos en Biología Molecular
Julián Dorado
Búsquedas en Internet.
SNP’s como marcadores de enfermedades
complejas.
Micro-arrays.
Sesión 2
Laboratorio on-line para Bachillerato.
Genómica
Carlos de Paz
Bioinformática
Redes de Información
Recursos sobre genomas
Análisis de secuencias de ADN
Técnicas de alineamiento de pares de
secuencias
Alineamientos de secuencias múltiples
Protocolo de búsqueda de secuencias
Bioinformática
Bioinformática
Abarca todas las
aplicaciones de los
ordenadores en las
ciencias biológicas,
pero fue acuñado a
mediados de los
años 80 para el
análisis de datos
de secuencias
biológicas.
Bioinformática
La cantidad de datos de
secuencias conocidas
sobrepasa el de datos de
estructuras proteicas en
100:1 y, gracias a los
proyectos genoma, las
bases de datos de
secuencias duplican su
tamaño anualmente. 100 1
Bioinformática
Red Europea de
Biología Molecular
(EMBnet)
Red la laboratorios
europeos de
biocomputación.
Nodos nacionales
Nodos especialistas
Redes de información
Centro Nacional
(Americano) para la
Información
Biotecnológica (NCBI)
Suministrador líder
americano de
información.
Abanico de diferentes
bases de datos
accesibles a través de
un interface único.
Redes de información
EMBnet NCBI
Sede de la base de Sede de las bases
datos GeneBank de datos EMBL,
SWISS-PROT y
TrEMBL.
SRS (Sistema de
recuperación de Entrez
secuencias)
Recursos sobre genomas
Recursos sobre genomas
Las principales bases de
datos de ácidos nucleicos
son GenBank, EMBL y
DDBJ, cada una recoge
una fracción de los datos
totales de secuencias
producidas en todo el
mundo y que intercambian
los registros nuevos y los
actualizados diariamente.
Recursos sobre genomas
GenBank, que se produce en
el NCBI, está se reparte en
divisiones discretas y más
pequeñas. Esto facilita las
búsquedas rápidas y
específicas, mediante la
restricción de las consultas
a subconjuntos particulares
de la base de datos.
Durante 1992-1997 el nivel
de datos GenBank creció
unas 10 veces.
Recursos sobre genomas
Además de las bases de datos
exhaustivas de secuencias
de ADN, hay una variedad de
recursos genómicos más
especializados. Estas
llamadas bases de datos
boutique tienen como objeto
la genómica de especies
concretas y técnicas
particulares de
secuenciación.
Recursos sobre genomas
El abanico de recursos
disponibles en Internet
es inmenso y ha tenido
un tremendo impacto
sobre la capacidad de
los científicos para
presentar y diseminar
los resultados de sus
investigaciones.
Análisis de
secuencias de ADN
Análisis de secuencias de
ADN
Las comparaciones de
secuencias son más
sensibles en proteínas,
porque el código genético
redundante es reducido a
un conjunto único de
aminoácidos, pero esta
pérdida de degeneración
significa que se pierde
información relacionada
directamente con procesos
evolutivos.
Análisis de secuencias de
ADN
Las bases de datos de
secuencias de ADN incluyen
datos de secuencias
genómicas y, por tanto,
contienen un surtido de datos
que no pueden tratarse por
igual (p.ej., regiones no
traducidas (UTR), intrones y
exones, mRNA, cDNA y
traducciones). Esto afecta a la
forma en que deben
interpretarse las búsquedas.
Análisis de secuencias de
ADN
Las UTR flanquean las
regiones codificantes del
ARN o del ADN, pero no
son traducidas. La
traducción de ADN a
proteína mediante una
tabla de código genético
se denomina conceptual,
indicando que no tiene
validación experimental.
Análisis de secuencias de
ADN
En una longitud
arbitraria de ADN, no
se sabe qué base
marca el inicio de la
secuencia codificante
(CDS), de forma que
debe realizarse una
trducción en seis
pautas. El reto es
determinar cuál es la
pauta de lectura
correcta.
Análisis de secuencias de
ADN
Las características empleadas
para predecir posibles
regiones codificantes en el
ADN son: suficiente longitud
de la ORF, presencia de
secuencias de Kozak
flanqueantes, patrones de uso
de codones, preferencia de la
tercera base y presencia de
sitios de unión a ribosomas
(secuencias de
Shine.Dalgarno) antes del
codón de inicio.
Análisis de secuencias de
ADN
La presencia de intrones y
exones en los genes
eucarióticos puede dar lugar
a productos génicos de
longitudes diferentes,
porque puede que no todos
los exones estén incluidos
en el transcrito final. Las
proteínas resultantes se
conocen como variantes de
procesado o formas
procesadas
alternativamente.
Análisis de secuencias de
ADN
Las CDS completas raramente
son secuenciadas en una
reacción, de modo que se
alinean fragmentos
solapantes de longitud
variable para construir un
consenso (el ensamblaje de
secuencias). Las lecturas
múltiples de bases de cada
posición de la secuencia dan
una mayor fiabilidad al
resultado.
Análisis de secuencias de
ADN
Una proporción sustancial de los
datos de ADN disponibles en la
actualidad deriva de marcas
de secuencias expresadas
(EST), que son secuencias
parciales. La producción de
EST está altamente
automatizada y los resultados
suelen estar contaminados con
bases ambíguas o que faltan.
Esto da lugar a dificultades en
la interpretación de las
secuencias.
Análisis de secuencias de
ADN
La jerarquía de
información genómica
(genoma cromosómico,
genoma expresado,
proteoma, etc.) precisa
de que se apliquen
diferentes herramientas
analíticas y habilidades
interpretativas en cada
nivel.
Análisis de secuencias de
ADN
Se han desarrollado
varios enfoques para
el establecimiento
de genotecas de EST
para su explotación
comercial o
académica. Entre los
proveedores de
información de EST
se encuentran
Merck/IMAGE, Incyte
y TIGR.
Análisis de secuencias de
ADN
Las herramientas
públicamente
disponibles para el
análisis de EST son
las de búsqueda,
ensamblaje y
agrupamiento de
secuencias.
Técnicas de
alineamiento de pares
de secuencias
Alineamiento de
secuencias
Las consultas a bases de datos
pueden tomar la forma de
consultas de texto o
búsquedas de similitud de
secuencias. Para identificar
una relación evolutiva entre
una secuencia recién
determinada y una familia
génica conocida debe
evaluarse la cantidad de
similitud compartida.
Alineamiento de
secuencias
Un algoritmo es un conjunto
Un algoritmo es un conjunto
de pasos que definen un
proceso computacional; un
programa es la
implementación de un
algoritmo. Puede haber
varias implementaciones
diferentes del mismo
algoritmo, que deberían
(pero puede que no) dar
los mismos resultados.
Alineamiento de
secuencias
La forma más simple de
comparar dos secuencias es
alinearlas insertando
caracteres de hueco para
hacer que estén en
concordancia vertical. Contar
las posiciones con caracteres
coincidentes da una
puntuación simple para el
alineamiento.
Alineamiento de
secuencias
Las matrices de identidad son ralas(1) y en
consecuencia tienen poca potencia para el
diagnóstico. Las matrices de similitud ponderan
las coincidencias de resíduos no idénticos según
tasas de sustitución observadas a lo largo de
grandes distancia evolutivas. Tales matrices dan
lugar a ruido porque aumentan tanto las
coincidencias aleatorias como las señales
débiles. La distinción entre señales biológicas de
baja puntuación y ruidos de puntuación elevada
es un desfío central en el análisis de secuencias.
Alineamiento de
secuencias
Las puntuaciones de la Matriz de
Datos de mutación de Dayhoff se
basan en el concepto de de
mutuación puntual aceptada
(PAM). Una distancia evolutiva
de 250 PAM da puntuaciones de
similitud equivalentes a que
quede un 20% de coincidencias
entre dos secuencias. A menudo
se emplea la PAM 250 como
matriz por defecto en los
programas de comparación.
Alineamiento de
secuencias
Un método básico para comparar dos
secuencias es el gráfico de puntos
(dotplot). Este es un gráfico en el
que las secuencias se disponen
sobre los ejes x e y y se dibujan
cruces o puntos en todas las
posiciones en las que se observan
resíduos coincidentes. Para
secuencias idénticas, esto da lugar
a una línea diagonal ininterrumpida
a través de la gráfica, mientras que
secuencias similares originan
diagonales discontínuas.
Alineamiento de
secuencias
Los alineamientos son modelos
que reflejan diferentes
perspectivas biológicas. Un
modelo no es por tanto más o
menos correcto que otro. Dos
enfoques generales consideran
la similitud (a) a través de toda
la longitud de las secuencias(1)
y (b) a través de sólo parte de
las secuencias(2) .
Alineamiento de
secuencias
Los programas FastA y
BLAST son métodos de
búsqueda de similitud
local que se concentran
en hallar
emparejamientos cortos
idénticos, que pueden
contribuir a un
emparejamiento total.
Las implementaciones
recientes de BLAST
puede generar
alineamientos con
huecos.
Alineamiento de
secuencias múltiples
Alineamiento de secuencias
múltiples
El análisis de grupos de secuencias que forman familias
génicas precisa de la capacidad de hacer conexiones
entre más de dos miembros de la familia. Los
alineamientos múltiples se utilizan para revelar
características conservadas de la familia.
Alineamiento de secuencias
múltiples
Los alineamientos
múltiples, al igual que
los emparejados, son
simplemente modelos.
No hay nada
inherentemente correcto
o incorrecto en un
alineamiento concreto.
Lo importante es si el
modelo refleja con
precisión los datos
biológicos conocidos.
Alineamiento de secuencias
múltiples
Los alineamientos basados en la
secuencia o la estructura son,
ambos, modelos imperfectos, pues
ninguno puede recoger todos los
niveles de información biológica.
Ambos enfoques son
representaciones básicas de
aspectos particulares de la biología
y no se debe considerar que
cualquiera de ellos representa
cierta verdad última o patrón
dorado.
Alineamiento de secuencias
múltiples
Un alineamiento múltiple puede
definirse como una tabla 2D
en la que las filas representan
secuencias individuales y las
columnas posiciones de los
residuos. Una posición de un
residuo en una secuencia no
alineada se denomina posición
absoluta, mientras que la
posición del resíduo alineado
se llama posición relativa.
Alineamiento de secuencias
múltiples
A menudo se descartan los
métodos manuales por ser
subjetivos. Sin embargo, los
resultados de los programas
de alineamiento automático
casi invariablemente
necesitan un pulido manual,
por lo que los editores de
alineamiento se han
convertido en herramientas
esenciales.
Alineamiento de secuencias
múltiples
Hay numerosas bases de datos de
alineamientos accesibles a través
de la web. Son el resultado de
aproximaciones diferentes: p.ej.,
la aplicación de métodos
automáticos para agrupar los
recursos de secuencias primarias
en familias o de intentos de
producir discriminadores de
familias génicas para la inclusión
en bases de datos secundarias.
Alineamiento de secuencias
múltiples
Es la primera y más
rápida prueba de si
existe una secuencia
exacta en las bases
de datos públicas.
Protocolo de búsqueda de
secuencias
2. Búsqueda de similitudes. Mostrará si la
secuencia problema pertenece a una familia
ampliada(p.ej.) .
Protocolo de búsqueda de
secuencias
http://umber.sbs.man.ac.uk/dbbrowser/
bioactivity/
Ejercicios prácticos
Ejercicios prácticos
www.bioxeo.com/bioinfo