Bioinformática

Bioinformática
para educación
secundaria
Sesión 1
Bases de datos en Biología Molecular
Julián Dorado
Búsquedas en Internet.
SNP’s como marcadores de enfermedades
complejas.
Micro-arrays.
Sesión 2
Laboratorio on-line para Bachillerato.
Genómica
Carlos de Paz
Análisis de secuencias de ADN.

Alineamientos.
Comparación de secuencias entre especies.
Predicción de zonas significativas (codones
de inico, promotores, lugares de empalme
intron/exón, señales poli-A o islas CpG).
Búsqueda automática de genes.
Árboles filogenéticos.
Sesión 3
Laboratorio on-line para Bachillerato.
Proteómica
Carlos de Paz y Julián Dorado
Análisis de secuencias de Proteínas.

Predicción de estructuras secundarias.
Visualización 3D de estructuras de
proteínas.
Bioinformática para Enseñanza Secundaria
Carlos de Paz
 Bioinformática
 Redes de Información
 Recursos sobre genomas
 Análisis de secuencias de ADN
 Técnicas de alineamiento de pares de
secuencias
 Alineamientos de secuencias múltiples
 Protocolo de búsqueda de secuencias
Bioinformática
Bioinformática
Abarca todas las
aplicaciones de los
ordenadores en las
ciencias biológicas,
pero fue acuñado a
mediados de los
años 80 para el
análisis de datos
de secuencias
biológicas.
Bioinformática
La cantidad de datos de
secuencias conocidas
sobrepasa el de datos de
estructuras proteicas en
100:1 y, gracias a los
proyectos genoma, las
bases de datos de
secuencias duplican su
tamaño anualmente. 100 1
Bioinformática
Un reto clave para la

bioinformática es analizar el
caudal de datos de secuencias
con el fin de comprender la
información amasada en
términos de estructura, función
y evolución proteicas.
Bioinformática
El Santo Grial de la Bioinformática
Bioinformática
Hay dos aproximaciones analíticas importantes
en bioinformática: el reconocimiento de patrones y la
predicción.
 Se ha conseguido un  La incompleta comprensión del

progreso considerable con problema del plegamiento de
los métodos de proteínas determina una
reconocimiento de patrones barrera a los intentos actuales
debido a la disponibilidad de de predecir la conformación a
bases de datos de referencia partir de la secuencia.
y moldes de plegamiento.
Bioinformática
La homología es un concepto central: se dice que
dos secuencias son homólogas si están
relacionadas por divergencia de un ancestro
común. Homología no es un término sinónimo de
similitud. La esencia del análisis de secuencias es
la detección de relaciones homólogas mediante
búsquedas en bases de datos de secuencias.
Ortología Paralogía
• Misma función • Funciones
diferentes
• Especies diferentes
• Relacionadas en un
mismo organismo
Bioinformática
El término analogía se emplea en el
contexto de plegamientos proteicos
similares que no comparten similitud de
secuencias detectables, o proteínas que
comparten grupos catalíticos con las
mismas geometrías espaciales pero que
por lo demás no guardan similitud
estructural o de secuencias. Se piensa que
tales divergencias han resultado del
proceso evolutivo de convergencia.
Bioinformática
Siempre que sea posible,

debe emplearse un
abanico de métodos de
análisis diferentes, y los
resultados deberían unirse
con toda la información
biológica disponible.
Redes de Información
Redes de información
 Red Europea de
Biología Molecular
(EMBnet)
 Red la laboratorios
europeos de
biocomputación.
 Nodos nacionales
 Nodos especialistas
 Centro Nacional
(Americano) para la
Información
Biotecnológica (NCBI)
 Suministrador líder
americano de
información.
 Abanico de diferentes
bases de datos
accesibles a través de
un interface único.
 EMBnet  NCBI
 Sede de la base de  Sede de las bases
datos GeneBank de datos EMBL,
SWISS-PROT y
TrEMBL.
 SRS (Sistema de
recuperación de  Entrez
secuencias)
Recursos sobre genomas
Las principales bases de
datos de ácidos nucleicos
son GenBank, EMBL y
DDBJ, cada una recoge
una fracción de los datos
totales de secuencias
producidas en todo el
mundo y que intercambian
los registros nuevos y los
actualizados diariamente.
GenBank, que se produce en
el NCBI, está se reparte en
divisiones discretas y más
pequeñas. Esto facilita las
búsquedas rápidas y
específicas, mediante la
restricción de las consultas
a subconjuntos particulares
de la base de datos.
Durante 1992-1997 el nivel
de datos GenBank creció
unas 10 veces.
Además de las bases de datos
exhaustivas de secuencias
de ADN, hay una variedad de
recursos genómicos más
especializados. Estas
llamadas bases de datos
boutique tienen como objeto
la genómica de especies
concretas y técnicas
particulares de
secuenciación.
El abanico de recursos
disponibles en Internet
es inmenso y ha tenido
un tremendo impacto
sobre la capacidad de
los científicos para
presentar y diseminar
los resultados de sus
investigaciones.
Análisis de
secuencias de ADN
Análisis de secuencias de
ADN
Las comparaciones de
secuencias son más
sensibles en proteínas,
porque el código genético
redundante es reducido a
un conjunto único de
aminoácidos, pero esta
pérdida de degeneración
significa que se pierde
información relacionada
directamente con procesos
evolutivos.
ADN
Las bases de datos de
secuencias de ADN incluyen
datos de secuencias
genómicas y, por tanto,
contienen un surtido de datos
que no pueden tratarse por
igual (p.ej., regiones no
traducidas (UTR), intrones y
exones, mRNA, cDNA y
traducciones). Esto afecta a la
forma en que deben
interpretarse las búsquedas.
ADN
Las UTR flanquean las
regiones codificantes del
ARN o del ADN, pero no
son traducidas. La
traducción de ADN a
proteína mediante una
tabla de código genético
se denomina conceptual,
indicando que no tiene
validación experimental.
ADN
En una longitud
arbitraria de ADN, no
se sabe qué base
marca el inicio de la
secuencia codificante
(CDS), de forma que
debe realizarse una
trducción en seis
pautas. El reto es
determinar cuál es la
pauta de lectura
correcta.
ADN
Las características empleadas
para predecir posibles
regiones codificantes en el
ADN son: suficiente longitud
de la ORF, presencia de
secuencias de Kozak
flanqueantes, patrones de uso
de codones, preferencia de la
tercera base y presencia de
sitios de unión a ribosomas
(secuencias de
Shine.Dalgarno) antes del
codón de inicio.
ADN
La presencia de intrones y
exones en los genes
eucarióticos puede dar lugar
a productos génicos de
longitudes diferentes,
porque puede que no todos
los exones estén incluidos
en el transcrito final. Las
proteínas resultantes se
conocen como variantes de
procesado o formas
procesadas
alternativamente.
ADN
Las CDS completas raramente
son secuenciadas en una
reacción, de modo que se
alinean fragmentos
solapantes de longitud
variable para construir un
consenso (el ensamblaje de
secuencias). Las lecturas
múltiples de bases de cada
posición de la secuencia dan
una mayor fiabilidad al
resultado.
ADN
Una proporción sustancial de los
datos de ADN disponibles en la
actualidad deriva de marcas
de secuencias expresadas
(EST), que son secuencias
parciales. La producción de
EST está altamente
automatizada y los resultados
suelen estar contaminados con
bases ambíguas o que faltan.
Esto da lugar a dificultades en
la interpretación de las
secuencias.
ADN
La jerarquía de
información genómica
(genoma cromosómico,
genoma expresado,
proteoma, etc.) precisa
de que se apliquen
diferentes herramientas
analíticas y habilidades
interpretativas en cada
nivel.
ADN
Se han desarrollado
varios enfoques para
el establecimiento
de genotecas de EST
para su explotación
comercial o
académica. Entre los
proveedores de
información de EST
se encuentran
Merck/IMAGE, Incyte
y TIGR.
ADN
Las herramientas
públicamente
disponibles para el
análisis de EST son
las de búsqueda,
ensamblaje y
agrupamiento de
secuencias.
Técnicas de
alineamiento de pares
de secuencias
Alineamiento de
secuencias
Las consultas a bases de datos
pueden tomar la forma de
consultas de texto o
búsquedas de similitud de
secuencias. Para identificar
una relación evolutiva entre
una secuencia recién
determinada y una familia
génica conocida debe
evaluarse la cantidad de
similitud compartida.
Alineamiento de
secuencias
Un algoritmo es un conjunto
Un algoritmo es un conjunto
de pasos que definen un
proceso computacional; un
programa es la
implementación de un
algoritmo. Puede haber
varias implementaciones
diferentes del mismo
algoritmo, que deberían
(pero puede que no) dar
los mismos resultados.
Alineamiento de
secuencias
La forma más simple de
comparar dos secuencias es
alinearlas insertando
caracteres de hueco para
hacer que estén en
concordancia vertical. Contar
las posiciones con caracteres
coincidentes da una
puntuación simple para el
alineamiento.
Alineamiento de
secuencias
Las matrices de identidad son ralas(1) y en
consecuencia tienen poca potencia para el
diagnóstico. Las matrices de similitud ponderan
las coincidencias de resíduos no idénticos según
tasas de sustitución observadas a lo largo de
grandes distancia evolutivas. Tales matrices dan
lugar a ruido porque aumentan tanto las
coincidencias aleatorias como las señales
débiles. La distinción entre señales biológicas de
baja puntuación y ruidos de puntuación elevada
es un desfío central en el análisis de secuencias.
Alineamiento de
secuencias
Las puntuaciones de la Matriz de
Datos de mutación de Dayhoff se
basan en el concepto de de
mutuación puntual aceptada
(PAM). Una distancia evolutiva
de 250 PAM da puntuaciones de
similitud equivalentes a que
quede un 20% de coincidencias
entre dos secuencias. A menudo
se emplea la PAM 250 como
matriz por defecto en los
programas de comparación.
Alineamiento de
secuencias
Un método básico para comparar dos
secuencias es el gráfico de puntos
(dotplot). Este es un gráfico en el
que las secuencias se disponen
sobre los ejes x e y y se dibujan
cruces o puntos en todas las
posiciones en las que se observan
resíduos coincidentes. Para
secuencias idénticas, esto da lugar
a una línea diagonal ininterrumpida
a través de la gráfica, mientras que
secuencias similares originan
diagonales discontínuas.
Alineamiento de
secuencias
Los alineamientos son modelos
que reflejan diferentes
perspectivas biológicas. Un
modelo no es por tanto más o
menos correcto que otro. Dos
enfoques generales consideran
la similitud (a) a través de toda
la longitud de las secuencias(1)
y (b) a través de sólo parte de
las secuencias(2) .
Alineamiento de
secuencias
Los programas FastA y
BLAST son métodos de
búsqueda de similitud
local que se concentran
en hallar
emparejamientos cortos
idénticos, que pueden
contribuir a un
emparejamiento total.
Las implementaciones
recientes de BLAST
puede generar
alineamientos con
huecos.
Alineamiento de
secuencias múltiples
Alineamiento de secuencias
múltiples
El análisis de grupos de secuencias que forman familias
génicas precisa de la capacidad de hacer conexiones
entre más de dos miembros de la familia. Los
alineamientos múltiples se utilizan para revelar
características conservadas de la familia.
múltiples
Los alineamientos
múltiples, al igual que
los emparejados, son
simplemente modelos.
No hay nada
inherentemente correcto
o incorrecto en un
alineamiento concreto.
Lo importante es si el
modelo refleja con
precisión los datos
biológicos conocidos.
múltiples
Los alineamientos basados en la
secuencia o la estructura son,
ambos, modelos imperfectos, pues
ninguno puede recoger todos los
niveles de información biológica.
Ambos enfoques son
representaciones básicas de
aspectos particulares de la biología
y no se debe considerar que
cualquiera de ellos representa
cierta verdad última o patrón
dorado.
múltiples
Un alineamiento múltiple puede
definirse como una tabla 2D
en la que las filas representan
secuencias individuales y las
columnas posiciones de los
residuos. Una posición de un
residuo en una secuencia no
alineada se denomina posición
absoluta, mientras que la
posición del resíduo alineado
se llama posición relativa.
múltiples
A menudo se descartan los
métodos manuales por ser
subjetivos. Sin embargo, los
resultados de los programas
de alineamiento automático
casi invariablemente
necesitan un pulido manual,
por lo que los editores de
alineamiento se han
convertido en herramientas
esenciales.
múltiples
Hay numerosas bases de datos de
alineamientos accesibles a través
de la web. Son el resultado de
aproximaciones diferentes: p.ej.,
la aplicación de métodos
automáticos para agrupar los
recursos de secuencias primarias
en familias o de intentos de
producir discriminadores de
familias génicas para la inclusión
en bases de datos secundarias.
múltiples
Los alineamientos producidos por métodos puramente

automáticos deben tratarse con cuidado, especialmente en
los casos en que la similitud de las secuencias es baja; a
menudo dan lugar a un exceso de inserción de huecos que
produce alineamientos incorrectos.
múltiples
Se han desarrollado varias técnicas
computacionales para consultar
bases de datos de secuencias
primarias empleando estructuras
de datos basadas en
alineamientos. Un enfoque
híbrido reciente es el PSI-BAST(1) .
Aunque de rápida ejecución,
tiene la desventaja de que la
búsqueda automática iterativa
puede degenerar y llevar a la
pérdida del perfil.
Construcción de un
protocolo de búsqueda
de secuencias
Protocolo de búsqueda de
secuencias
Al intentar caracterizar una secuencia de determinación
reciente, queremos saber de qué proteína se trata, a qué
familia puede pertenecer, cuál es su función y cómo
podemos explicar su función en términos estructurales.
secuencias
Todavía no existe la base
de datos o el software
que permita dar
respuesta directa a todas
estas cuestiones. Es
razonable conjuntar
diversas técnicas en un
protocolo de búsqueda.
secuencias
1. Búsqueda de
identidades en una
base de datos
compuesta.
Es la primera y más
rápida prueba de si
existe una secuencia
exacta en las bases
de datos públicas.
secuencias
2. Búsqueda de similitudes. Mostrará si la
secuencia problema pertenece a una familia
ampliada(p.ej.) .
secuencias
3. Búsqueda en bases de datos de patrones. Indicará

si la secuencia problema contiene algún motivo
característico que pueda sugerirnos aspectos
particulares de su estructura o función(recursos) .
secuencias
4. Búsquedas en bases de datos de clasificaciones de
plegamientos; una vez se ha alcanzado un diagnóstico de
consenso, se puede acceder a más imformación (si se
conoce una estructura) consultando las bases de datos de
clases de plegamientos o examinando el resumen de
información proporcionado en PDBSum.
secuencias
Sólo mediante el empleo
de un conjunto de bases
de datos y herramientas
podemos obtener el
máximo de nuestro
análisis de secuencias,
porque ninguna de las
bases es completa y
ninguno de los métodos
de búsqueda infalible.
secuencias
Uniendo todos los

resultados, como
las piezas de un
rompecabezas,
puede surgir una
imagen
estructural,
funcional y
evolutiva más
completa de una
proteína.
secuencias
Un enfoque práctico se bosqueja en el
tutorial interactivo en línea en:
http://umber.sbs.man.ac.uk/dbbrowser/
bioactivity/
Ejercicios prácticos
Ejercicios prácticos
www.bioxeo.com/bioinfo

Bioinformática

Cargado por

Copyright:

Formatos disponibles

Bioinformática

Cargado por

Información del documento

Descripción original:

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Bioinformática

Cargado por

Copyright:

Formatos disponibles

Bioinformática

Análisis de secuencias de ADN.

Carlos de Paz y Julián Dorado

Análisis de secuencias de Proteínas.

Un reto clave para la

 Se ha conseguido un  La incompleta comprensión del

Siempre que sea posible,

Los alineamientos producidos por métodos puramente

3. Búsqueda en bases de datos de patrones. Indicará

Uniendo todos los

También podría gustarte