Examen 2014 Done

Descargar como docx, pdf o txt
Descargar como docx, pdf o txt
Está en la página 1de 7

Examen2014

Ingeniería Biomédica – Universidad de Barcelona


Examen de Bioinformática – 16 de Junio de 2014
Cuestiones: 1 punto la respuesta correcta Ejercicio R: 6 puntos
Abre un fichero de texto con Word y copia estas preguntas. Resalta en negrita la
opció n correcta.
P1: Antes de proceder con el aná lisis supervisado diferencial de microarrays es
necesario:
a) Un proceso de normalizació n para eliminar ruido de fondo
b) Un proceso de enriquecimiento funcional
c) Un proceso de normalización como el de ajuste de cuantiles para reducir
variaciones indeseadas entre los microarrays.
d) Un proceso de sumarizació n a partir de las intensidades obtenidas en el scanner
e) Un proceso de sumarizació n que corrige por contenido de GC de las probes
P2: Los métodos de aná lisis de enriquecimiento funcional se basan en tipos de test:
a) t-test con correcció n por multiples comparaciones
b) nivel de cambio (fold change)
c) componentes principales
d) test de Fisher
e) test Rank Prod
P3: Algunos microarrays de DNA nos permiten :
a) Analizar la expresió n proteica de elevado nú mero de genes
b) Analizar la expresión de mRNA siempre que las dos muestras a comparar
sean cohibridadas en el mismo array
c) Determinar los puntos del genoma a los que potencialmente se une una
determinada proteína.
d) Determinar la secuencia de centenares de genes a la vez
e) Determinar el estado de metilació n del ADN mediante la hibridació n directa del
ADN problema sobre el microarray
P4: Actualmente los sistemas de NGS de segunda generació n má s utilizados se basan
todos ellos:
a) En la secuenciació n de un elevadísimo nú mero de moléculas de DNA generando
fragmentos de secuencia largos (>1000bp)
b) En la utilizació n de nucleó tidos marcados con diferentes fluorocromos.
c) En la electroforesis capilar de los productos de secuenciació n.
d) En la separación espacial y posterior amplificación clonal de las moléculas a
secuenciar.
e) En la utilizació n de la PCR en emulsió n para amplificar de forma clonal las
moléculas a secuenciar.

Ejercicio R:
En el campus virtual encontraras los fichero de datos “xc1.dat” y “xc2.dat”.
Descá rgalos y grá balos en el directorio “d:/temp”. Crea el directorio (o carpeta) en
caso de que no exista previamente.
Desde “R studio” importa el fichero de datos. Las dos matrices contienen fragmentos
de un cromatograma para 20 sujetos control (xc1) y para 20 sujetos condició n (xc2).
Los datos está n separados por tabuladores. Sin embargo, al importar los datos desde
Rstudio observa que aparece una columna extra (columna 21) con NA (not a number).
controlx1<-read.table("xc1.dat.txt",sep="")
controlx1$V21<-rep(NA,481)
diseasex2<-read.table("xc2.dat.txt",sep="")
diseasex2$V21<-rep(NA,481)

Tarea 1)
Lo primero que debéis hacer es corregir este pequeñ o problema al importar los datos
y eliminar esa columna de las dos matrices. Os deben quedar dos data.frames de
tamañ o 481 filas x 20 columnas. Para facilitar el resto de las tareas os recomiendo que
transforméis los data.frame en matrices con el comando “as.matrix”. Consulta la ayuda
si tienes dudas sobre este comando. (1 punto)
controlx1c<-controlx1[,1:20]
diseasex2c<-diseasex2[,1:20]

CON1<-as.matrix(controlx1c)
DIS2<-as.matrix(diseasex2c)

En los datos se observa la presencia de dos picos correspondientes a dos metabolitos


sobre una línea de base variante en el tiempo. En rojo está n los datos xc2 y en azul los
datos xc1.
x=seq(1:481)
matplot(controlx1c,type="l",col="green")
for(i in 1:20) {
lines(diseasex2c[,i],type="l",col="red")
}
Tarea 2)
Para comprobar que todo es correcto intenta generar la misma grá fica con los datos
que has importado. Dibuja en verde los datos xc1 y en rojo los datos xc2. Incorpora
esta grá fica a tu fichero word. (1 punto)
El objetivo final es determinar si alguno de estos dos metabolitos aparece con
una concentración diferencial en ambos grupos. La concentración del
metabolito es proporcional a la altura del pico
Sin embargo, antes es necesario preprocesar estos datos. Lo que debéis hacer en este
ejercicio es: 1) filtrar los datos para eliminar ruido, 2) estimar y sustraer la línea de
base.
Comprueba si está n instalados los siguientes paquetes: “signal” y “ptw”. Carga las
librerías.
library(signal)
library(ptw)
Tarea 3)
Selecciona la primera columna del fichero xc1 y fíltrala con un filtro de Savitzky-Golay
de orden p=2 y longitud de puntos n impar. Para ello debes utilizar el comando
“sgolayfilt”. Consulta la ayuda para ver la sintaxis del comando. A mayor n mayor
suavizado, sin embargo un valor demasiado elevado reducirá la altura del pico
ostensiblemente. Determina el mayor valor de n que puedes utilizar para el suavizado
de los espectros. Representa y compara en la misma grá fica la señ al sin filtrar y la
filtrada con distintos colores. Incorpora esta grá fica a tu fichero Word e indica que
valor de longitud del filtro se ha utilizado. (2 puntos)
XC1filt<-sgolayfilt(controlx1c$V1,p=5,n=15)

matplot(controlx1c$V1,type = "l",col="blue")

for ( i in seq(9,51,by = 5)){


XC2filt<-sgolayfilt(controlx1c$V1,p=2,n=2*i+1)
lines(XC2filt,type = "l",col=i)
}

### A partir de n=21 aprox empieza a reducir demasiado la altura del


pico.
XC1filt<-sgolayfilt(controlx1c$V1,p=2,n=21)
matplot(XC1filt,type = "l",col="blue",ylim = c(-1,17))

Tarea 4)
Estima y sustrae la línea de base del espectro anterior ya filtrado mediante el método
de Asymetric Least Squares. Si utilizas la versió n por defecto observará s que la línea
de base no queda bien estimada. Para ello representa en la misma figura el espectro y
la línea de base estimada. Incorpora la grá fica al fichero Word. Para mejorar la línea
de base estimada es necesario reducir varios ordenes de magnitud un pará metro
interno (constante de regularizació n lambda) . Consulta la ayuda para ver como tocar
este pará metro. Determina a tu parecer el mejor pará metro de regularizació n y
representa ahora de nuevo la línea de base estimada con el nuevo pará metro.
Incorpora la grá fica al fichero word e indica el valor de lambda utilizado. Finalmente
sustrae la línea de base estimada de los datos originales y representa como queda el
cromatograma. Incorpora la grá fica al fichero Word. (2 puntos)
matplot(XC1filt,type = "l",col="blue",ylim = c(-1,17))
lines(asysm(XC1filt,lambda = 1E6,p = 1E-3),type="l",col="gray")
## reducimos 3 ordenes de magnitud lambda=1E3
lines(asysm(XC1filt,lambda = 1E3,p = 1E-3),type="l",col="red")
## linea de base corregida
lines(XC1filt-asysm(XC1filt,lambda = 1E3,p = 1E-3),type="l",col="green")
legend("toplef",legend=c("Rawdata","Baseline
default","Baselinefitted","Baselinecorrected"),col=c("blue","gray","red",
"green"),lty=c("solid","solid","solid","solid"))

Puntos Bonus
El preprocesado que has realizado para un sujeto, debe extenderse a todos los sujetos
(40 en total). Propó n un có digo R utilizando bucles for que realice el fitrado de las 40
(20+20) columnas y la estimació n de la línea de base también de las 40 columnas
(20+20) (2 puntos).
matplot(XC1filt,type = "l",col="blue",ylim = c(-1,17))
for ( i in 1:20){
XC1_filt<-sgolayfilt(controlx1c[,i],p=2,n=21)
lines(XC1_filt-asysm(XC1_filt,lambda = 1E3, p=1E-3),type =
"l",col="green")
XC2filt<-sgolayfilt(diseasex2c[,i],p=2,n=21)
lines(XC2filt-asysm(XC2filt,lambda = 1E3, p=1E-3),type = "l",col="red")
}

También podría gustarte