45 Analisis Farmacogenomico
45 Analisis Farmacogenomico
45 Analisis Farmacogenomico
screening
Joaquín Amat Rodrigo
Septiembre, 2018
Tabla de contenido
Introducción ......................................................................................................................................................................... 3
Necesidad.......................................................................................................................................................................... 4
Biomarcadores................................................................................................................................................................ 5
Cultivo celular ................................................................................................................................................................. 6
Actividad in vitro ........................................................................................................................................................... 7
Curva Dosis Respuesta con R .................................................................................................................................. 8
Datos ......................................................................................................................................................................................16
Actividad de fármacos ...............................................................................................................................................16
Mutaciones y expresión genética .........................................................................................................................17
Pathways .........................................................................................................................................................................18
Carga de datos ..............................................................................................................................................................18
Exploración de datos ......................................................................................................................................................21
Líneas celulares ............................................................................................................................................................21
Número de mutaciones ............................................................................................................................................22
Número promedio de genes por pathway ........................................................................................................28
Similitud entre líneas celulares ............................................................................................................................29
Actividad del compuesto ..........................................................................................................................................33
Procesado de datos ..........................................................................................................................................................34
Reestructuración .........................................................................................................................................................34
Recodificación ..............................................................................................................................................................34
Código ...............................................................................................................................................................................35
Identificación de mutaciones .....................................................................................................................................37
T-test .................................................................................................................................................................................37
Mann–Whitney–Wilcoxon .....................................................................................................................................38
Tamaño del efecto D de Cohen .............................................................................................................................39
Análisis de normalidad .............................................................................................................................................40
Análisis farmacogenómico de paneles celulares, drug screening
2
Análisis farmacogenómico de paneles celulares, drug screening
Introducción
3
Análisis farmacogenómico de paneles celulares, drug screening
Necesidad
Todos los conocimientos necesarios para solventar con éxito los problemas descritos no suelen
formar parte de las habilidades de los investigadores del ámbito de la biomedicina (biólogos,
biotecnólogos, médicos), lo que, en la práctica, suele conllevar que el análisis sea delegado a
expertos en otras áreas (bioinformáticos y estadísticos en su mayoría). Esto supone un riesgo
para el avance de los proyectos de ámbito biomédico. En primer lugar, el análisis de la
información se convierte en un cuello de botella, los datos generados por muchos
investigadores deben de ser analizados por unos pocos, lo que ralentiza la obtención de
resultados. En segundo lugar, y más importante, si la trasferencia de conocimiento entre
profesionales de las distintas áreas no es suficiente o el analista no tiene formación sobre el
ámbito del que proceden los datos, difícilmente se podrá extraer la información adecuada.
4
Análisis farmacogenómico de paneles celulares, drug screening
Carga de datos
Integración con datos Ómicos (información genómica y transcriptómica)
Contrastes de hipótesis
Análisis de correlación
Análisis de pathways
Clustering de compuestos
Visualizar los resultados.
Biomarcadores
Varias décadas de tratamientos contra el cáncer han dejado patente que existe una alta
heterogeneidad en cuanto a la efectividad que tiene un determinado fármaco oncológico en la
población de pacientes. Los avances en el estudio de la biología molecular del cáncer, han
sacado a la luz claras evidencias de que la respuesta de un fármaco depende en gran medida de
factores genómicos propios del paciente y del tumor.
Fig.1 Esquema sobre la estratificación de los pacientes. Imagen obtenida de 2017 The University of
Texas MD Anderson Cancer Center.
Dentro del ámbito de los fármacos de oncología, son muchas las ventajas que implica disponer
de un biomarcador, algunas de las principales son: identificación certera de los pacientes que
pueden beneficiarse de un tratamiento, reducción de efectos secundarios y aumento del éxito
en las fases clínicas. Un claro ejemplo es el fármaco Imatinib, que consigue un porcentaje de
5
Análisis farmacogenómico de paneles celulares, drug screening
supervivencia en los 5 primeros años del 90% en aquellos enfermos de Leucemia Milode
Crónica que tienen una aberración en los genes BCR-ABL (Druker BJ, et al. Five-year follow-
up of patients receiving imatinib for chronic myeloid leukemia).
Aunque el anterior es un caso muy prometedor y que pone de manifiesto el potencial médico
que tiene la identificación de biomarcadores asociados con enfermedades, son pocos los casos
descubiertos. De hecho, la gran mayoría de tratamientos oncológicos capaces de combatir con
notable eficacia el cáncer, no han sido asociados a una alteración biológica concreta que pueda
ser empleada para seleccionar a aquellos pacientes en los que el tratamiento resulta efectivo.
La combinación de la información generada en las diferentes disciplinas Ómicas (genómica,
trascriptómica, proteómica, etc) junto con las metodologías de Data Mining se han convertido
en la principal estrategia para la identificación de biomarcadores.
Cultivo celular
El término cultivo celular hace referencia al proceso por el cual células vivas se mantienen y se
reproducen bajo condiciones controladas fuera de su ambiente natural. Dada la característica
de las células cancerígenas para multiplicarse de forma descontrolada, es posible, a partir de
unas pocas células extraídas en una biopsia médica, mantenerlas y expandirlas de forma
ilimitada dentro de dispositivos diseñados para reproducir las condiciones del cuerpo humano
(temperatura, humedad, nutrientes, gases…) (Figura 2).
Esta forma de proceder ha permitido crear bancos de células en los que se recogen multitud
tipos de tumorales (pulmón, intestino, colon, etc), haciendo posible que los investigadores
dispongan de material biológico con el que experimentar independientemente de los pacientes.
Un ejemplo de ello es la American Type Culture Collection (ATCC), una organización sin ánimo
de lucro que reúne, almacena y distribuye hasta 3000 líneas celulares de origen animal.
6
Análisis farmacogenómico de paneles celulares, drug screening
Actividad in vitro
En el ámbito de los fármacos antitumorales, uno de los estudios más frecuentes de actividad in
vitro consiste en medir la relación que existe entre la dosis del fármaco y la respuesta celular
que provoca, lo que se conoce como cell-based drug rensponse. Para ello, las celular tumorales
se exponen a distintas concentraciones del fármaco en estudio y, tras un determinado tiempo
de exposición, se cuenta el número de células vivas. A continuación, se normaliza el número de
células vivas respecto a un control máximo (células no expuestas al fármaco, señal máxima) y
un control mínimo (células expuestas a un fármaco de referencia que las mata, señal mínima)
convirtiendo así las cuentas en porcentajes de actividad.
señal − señalmínima
% actividad =
señalmáxima − señalmínima
Finalmente, empleando los % de actividad, se ajusta una curva sigmoidea que representa la
relación entre la dosis del fármaco y la respuesta conseguida.
límite superior − límite inferior
respuesta = límite inferior +
𝑋 𝑝
1+( )
𝐼𝐶50
donde los límites inferior y superior son las asíntotas de la curva, X la concentración del
fármaco, p la pendiente de la curva e IC50 la concentración del fármaco con el que se consigue
un 50% de la actividad máxima.
A partir de este modelo se pueden obtener múltiples métricas que describen la actividad del
fármaco, algunas de las más empleadas son:
IC50: concentración del fármaco con el que se consigue un 50% de la actividad máxima
observada.
Emax: actividad máxima observada, sea o no a la concentración máxima estudiada.
AUC: área bajo la curva dosis-respuesta.
7
Análisis farmacogenómico de paneles celulares, drug screening
library(ggplot2)
concentracion <- c(0.0108, 0.0488, 0.2195, 0.9877, 2.643, 4.4444, 20.0, 50.0)
actividad <- c(-1.6941, -5.6772, 8.2225, 24.2046, 72.145, 98.0494, 106.7267,
104.568)
datos_actividad <- data.frame(concentracion, actividad)
head(datos_actividad)
## concentracion actividad
## 1 0.0108 -1.6941
## 2 0.0488 -5.6772
## 3 0.2195 8.2225
## 4 0.9877 24.2046
## 5 2.6430 72.1450
## 6 4.4444 98.0494
8
Análisis farmacogenómico de paneles celulares, drug screening
Con la función drm() se obtiene el ajuste de la curva, entre sus argumentos destacan:
• formula: descripción de las variables que forman el modelo en forma de ‘response ~ dose’.
• curveid: vector numérico o factor que actúa como identificador para diferenciar entre
varias curvas (en caso de que las haya).
9
Análisis farmacogenómico de paneles celulares, drug screening
• fc: tipo de función empleada para crear el modelo (curva). La función drm() permite
generar curvas empleando varios tipos de modelos, LL.4 y LL.5 para regresión logística de
4 y 5 parámetros respectivamente, y W1.4 para Weibull. Cada una de estas funciones
recibe como argumento una lista con el valor de los parámetros. Si se desea que el modelo
encuentre el valor óptimo de los parámetros se les da el valor NA.
• na.action: función que trate los valores ausentes, por defecto se emplea na.omit.
library(drc)
# Ajuste de la curva dosis respuesta con un modelo logístico de 4 parámetros en
# el que no se fija ninguno de ellos.
curve_fit <- drm(formula = actividad ~ concentracion, data = datos_actividad,
na.action = na.omit,
fct = LL.4(fixed = c(NA,NA,NA,NA),
names = c("Hill","Bottom","Top","IC50")))
El summary del objeto devuelto por drc muestra el valor estimado de cada uno de los
parámetros.
summary(curve_fit)
##
## Model fitted: Log-logistic (ED50 as parameter) (4 parms)
##
## Parameter estimates:
##
## Estimate Std. Error t-value p-value
## Hill:(Intercept) -2.12297 0.36954 -5.7449 0.0045501 **
## Bottom:(Intercept) -0.21912 3.30744 -0.0662 0.9503582
## Top:(Intercept) 106.96927 3.82516 27.9646 9.728e-06 ***
## IC50:(Intercept) 1.76658 0.18704 9.4447 0.0007008 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error:
##
## 5.395822 (4 degrees of freedom)
10
Análisis farmacogenómico de paneles celulares, drug screening
Una vez obtenido el ajuste, se puede predecir la actividad esperada para nuevas
concentraciones no probadas en el laboratorio, junto con su intervalo de confianza.
predict(object = curve_fit,
newdata = data.frame(concentracion = 5),
interval = "confidence")
Para extraer el valor de la IC50 relativa (concentración a la que el compuesto alcanza el 50% de
su actividad máxima), o absoluta (concentración a la que el fármaco consigue una actividad del
50%) se emplea la función ED().
##
## Estimated effective doses
##
## Estimate Std. Error
## e:1:50 1.76658 0.18704
Aunque se pude aplicar la función plot() a un objeto drc, suele ser preferible recurrir a la
librería ggplot2.
"concentracion"
head(predicciones)
11
Análisis farmacogenómico de paneles celulares, drug screening
ggplot(data = datos_actividad,
aes(x = log10(concentracion), y = actividad)) +
geom_point(size = 3, shape = 1) +
# Se añade la curva
geom_ribbon(data = predicciones,
aes(x = log10(concentracion), y=Prediction, ymin=Lower,
ymax=Upper),
alpha = 0.2) +
geom_line(data = predicciones,
aes(x=log10(concentracion), y= Prediction),
colour = "red", size=0.8) +
coord_cartesian(ylim = c(-20, 120)) +
labs(title = "Curva dosis respuesta") +
theme_bw()
12
Análisis farmacogenómico de paneles celulares, drug screening
Si existen varios valores de actividad para una misma concentración, por ejemplo, porque el
experimento tiene varias repeticiones, la función drc las tiene en cuenta automáticamente.
concentracion <- c(0.0108, 0.0488, 0.2195, 0.9877, 2.643, 4.4444, 20.0, 50.0,
0.0108, 0.0488, 0.2195, 0.9877, 2.643, 4.4444, 20.0, 50.0)
actividad <- c(-1.6941, -5.6772, 8.2225, 24.2046, 72.145, 98.0494, 106.7267,
104.568, 4.771, 3.834, 13.686, 36.412, 70.215, 104.320,
109.035, 108.163)
datos_actividad <- data.frame(concentracion, actividad)
datos_actividad$log_conc <- log10(concentracion)
ggplot(data = datos_actividad,
aes(x = log10(concentracion), y = actividad)) +
geom_point(size = 3, shape = 1) +
geom_ribbon(data = predicciones,
aes(x = log10(concentracion), y=Prediction, ymin=Lower,
ymax=Upper),
alpha = 0.2) +
geom_line(data = predicciones,
aes(x=log10(concentracion), y= Prediction),
colour = "red", size=0.8) +
coord_cartesian(ylim = c(-20, 120)) +
labs(title = "Curva dosis respuesta") +
theme_bw()
13
Análisis farmacogenómico de paneles celulares, drug screening
En la práctica, los resultados obtenidos en los experimentos suelen contener bastante ruido, lo
que hace que los datos no se ajusten bien a una curva sigmoide, produciendo valores para
algunos de los parámetros que no tienen sentido desde el punto de vista biológico, por ejemplo,
que el top de la curva sea muy superior al 100% o que el bottom sea muy inferior a 0%. En
estos casos se pueden fijar algunos de los parámetros de la curva.
# Ajuste de una curva dosis respuesta fijando el bottom a cero y el top a 100.
curve_fit <- drm(formula = actividad ~ concentracion, data = datos_actividad,
na.action = na.omit,
fct = LL.4(fixed = c(NA,0,100,NA),
names = c("Hill","Bottom","Top","IC50")))
##
## Model fitted: Log-logistic (ED50 as parameter) (2 parms)
##
## Parameter estimates:
##
## Estimate Std. Error t-value p-value
## Hill:(Intercept) -2.12637 0.33865 -6.279 2.025e-05 ***
## IC50:(Intercept) 1.47841 0.14288 10.347 6.112e-08 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error:
##
## 7.846383 (14 degrees of freedom)
14
Análisis farmacogenómico de paneles celulares, drug screening
ggplot(data = datos_actividad,
aes(x = log10(concentracion), y = actividad)) +
geom_point(size = 3, shape = 1) +
geom_ribbon(data = predicciones,
aes(x = log10(concentracion), y=Prediction, ymin=Lower,
ymax=Upper),
alpha = 0.2) +
geom_line(data = predicciones,
aes(x=log10(concentracion), y= Prediction),
colour = "red", size=0.8) +
coord_cartesian(ylim = c(-20, 120)) +
labs(title = "Curva dosis respuesta") +
theme_bw()
# Se hace un detach del paquete drc y MASS para que no haya conflicto de funciones.
detach("package:drc", unload=TRUE)
15
Análisis farmacogenómico de paneles celulares, drug screening
Datos
Actividad de fármacos
El proyecto Genomics of Drug Sensitivity in Cancer se creó como una colaboración entre los
centros de investigación Wellcome Sanger Institute y el Center for Molecular Therapeutics,
Massachusetts General Hospital Cancer Center. El objetivo de este proyecto fue lanzar un
plataforma a gran escala que permitiera analizar la actividad antitumoral de moléculas en una
cantidad de líneas celulares lo suficientemente grande para que representaran a la población de
pacientes de cáncer. Como resultado, se analizó un total de 266 moléculas en más de 1000
líneas celulares cancerígenas. En el momento de redactar este documento, la versión
disponible es (v17.3).
Si bien el objetivo es que los investigadores empleen sus propios datos de actividad, entre las
moléculas analizadas en el proyecto Genomics of Drug Sensitivity in Cancer, se incluyen
fármacos que llevan años en el mercado y cuyas asociaciones con los patrones moleculares
están bien descritos. Esto supone una fuente de información muy útil para validar nuevas
estrategias de análisis.
En este documento, se emplean como ejemplo los datos del fármaco AZ628, un inhibidor Raf
kinase desarrollado por AstraZeneca. Su eficacia ha sido probada para la inhibición de la
proliferación tumoral especialmente en líneas con mutaciones BRAF V600E. Produce arresto
del ciclo celular, lo que induce la apoptosis y, finalmente, la muerte celular.
16
Análisis farmacogenómico de paneles celulares, drug screening
Son varios los proyectos europeos y americanos que han puesto a disposición pública este tipo
de información. COSMIC (Catalogue Of Somatic Mutations In Cancer) es una base de datos
que recopila información molecular sobre 1015 líneas celulares y que se ha convertido en el
mayor referente en cuanto a información de esta naturaleza. COSMIC ofrece acceso a toda su
información sin costes de licencia a toda la comunidad de investigadores siempre y cuando no
tengan fines comerciales. En el momento de redactar este documento, la versión disponible es
(release v85, 8th May 2018). Los dos data sets empleados en este proyecto son:
• Complete mutation data (408.4Mb): archivo tab delimitado con información detallada
sobre las mutaciones de cada una de las líneas celulares incluidas en el proyecto Cosmic
Cell Lines. De entre las múltiples columnas que contiene el data set, para los análisis que
se realizan en el programa aquí presentado se emplean:
• Gene expression (650.1Mb): archivo tab delimitado con los niveles de expresión de
todos los genes en cada una de las líneas celulares incluidas en el proyecto Cosmic Cell
Lines. Los niveles de expresión se han obtenido con la tecnología * Affymetrix Human
Genome U219 Array*.
17
Análisis farmacogenómico de paneles celulares, drug screening
Pathways
ConsensusPathDB-human es una base de datos creada por el Max Planck Institute for
Molecular Genetics que integra información sobre los genes que codifican las proteínas que
participan en cada una de las rutas de señalización (pathways). Esta información es muy
importante cuando se desea conocer si las alteraciones genéticas presentes un determinado
cáncer están localizadas en una ruta de señalización concreta. EL contenido de la base de datos
puede descargarse libremente en un archivo texto llamado CPDB_pathways_genes.tab. En su
interior se encuentra la siguiente información:
Carga de datos
Se cargan los 3 sets de datos (mutaciones, expresión y pathways) empleados a lo largo del
documento. Hay que tener en cuenta que todos ellos suman aproximadamente 1 GB, por lo que
pueden saturar la memoria RAM. De ser así, es aconsejable cargarlos individualmente cuando
sean necesarios y eliminarlos cuando no.
library(tidyverse)
# EXPRESIÓN GENÉTICA
# ==============================================================================
# Se cargan únicamente las columnas de interés que sea más rápido.
datos_expresion <- read_delim(file = "CosmicCLP_CompleteGeneExpression.txt",
col_names = TRUE,
col_types = cols_only(SAMPLE_NAME = "c",
GENE_NAME = "c",
Z_SCORE = "n"),
delim = "\t")
datos_expresion <- datos_expresion %>% rename(sample_name = SAMPLE_NAME,
gene_name = GENE_NAME,
z_score = Z_SCORE)
head(datos_expresion)
18
Análisis farmacogenómico de paneles celulares, drug screening
## # A tibble: 6 x 3
## sample_name gene_name z_score
## <chr> <chr> <dbl>
## 1 MC-CAR NXNL2 -1.71
## 2 MC-CAR CCR1 -1.03
## 3 MC-CAR SH3KBP1 1.35
## 4 MC-CAR GIMAP5 2.17
## 5 MC-CAR FAM46D 1.23
## 6 MC-CAR NR2E3 -0.92
# MUTACIONES
# ==============================================================================
# Se cargan únicamente las columnas de interés que sea más rápido.
datos_mutaciones <- read_delim(file = "CosmicCLP_MutantExport.txt",
col_names = TRUE,
col_types = cols_only(
`Gene name` = "c",
`Sample name` = "c",
`Primary site` = "c",
`Mutation Description` = "c"),
delim = "\t")
## # A tibble: 6 x 4
## gene_name sample_name primary_site mutation
## <chr> <chr> <chr> <chr>
## 1 KRAS PL-21 haematopoietic_and_lymphoid~ Substitution - Misse~
## 2 P2RY2 A375 skin Substitution - Misse~
## 3 SALL4 MCC26 skin Substitution - Misse~
## 4 SLC35F2 LS-411N large_intestine Substitution - codin~
19
Análisis farmacogenómico de paneles celulares, drug screening
# PATHWAYS
# ==============================================================================
datos_pathways <- read_delim(file = "CPDB_pathways_genes.txt",
col_names = TRUE,
col_types = cols_only(
pathway = "c",
source = "c",
hgnc_symbol_ids = "c"
),
delim = "\t")
head(datos_pathways)
## # A tibble: 6 x 3
## pathway source hgnc_symbol_ids
## <chr> <chr> <chr>
## 1 PI3K-Akt signaling pathway -~ KEGG BCL2L1,PCK2,PCK1,GHR,PPP2R3B,PPP2R~
## 2 Alanine, aspartate and gluta~ KEGG NIT2,ADSS,ASNS,GLUL,ABAT,ADSL,GLS,~
## 3 Folate biosynthesis - Homo s~ KEGG ALPP,ALPPL2,DHFR,QDPR,SPR,GCH1,MOC~
## 4 Complement and coagulation c~ KEGG KNG1,F11,CD55,C1QC,VSIG4,CD59,PROS~
## 5 Citrate cycle (TCA cycle) - ~ KEGG PCK2,PCK1,CS,MDH2,MDH1,FH,IDH3A,OG~
## 6 Antigen processing and prese~ KEGG CD74,HSPA2,TAP2,KLRD1,HSPA5,HSPA4,~
# ACTIVIDAD DE AZ628
# ==============================================================================
datos_actividad <- read_csv(file = "compound_activity_palbociclib_cosmic_lung.csv")
head(datos_actividad)
## # A tibble: 6 x 7
## cell_line id_compuesto Tissue `Tissue sub-typ~ actividad abs_IC50_uM
## <chr> <chr> <chr> <chr> <dbl> <dbl>
## 1 A549 palbociclib lung lung_NSCLC_aden~ 0.68 648
## 2 SK-LU-1 palbociclib lung lung_NSCLC_aden~ 709 646
## 3 NCI-H838 palbociclib lung lung_NSCLC_aden~ 788 675
## 4 NCI-H3122 palbociclib lung lung_NSCLC_aden~ 831 684
## 5 NCI-H1355 palbociclib lung lung_NSCLC_aden~ 1.16 773
## 6 NCI-H1703 palbociclib lung lung_NSCLC_aden~ 1.19 716
## # ... with 1 more variable: max_activity <dbl>
20
Análisis farmacogenómico de paneles celulares, drug screening
Exploración de datos
Antes de empezar con los análisis estadísticos, conviene realizar una exploración de los datos
disponibles.
Líneas celulares
Número total de líneas celulares para las que se dispone de información genética:
## [1] 1020
21
Análisis farmacogenómico de paneles celulares, drug screening
Número de mutaciones
## # A tibble: 6 x 2
## # Groups: sample_name [6]
## sample_name n
## <chr> <int>
## 1 SNU-1040 20675
## 2 Daudi 10046
## 3 CW-2 9567
## 4 SNU-81 9171
## 5 HCC2998 8882
## 6 KARPAS-45 8480
summary(mutaciones_por_linea$n)
rm(mutaciones_por_linea)
22
Análisis farmacogenómico de paneles celulares, drug screening
Puede observarse que, la distribución del número de mutaciones por línea celular, es muy
asimétrica. La gran mayoría de líneas acumulan en torno a 600-700 mutaciones, con algunas
excepciones en las que se dispara esta cantidad.
Los valores anteriores pueden resultar sospechosos puesto que, algunas líneas, tienen un
número de mutaciones superior al número de genes. Esto es posible ya que, un mismo gen,
puede contener múltiples mutaciones. Véase ahora el número de genes mutados por línea
celular.
## # A tibble: 6 x 2
## # Groups: sample_name [6]
## sample_name n
## <chr> <int>
## 1 SNU-1040 10295
## 2 CW-2 6403
## 3 SNU-81 5943
## 4 HCC2998 5756
## 5 KARPAS-45 5739
## 6 HCT-15 5592
23
Análisis farmacogenómico de paneles celulares, drug screening
summary(genes_mut_por_linea$n)
rm(genes_mut_por_linea)
Número medio de mutaciones por tejido (un gen mismo gen puede tener múltiples
mutaciones):
ggplot(data = mutaciones_por_tejido,
aes(x = reorder(primary_site, media), y = media)) +
geom_col(fill = "gray", color = "black") +
coord_flip() +
theme_bw() +
labs(title = "Número medio de mutaciones por tejido",
x = "Tejido")
summary(mutaciones_por_tejido$media)
24
Análisis farmacogenómico de paneles celulares, drug screening
rm(mutaciones_por_tejido)
datos_mutaciones %>%
group_by(primary_site, sample_name) %>%
count() %>%
group_by(primary_site) %>%
mutate(mediana = median(n)) %>%
ungroup() %>%
ggplot(aes(x = reorder(primary_site, mediana), y = n, color = primary_site)) +
coord_flip() +
geom_boxplot() +
labs(title = "Número de mutaciones por tejido",
x = "Tejido") +
theme_bw() +
theme(legend.position = "none")
25
Análisis farmacogenómico de paneles celulares, drug screening
## # A tibble: 6 x 2
## primary_site media
## <chr> <dbl>
## 1 large_intestine 6178.
## 2 endometrium 4016.
## 3 prostate 2759.
## 4 soft_tissue 2550.
## 5 haematopoietic_and_lymphoid_tissue 2109.
## 6 skin 2020.
ggplot(data = genes_mut_por_tejido,
aes(x = reorder(primary_site, media), y = media)) +
geom_col(fill = "gray", color = "black") +
coord_flip() +
theme_bw() +
labs(title = "Número medio de genes mutados por tejido",
x = "Tejido")
summary(genes_mut_por_tejido$media)
rm(genes_mut_por_tejido)
26
Análisis farmacogenómico de paneles celulares, drug screening
datos_mutaciones %>%
group_by(sample_name, gene_name) %>%
unique() %>%
select_all() %>%
group_by(sample_name) %>%
count() %>%
left_join(datos_mutaciones %>%
select(sample_name, primary_site)
) %>%
group_by(primary_site) %>%
mutate(mediana = median(n)) %>%
ungroup() %>%
ggplot(aes(x = reorder(primary_site, mediana), y = n, color = primary_site)) +
coord_flip() +
geom_boxplot() +
labs(title = "Número de genes mutados por tejido",
x = "Tejido") +
theme_bw() +
theme(legend.position = "none")
Los tejidos que más mutaciones y genes mutados acumulan son: large instestine,
endometrium y prostate.
27
Análisis farmacogenómico de paneles celulares, drug screening
La gran mayoría de pathways (75%) no superan los 43 genes, pero existen algunos casos
extremos con hasta 2524 genes. En la siguiente tabla puede verse que estos últimos se
corresponden con pathways muy genéricos, por ejemplo, metabolismo.
datos_pathways %>%
select(pathway, n_genes) %>%
arrange(desc(n_genes)) %>% head(10)
## # A tibble: 10 x 2
## pathway n_genes
## <chr> <int>
## 1 Signal Transduction 2524
## 2 Metabolism 2021
## 3 Immune System 1936
## 4 Gene Expression 1745
## 5 Metabolism of proteins 1503
## 6 Signaling by GPCR 1303
## 7 Innate Immune System 1297
## 8 Post-translational protein modification 1026
## 9 GPCR downstream signaling 1023
## 10 Generic Transcription Pathway 856
28
Análisis farmacogenómico de paneles celulares, drug screening
Desde que en 1951 se generara la primera línea celular inmortalizada Hela a partir de una
muestra de cáncer cérvico-uterino, le han sucedido cientos de nuevos linajes. Sin embargo, la
anotación e identificación de las líneas celulares no ha estado libre de errores y de
contaminaciones cruzadas. Por esta razón, es conveniente identificar el grado de similitud que
hay entre las líneas celulares que forman un panel de screening, puesto que se podrían estar
considerando como distintas líneas celulares que son realmente la misma.
Como toda comparación, ha de estar basada en alguna característica que se considere propia de
cada línea celular, algunas de las más empleadas son: similitud basada en el perfil de
mutaciones, en los niveles de expresión genética y niveles de expresión de proteínas.
29
Análisis farmacogenómico de paneles celulares, drug screening
En este segundo caso, la similitud entre líneas se cuantifica en función de los genes mutados,
sin tener en cuenta el tipo de mutación. Esto significa que, si dos líneas tienen exactamente los
mismos genes mutados, se consideran iguales aun cuando las mutaciones no sean las mismas.
Nota: este cálculo de computación pude tardar más de una hora. Puede cargarse directamente
el resultado del archivo similitud_jaccard_lineas.csv disponible en Github.
# Se genera un grid con todas las comparaciones que se tienen que realizar
comparaciones <- expand.grid(unique(datos_mutaciones$sample_name),
unique(datos_mutaciones$sample_name),
stringsAsFactors = FALSE)
30
Análisis farmacogenómico de paneles celulares, drug screening
31
Análisis farmacogenómico de paneles celulares, drug screening
Se muestran los 20 pares de líneas celulares más similares en función de las mutaciones:
## # A tibble: 20 x 3
## Var1 Var2 similitud
## <chr> <chr> <dbl>
## 1 CW-2 SNU-1040 0.357
## 2 HCT-15 SNU-1040 0.326
## 3 KARPAS-45 SNU-1040 0.323
## 4 SNU-1040 SNU-81 0.321
## 5 HCC2998 SNU-1040 0.318
## 6 HCC2998 SNU-81 0.302
## 7 SNU-1040 SNU-175 0.297
## 8 EN SNU-1040 0.291
## 9 HT-115 SNU-1040 0.287
## 10 CW-2 SNU-81 0.287
## 11 HT-115 SNU-81 0.285
## 12 CW-2 HCC2998 0.282
## 13 GP5d SNU-1040 0.282
## 14 CW-2 HCT-15 0.277
## 15 MFE-319 SNU-1040 0.271
## 16 HCC2998 HT-115 0.269
## 17 HCT-15 SNU-81 0.269
## 18 Mewo SNU-1040 0.265
## 19 CW-2 KARPAS-45 0.265
## 20 CW-2 EN 0.264
rm(comparaciones)
32
Análisis farmacogenómico de paneles celulares, drug screening
El siguiente gráfico muestra la actividad registrada para el fármaco AZ628 en cada una de las
líneas celulares.
33
Análisis farmacogenómico de paneles celulares, drug screening
Procesado de datos
Reestructuración
Los dos sets de datos distribuidos por COSMIC se encuentran en formato de tabla larga, es
decir, cada variable forma una única columna. Para facilitar posteriores cálculos, los datos se
reestructuran en formato tabla ancha, permitiendo así trabajar como si se tratase de una
matriz.
Los sets de datos contienen información de más de 1000 líneas celulares, para agilizar el
proceso, antes de reestructurar los datos, se filtra únicamente información sobre las líneas
celulares para las que el analista ha cargado información de actividad (el filtrado en formato
tabla larga es más eficiente).
Recodificación
Tal y como se describe más adelante, la identificación de mutaciones asociadas con la actividad
del fármaco se realiza mediante contrastes de hipótesis que comparan la respuesta observada
en las líneas celulares mutadas y no mutadas. Para poder realizar este contraste, es necesario
convertir la matriz que contiene la información de las mutaciones en una matriz binaria. Si la
línea celular tiene mutado el gen, independientemente del tipo de mutación, se codifica como
“Y” (Yes), y si no está mutada, campo vacío, se codifica como “N” (No).
34
Análisis farmacogenómico de paneles celulares, drug screening
Código
if(isTRUE(ignorar_silent)){
datos_mutaciones <- datos_mutaciones %>%
filter(mutation != "Substitution - coding silent")
}
35
Análisis farmacogenómico de paneles celulares, drug screening
Se repite el mismo proceso pero esta vez con los datos de expresión.
## # A tibble: 6 x 16,375
## sample_name A1BG A1CF A2M A2ML1 A3GALT2P A4GALT A4GNT AAAS
## <chr> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl>
## 1 201T -1.21 -1.2 -0.263 -1.84 -0.988 0.721 -0.62 -0.084
## 2 A427 1.57 -0.447 -3.27 1.15 0.285 1.01 -0.062 0.806
## 3 A549 1.01 1.83 -0.233 0.043 -0.205 0.204 -0.594 1.48
## 4 CAL-12T -0.197 -0.052 -0.768 1.90 -2.02 1.44 0.293 0.933
## 5 Calu-3 -0.714 -0.679 -1.61 -0.512 0.426 0.204 -0.637 -2.14
## 6 Calu-6 -1.04 1.32 -0.203 1.78 0.668 -2.47 -0.26 -0.005
## # ... with 16,366 more variables: AACS <dbl>, AADAC <dbl>, AADACL2 <dbl
36
Análisis farmacogenómico de paneles celulares, drug screening
Identificación de mutaciones
Que una mutación esté asociada (que no necesariamente causa) con la respuesta que un tumor
muestra ante un fármaco significa que la actividad observada en líneas celulares que poseen
dicha alteración es distinta a la respuesta observada en líneas celulares que no tienen la
mutación. El análisis de estos experimentos requiere de métodos que comparen
cuantitativamente las muestras con la finalidad de determinar si las diferencias observadas
suponen una evidencia suficiente de que las poblaciones son distintas, es decir, si existen
diferencias entre el grupo mutado y no mutado más allá de lo que cabría esperar por azar. Dos
test estadísticos se han implementado para dar respuesta a esta pregunta: uno paramétrico T-
test y otro no paramétrico Mann–Whitney–Wilcoxon. El proceso seguido en ambos es el
mismo (Figura 3): para cada uno de los genes, se identifican qué líneas celulares están mutadas
y cuáles no, se calcula un estadístico que agregue la actividad en cada grupo (media,
mediana…) y se aplica el test con el que conocer si la diferencia observada es significativa (p-
value).
Fig.3. Esquema de las comparaciones múltiples con las que se calcula la significancia asociada a cada
uno de los genes.
T-test
El término T-test engloba al conjunto de test en los que el estadístico estudiado sigue una
distribución t-student acorde a la hipótesis nula. Una de sus principales aplicaciones es
estudiar si la media de dos poblaciones es distinta a partir de la comparación de las medias de
muestras obtenidas de cada una de ellas. En concreto, las hipótesis contrastadas son:
𝐻0 : 𝜇𝐴 = 𝜇𝐵
𝐻𝐴 : 𝜇𝐴 ≠ 𝜇𝐵
37
Análisis farmacogenómico de paneles celulares, drug screening
El valor devuelto por el test se conoce como p-value y se corresponde como la probabilidad de
obtener una diferencia igual o superior a la observada si se cumple la hipótesis nula. En este
caso, puede interpretarse como la probabilidad de observar una diferencia en las medias igual
o mayor si realmente no hay ninguna relación entre la mutación del gen estudiado y la
respuesta del fármaco.
A pesar de la sencillez y utilidad del T-test, para que sus resultados sean válidos es necesario
que se cumplan una serie de condiciones, entre las que se encuentran:
Independencia: Las observaciones tienen que ser independientes unas de las otras.
Normalidad: Las poblaciones que se comparan tienen que distribuirse de forma normal.
A pesar de que la condición de normalidad recae sobre las poblaciones, normalmente no
se dispone de información sobre ellas, por lo que las muestras (dado que son reflejo de
la población) tienen que distribuirse de forma aproximadamente normal. En caso de
cierta desviación de la normalidad, los T-test son considerablemente robustos cuando el
tamaño de las muestras de ambos grupos es mayor o igual a 30.
Mann–Whitney–Wilcoxon
38
Análisis farmacogenómico de paneles celulares, drug screening
Para que sus resultados del test de Mann–Whitney–Wilcoxon sean válidos, es necesario que se
cumplan una serie de condiciones, entre las que se encuentran:
Los datos tienen que ser ordinales o bien se tienen que poder ordenar de menor a
mayor.
No es necesario asumir que las muestras se distribuyen de forma normal o que proceden
de poblaciones normales pero sí que ambas distribuciones son iguales.
Los test estadísticos descritos anteriormente tienen como objetivo determinar si las
poblaciones de las que proceden las muestras son distintas. El p-value generado, aunque
fundamental, no aporta información sobre la magnitud de la diferencia, es en esto último
donde el tamaño del efecto entra en juego.
La d de Cohen es una medida del tamaño del efecto basada en la diferencia de medias
estandarizada. Informa de cuántas desviaciones típicas de diferencia hay entre los resultados
de los dos grupos que se comparan. Su ecuación es:
|diferencia de medias entre los grupos|
𝑑=
𝑠𝑑
Aunque no existe una escala única, algunos valores de referencia empleados son:
d ≤ 0.2 pequeño
d ≥ 0.5 mediano
d ≥ 0.8 grande
39
Análisis farmacogenómico de paneles celulares, drug screening
Análisis de normalidad
Una de las aplicaciones más frecuentes del test de Mann–Whitney–Wilcoxon es su uso como
alternativa al T-test cuando las muestras no proceden de poblaciones con distribución normal
(asimetría o colas) o porque tienen un tamaño demasiado reducido para poder afirmarlo. Sin
embargo, al ser un test no paramétrico, tiene la desventaja frente al T-test de poseer menor
poder estadístico, es decir, menor capacidad para identificar diferencias reales.
Con la finalidad de ayudar al analista a decidir qué test es el adecuado, se incorpora un análisis
de normalidad. Los análisis de normalidad, también llamados contrastes de normalidad, tienen
como objetivo determinar cuánto difiere la distribución de los datos observados respecto a lo
esperado si procediesen de una distribución normal con la misma media y desviación típica.
Dos aproximaciones están disponibles:
Es importante tener en cuenta que, al tratarse de p-values, cuanto mayor sea el tamaño de la
muestra, más poder estadístico tienen y más fácil es encontrar evidencias en contra de la
normalidad. Al mismo tiempo, cuanto mayor sea el tamaño de la muestra, menos sensibles son
los métodos paramétricos a la falta de normalidad. Por esta razón, es importante no basar las
conclusiones únicamente en el p-value del test, sino también considerar la representación
gráfica y el tamaño de la muestra.
40
Análisis farmacogenómico de paneles celulares, drug screening
Por defecto, la herramienta solo incorpora en el análisis genes para los que hay un mínimo de 5
líneas celulares mutadas y 5 líneas no mutadas. El objetivo de esta condición es conseguir un
poder estadístico mínimo y así reducir el número de falsos positivos y negativos. Aun así, el
usuario tiene libertad de modificar este valor en base a sus criterios.
Cluster de genes
Ocurre con frecuencia que, mutaciones que afectan a distintos genes que participan en una
misma ruta de señalización, tienen el mismo resultado en la biología de la célula. Por ejemplo,
véase el siguiente esquema (Figura 4) en el que 3 genes transmiten de forma secuencial una
señal que termina llegando al núcleo de la célula haciendo que esta se divida.
41
Análisis farmacogenómico de paneles celulares, drug screening
𝐹𝑊𝐸𝑅 = 1 − (1 − 𝛼)𝑘
Existen métodos que consiguen corregir la inflación del error de tipo I (false positive rate), es
decir, la probabilidad de rechazar la hipótesis nula siendo esta cierta. Esta aproximación es útil
cuando se emplea un número limitado de comparaciones. Para escenarios de large-scale
multiple testing como son los estudios genómicos, en los que se realizan miles de test de forma
simultánea, el resultado de estos métodos es demasiado conservador e impide que se detecten
diferencias reales. Una alternativa es controlar el false discovery rate.
El false discovery rate (FDR) se define como la probabilidad de que una hipótesis nula sea
cierta habiendo sido rechazada por el test estadístico. El objetivo de controlar el false discovery
rate es establecer un límite de significancia para un conjunto de test tal que, de entre todos los
test considerados como significativos, la proporción de hipótesis nulas verdaderas (falsos
positivos) no supere un determinado valor. Otra ventaja añadida es su fácil interpretación, por
ejemplo, si un estudio publica resultados estadísticamente significativos para un FDR del 10%,
el lector tiene la seguridad de que, como máximo, un 10% de los resultados considerados como
significativos son realmente falsos positivos. En este documento se emplea el método q-value
desarrollado por John D. Storey y Robert Tibshirani en 2003 para controlar el FDR.
42
Análisis farmacogenómico de paneles celulares, drug screening
Código
if(!is.na(cluster_genes)){
nombre_cluster <- paste(c("KRAS", "RAF", "NRAS"), collapse = "_")
temp <- datos_mutaciones %>% select(one_of(cluster_genes))
cluster_status <- apply(X = temp,
MARGIN = 1,
FUN = function(x){ifelse(any(x == "Y"), "Y", "N")})
43
Análisis farmacogenómico de paneles celulares, drug screening
# Se filtran las columnas en función del vector lógico cols. La tabla resultante
# contiene únicamente los genes para los que, al menos, hay n líneas mutadas y no
# mutadas.
datos_mutaciones <- datos_mutaciones[ ,cols]
# ANÁLISIS DE NORMALIDAD
#===============================================================================
library(nortest)
library(qqplotr)
44
Análisis farmacogenómico de paneles celulares, drug screening
# TEST ESTADÍSTICO
#===============================================================================
# Funciones para cada uno de los test y para el tamaño del efecto.
signed_effect_size_custom <- function(data, formula = log10(actividad)~status){
# Esta función calcula el effect size con signo entre las medias de dos grupos.
data <- model.frame(formula = formula, data = data)
data_splited <- split(data[[1]], data[[2]])
if(length(data_splited) != 2){
stop("El número de grupos debe de ser 2")
}
a <- data_splited[[1]]
b <- data_splited[[2]]
delta <- mean(a) - mean(b)
n_a <- length(a)
n_b <- length(b)
pooled_sd <- sqrt( ((n_a - 1)*(sd(a)^2) + (n_b - 1)*(sd(b)^2)) / (n_a + n_b -2 ))
return(delta / pooled_sd)
}
# Para poder agrupar los datos por gen, se transforma la tabla ancha
# "datos_mutaciones" en formato largo (tidy).
datos_mutaciones_long <- gather(data = datos_mutaciones,
key = gene_name,
value = status, - c(sample_name, actividad))
45
Análisis farmacogenómico de paneles celulares, drug screening
nest() %>%
mutate(p_value = map_dbl(.x = data,
.f = ttest_custom),
effect_size = map_dbl(.x = data,
signed_effect_size_custom)) %>%
select(-data) %>%
arrange(p_value)
}
if(test_estadistico == "utest"){
resultados_test <- datos_mutaciones_long %>%
group_by(gene_name) %>%
nest() %>%
mutate(p_value = map_dbl(.x = data,
.f = wilcoxtest_custom),
effect_size = map_dbl(.x = data,
signed_effect_size_custom)) %>%
select(-data) %>%
arrange(p_value)
}
## # A tibble: 6 x 4
## gene_name p_value effect_size q_value
## <chr> <dbl> <dbl> <dbl>
## 1 RB1 0.0000614 -0.538 0.248
## 2 SPTBN5 0.000110 0.979 0.248
## 3 KIAA1462 0.00179 0.812 1
## 4 DOT1L 0.00259 0.881 1
## 5 LAP3 0.00313 -1.33 1
## 6 RGPD3 0.00378 0.858 1
46
Análisis farmacogenómico de paneles celulares, drug screening
Resultados
Se muestran los resultados obtenidos en los test estadísticos mediante un gráfico de tipo
volcano. El eje horizontal muestra el tamaño de efecto con signo y el eje vertical el logaritmo
negativo del p-value (cuanto más negativo el logaritmo menor el p-value).
# library(plotly)
# library(DT)
# plot_ly(
# # Se excluyen aquellos genes que cuyo p-value es > 0.5 para no saturar el
gráfico.
# data = resultados_test[resultados_test$p_value < 0.5, ],
# x = ~effect_size,
# y = ~-log10(p_value),
# size = ~-log10(p_value),
# color = ~-log10(p_value),
# key = ~gene_name,
# #alpha = ~-log10(p_value)
# text = ~gene_name,
# hoverinfo = "text"
# )
ggplot(
# Se excluyen aquellos genes que cuyo p-value es > 0.5 para no saturar el
gráfico.
data = resultados_test[resultados_test$p_value < 0.5, ],
aes(x = effect_size, y = -log10(p_value), size = -log10(p_value),
color = -log10(p_value))
) +
geom_point() +
scale_color_viridis_c() +
theme_bw()
47
Análisis farmacogenómico de paneles celulares, drug screening
head(resultados_test)
## # A tibble: 6 x 4
## gene_name p_value effect_size q_value
## <chr> <dbl> <dbl> <dbl>
## 1 RB1 0.0000614 -0.538 0.248
## 2 SPTBN5 0.000110 0.979 0.248
## 3 KIAA1462 0.00179 0.812 1
## 4 DOT1L 0.00259 0.881 1
## 5 LAP3 0.00313 -1.33 1
## 6 RGPD3 0.00378 0.858 1
datos_mutaciones_long %>%
filter(gene_name == "BRAF") %>%
ggplot(aes(x = status, y = log10(actividad), color = status)) +
geom_boxplot(outlier.shape = NA) +
geom_jitter(width = 0.05, alpha = 0.6) +
labs(title = "Actividad vs estado gen BRAF",
x = "Gen mutado") +
theme_bw() +
theme(legend.position = "none")
48
Análisis farmacogenómico de paneles celulares, drug screening
Niveles de expresión
Fig.5. Esquema de las comparaciones múltiples con las que se calcula la significancia asociada a cada
uno de los genes.
Correlación de Pearson
• La relación que se quiere estudiar entre ambas variables es lineal (de lo contrario, el
coeficiente de Pearson no la puede detectar).
49
Análisis farmacogenómico de paneles celulares, drug screening
Correlación de Spearman
Además del valor obtenido para el coeficiente de correlación en cuestión, es necesario calcular
su significancia. Solo si el p-value es significativo se puede aceptar que existe correlación y esta
será de la magnitud que indique el coeficiente. Por muy cercano que sea el valor del coeficiente
de correlación a +1 o -1, si no es significativo, se ha de interpretar que la correlación de ambas
variables es nula ya que el valor observado se puede deber al azar.
Código
# TEST ESTADÍSTICO
#===============================================================================
# Los dos tipos de correlación disponibles son pearson y spearman.
test_estadistico <- "spearman"
# Funciones para cada uno de los test y para el tamaño del efecto.
cor_pearson <- function(df){
# Esta función devuelve el p_value y r de un test de correlación de pearson.
test <- cor.test(x = df[["actividad"]],
y = df[["expresion"]],
alternative = "two.sided",
50
Análisis farmacogenómico de paneles celulares, drug screening
method = "pearson",
conf.level = 0.95)
r <- test$estimate
p_value <- test$p.value
return(tibble(r = r, p_value = p_value))
}
# Para porder agrupar los datos por gen, se transforma la tabla ancha
# "datos_mutaciones" en formato largo (tidy).
datos_expresion_long <- gather(data = datos_expresion,
key = gene_name,
value = expresion,
-c(sample_name, actividad))
datos_expresion_long <- na.omit(datos_expresion_long)
if(test_estadistico == "spearman"){
resultados_cor <- datos_expresion_long %>%
group_by(gene_name) %>%
nest() %>%
mutate(p_value = map(.x = data, .f = cor_pearson)) %>%
select(-data) %>%
unnest()
}
51
Análisis farmacogenómico de paneles celulares, drug screening
## # A tibble: 6 x 4
## gene_name r p_value q_value
## <chr> <dbl> <dbl> <dbl>
## 1 LRRC29 0.385 0.00000528 0.0865
## 2 TRPT1 0.340 0.0000679 0.298
## 3 KRT33B 0.334 0.0000901 0.298
## 4 ZFPL1 0.333 0.0000952 0.298
## 5 ABCB10 -0.331 0.000107 0.298
## 6 DPP9 0.330 0.000109 0.298
Resultados
Se muestran los resultados obtenidos para el gen con menor p-value mediante un gráfico de
dispersión.
#library(plotly)
top_gen <- resultados_cor$gene_name[1]
p_correlacion <- datos_expresion_long %>% filter(gene_name == top_gen) %>%
ggplot(aes(x = log10(actividad), y = expresion,
text = sample_name, group = 1)) +
geom_smooth(method = "lm", color = "gray") +
geom_point(aes(color = sample_name)) +
theme_bw() + theme(legend.position = "none")
p_correlacion
52
Análisis farmacogenómico de paneles celulares, drug screening
En el ámbito de biología, el término pathway hace referencia al conjunto de genes que están
relacionados con una función biológica específica, por ejemplo, la división celular. Una forma
de identificar qué procesos del funcionamiento de una célula están asociados con la respuesta a
un fármaco consiste en estudiar si los genes identificados de forma individual (mutaciones o
correlación) forman parte de un mismo pathway.
Dado que existen cientos de pathways distintos y cada uno puede estar formado por varias
decenas de genes, este análisis requiere de métodos estadísticos que calculen la probabilidad
(p-value) de que la asociación entre un conjunto de genes y un determinado pathway se deba
únicamente al azar. Una forma sencilla de hacerlo es mediante un test exacto de Fisher que
tenga en cuenta el número de genes candidatos, el número de genes que forman cada pathway,
el número de genes coincidentes y el número total de posibles genes. Al tratarse de múltiples
test, los p-values se corrigen para controlar el FDR.
Como ejemplo ilustrativo se emplean 6 genes que participan en el pathway mTOR (AKT1,
CCNE1, DEPTOR, MAP2K1, PLD1, RPTOR).
Código
# TEST ESTADÍSTICO
#===============================================================================
total_genes <- 20000 # Aproximadamente todo el genoma humano.
53
Análisis farmacogenómico de paneles celulares, drug screening
if (n_genes_comunes > 0) {
n_genes_comunes <- n_genes_comunes - 1
}
## # A tibble: 6 x 6
## pathway source hgnc_symbol_ids n_genes p_value q_value
## <chr> <chr> <chr> <int> <dbl> <dbl>
## 1 mTOR signaling~ KEGG STK11,IKBKB,AKT1,AKT2,AK~ 153 9.14e-6 0.00275
## 2 PI3K-Akt signa~ KEGG BCL2L1,PCK2,PCK1,GHR,PPP~ 340 9.62e-5 0.0127
## 3 Pathways in ca~ KEGG CRKL,PTGER4,PIK3CA,PIK3C~ 397 1.52e-4 0.0127
## 4 Pancreatic can~ KEGG BCL2L1,TGFB1,TGFB2,TGFB3~ 66 1.69e-4 0.0127
## 5 Prostate cance~ KEGG IKBKB,AKT1,AKT2,AKT3,ARA~ 89 3.03e-4 0.0162
## 6 Fc gamma R-med~ KEGG CRKL,AKT1,AKT2,AKT3,FCGR~ 92 3.24e-4 0.0162
54
Análisis farmacogenómico de paneles celulares, drug screening
Los resultados del análisis muestran que sí se ha detectado correctamente el pathway en el que
participan mayoritariamente el listado de genes. Aunque este es listado de prueba, podría
emplearse cualquier otro que sea de interés para el investigador.
55
Análisis farmacogenómico de paneles celulares, drug screening
Observaciones
Los test estadísticos mostrados en este documento analizan el impacto de cada gen de
forma individual. En un sistema tan complejo como es la biología celular, cabe esperar
que muchos procesos sean el resultado de interacciones múltiples. El desarrollo de
métodos que contemplen interacciones (múltiples mutaciones, mutaciones y expresión,
etc) puede suponer un avance muy importante para una mejor estratificación de los
pacientes.
56
Análisis farmacogenómico de paneles celulares, drug screening
Bibliografía
Liquid handling devices in drug discovery: When, what, why? Article in European
Pharmaceutical Review December 2013
Lessons learned from the application of whole-genome analysis to the treatment of patients
with advanced cancers, Laskin et al. 2015 Cold Spring Harb Mol Case Stud 1: a000570
A census human cancer genes Futreal et al, 2004 Nat Rev Cancer
The COSMIC (Catalogue of Somatic Mutations in Cancer) database and website British Journal
of Cancer (2004) 91, 355 – 358
Pharmacogenomic agreement between two cancer cell line data sets Nature volume 528, pages
84–87 (03 December 2015)
The Cancer Cell Line Encyclopedia enables predictive modelling of anticancer drug sensitivity
Nature. 2012 Dec 13;492(7428):290
Cell Panel Profiling Reveals Conserved Therapeutic Clusters and Differentiates the Mechanism
of Action of Different PI3K/mTOR, Aurora Kinase and EZH2 Inhibitors Mol Cancer Ther. 2016
Dec.
Covell DG (2012) Integrating Constitutive Gene Expression and Chemoactivity: Mining the
NCI60 Anticancer Screen. PLoS ONE 7(10): e44631.
Systematic identification of genomic markers of drug sensitivity in cancer cells. Nature. 2012
Mar 28;483(7391):570-5.
Machine Learning in Genomic Medicine: A Review of Computational Problems and Data Sets,
Proceedings of the IEEE |Vol.104,No.1,January2016
Overview of biomarkers in disease, drug discovery and development, Drug Discovery World
Spring 2005
https://www.nature.com/subjects/biomarkers
57
Análisis farmacogenómico de paneles celulares, drug screening
The Genomics of Drug Sensitivity in Cancer Project, Cancer Genome Project at the Wellcome
Sanger Institute (UK) and the Center for Molecular Therapeutics, Massachusetts General
Hospital Cancer Center (USA).
Druker BJ, et al. Five-year follow-up of patients receiving imatinib for chronic myeloid
leukemia. N Engl J Med. 2006;355:2408–2417.
Points of significance: Significance, P values and t-tests, Martin Krzywinski & Naomi Altman,
Nature Methods volume 10, pages 1041–1042 (2013)
John D. Storey with contributions from Andrew J. Bass, Alan Dabney and David Robinson
(2015). qvalue: Q-value estimation for false discovery rate control. R package version 2.10.0.
http://github.com/jdstorey/qvalue.
Khazak V, Astsaturov I, Serebriiskii IG, Golemis EA. Selective Raf Inhibition in Cancer
Therapy. Expert opinion on therapeutic targets. 2007;11(12):1587-1609.
doi:10.1517/14728222.11.12.1587.
58