1 Acp

Descargar como pdf
Descargar como pdf
Está en la página 1de 7
1-Practica de Andlisis de Componentes Principales en R Vamos a realizar un Anélisis de Componentes principales sobre los resultados obtenidos en la competicién de heptathlon femenino en los juegos de Seuil 1988, estos datos se encuentran en el paquete HSAUR2 y corresponden a los datos de 25 atletas sobre 8 variables: 100m vallas, salto de altura, lanzamiento de peso, 200m lisos, salto de longitud, lanzamiento de jabalina, 800m y puntuacién total obtenida. 1. Instalamos el paquete HSAUR2 > instal1packages(”HSAUR2") 2. Sacamos los datos de la tabla heptathlon del paquete HSAUR2 > data("heptathlon", package="HSAUR2") hurdles highjupe . shat runz00m Tongjump Javelin score Joyner-Kersee (USA) 12.69 1.86 15.80 22.56 227 45.66 7291, Zohn CdR) 1:80 1 6:71 42:56 6897 Behmer (GDR) 1183 1 6168 44:54 6858 Sablovskaite (URS) 2/80 1 6:25 42.78 6540 Choubenkova (URS) 1174 1 6:32 47.46 6540 Schulz (GDR) 2:83 6:33 42:82 6411, Fleming (aus) 1180 6:37 40.28 6351 Greiner CUSA), 1:80 6:47 38.00 6297 Lajbnerova (CZE) 1183 6:11 42:20 6252 Bouraga (URS) 1.77 6:28 39.06 6252 iinsma CHOL) 1186 6:34 37:86 6205 Diwitrova (UL) 1180 6:37 40.28 e171 Scheider (SHI) 136 6.05 47:50 6137 Braun CFRG) 2:83 6:12 44.58 6109 Ruotsalainen (FIN) 13:79 1:80 6108 45.44 e101. Yuping (CHN) 13:93 1186 6:40 38.60 6087 isgacr (68) 131471780 6:34 35:76 5975 Brown CUSA’ Tylor 1183 6:13 44134 5972 Mulliner (G8) 1433907 6.10 37:76 5746 Hautenauve (BEL) 1404177 5.99 35268 5734 kytola. (FEN) wi31 1:77 5:75 39148 5686 Geremias (BRA) 142300171 5:50 39:64 5508 Hui-Zng (TAT). 41851168, 514739114 5290 Jeong-Mi (KOR) 1453071 5150 39126 5289 Launa (PNé) 16:42 1:50, 4188 46.38 4586 3. Recodificamos las pruebas relativas a las 3 carreras, vallas, 200m y 800m, restando al mayor valor en cada carrera, cada uno de los tiempos de las 35 atletas. See prea eee reece see optus 5 heptathlon$run200m <- maxCheptathlon$run200n) -heptathlon$run200m > heptathTon$rungoom <- max(heptathlon$run800n) -heptathlon$run800m hurdles highjump shot run200m Tongjump javelin rungoom joyner=Kersee (USA) 3.73 3.88 15.80 4.05 7.27 45.88 34.92 ck in GDR) 3:57 16:23 2:96 6-71 42756 37.31 Behmer (GDR) 3.22 14:20 3151 6.68 44754 39.23 Sablovskaite (urs) 2-81 15:23 2169 6.25 42:78 31:19 Choubenkova (urs), 2.91 14:76 2168 «6.32 47.46 35.53 Schulz (GDR), 2167 13:50 1196 6133. 42782 37164 Fleming ¢Aus) 3.04 12:88 3102, 6.37 40.28 30.89. Greiner USA) 2187 14:13 21136147 38:00 29:78 Lajbnerova (Cze) 2:79 175 6:11 42:20 Bouraga (Urs) 3117 31026128 39106 wijnsma (HOLD 2.67 1:58 6.34 37186 Diinitrova (SUL) 3:18 31026137 4028 Scheider (Sw) 2.57 1:74 6.05 47:50 Braun CFRG) 271 1183 6.12 44758 Ruotsalainen (FIN) 2.63 2:00 6.08 45.44 Yuping (oind 2148 Tiel 6140 38260, Hagger (cB) 2.95 1146.34 35:76 Brown (USA) 2135 178 6.13 44734 mul liner (6s) 2.03 1:69 6.10 37:76 Hautenauve (BEL) 2:38 1100 5.99 35768 kytola (FIN) 21 G:9z 5:75 39.48 Geremias (BRA) 2113 Lil 5150 39:64 Hui-Ing (TAT) 1.57 1380 5.47 39214 Jeong-Mi (KoR) 189 0:00 $750 39:26 Launa CPNc) 0:00 0:45 4188 46.38 Vamos a realizar un diagrama de dispersién de la matriz de los resultados de las pruebas de las 25 atletas en las 7 pruebas, podemos observar que existe una relacién positiva entre cada par de pruebas, con la excepcién en el lanzamiento de jabalina, donde parece que no existe relacidn con el resto de las 6 pruebas restantes. > score < which(colnames (heptathlon) score”) > plot(heptathion[, score] ) 1501.78 02 4 6 42 o inn hurtes sy a Bee] [BH - lnighjump} p° * oe + 150 1.75 shot bee 088 eo fea 2, not 10 13 10 a | [ eo af ef praton] | a | be Pe | et G87" | Jonsiumo) pase ES : g * $e" 8 | | javein | | 224 ed sas | | 8 oh “| “ty “e TTT TTT TT 02 0 13 16 50 65 0 2 0 Comprobemos estos resultados con la matriz de correlaciones > round(cor(heptathlon[,-scorel), 2) hurdles highjump shot run200m Tongjunp javelin runs00m 1.00 0.8L 0.91 hurdles O.65 0.77 0.01 0.78 highjump 1100 0:44 0.49 © 0.78 0.00 0.59 shot G44 1200 0.68 ol27 run200n 0149 0:68 1:00 0:33 Tengyum 0:74 0182 0207 javelin 0:27 0.33 1:00 runsoom 0142 0162 0102 Efectivamente, estos valores confirman que casi todos los emparejamientos entre cada par de pruebas se correlacionan positivamente, con una muy alta correlacién entre el salto de longitud y los 100 metros vallas, algunos menos, como salto de altura y lanzamiento de peso, y la jabalina que presenta una correlacién cercana a cero.con el resto de pruebas, una posible explicacién a este resultado puede ser que el entrenamiento para las otras seis pruebas, no aporta demasiado al de la jabalina, que es una prueba eminentemente técnica. Si analizamos mas detenidamente el diagrama de dispersion de la matriz, observamos que en todas las pruebas excepto en jabalina, hay un valor outlier, Launa, la participante por PNG, (Papua Nueva Guinea), que tiene peores marcas que el resto de participantes en las otras seis pruebas, de hecho es la ultima clasificada en el ranking de la puntuacién total de las 25, pero sorprendentemente tiene la 32 mejor marca en jabali Puede ser interesante excluir a esta participante en un nuevo estudio del diagrama de dispersién de la matriz y de la matriz de correlaciones, para ver si los resultados son sensiblemente distintos. > heptathlon <- heptathlon[-grep("PNG”, rownames(heptathlon)),] > heptathlon hurdles highjump shot runz0om Tongjump javelin rungo' 186 5 58 pence te usa) 3.73 1, 15.80 4.0! 7.27 45 34.92 John (GOR) 3.57 iz 2 56 Behmer (GDR) 3.22 1, 3 4 Sablovskaite (ues) 2-811 2 8 Choubenkova curs) = 2:91 2 6 Schulz (GDR). 2.67 = 1, 32 Fleming (aus) 3104 5 8 Greiner (USA) ay ils e 38.00 Lajbnerova (Cze) gia 1s ne 42120 Bouraga (Urs) aot 3 39.06 wijnsma (HOU: oic7 eae i 37/86 Dimitrova (BUL) Se ij 3. 40.28 scheider (SWI) 2.57 1. 1. 47.50 Braun CFRG) 2.71 1. 1. 44.58, Ruotsalainen (FIN) 2.63 1. 2. 45.44 Yuping (CHN) 2.49 1. 1. 38.60 Hagger fe 2.95 1 1. 35.76 Brown CUSA; 2.35 1 1 44.34 mulliner (GB) 2.03 1. 1. 37.76 Hautenauve (BEL) 2.38 1. 1 35.68 Kytola (FIN) 2.11 1. 0. 39.48 Geremias (BRA) 2.19 1 1. 39.64 Hui=tng. (TAT) iy iy i, 39:14 Jeong-Mi (KOR) tas an 5150 39126 > plot(heptathton[,-score]) 170 188 we bing Ly 8s a] G elo a ois. oe ruraes| | 5°68 ee fi $e3 2 ope ||. 5 3 284 b, tee Pe | | 0° 9384 | sho - ap 2 & 38 ¢ ¢ iS a “Tayo a? |[ wed | aa Ag || be be juraeon| 8 | ba Prd pea a8] | soc8éd | get] | are] Jonauns] baedad boast 8 gi 8° 38] | oq | 3°) | Ss vin | Po oa 2. Javelin 7 ce Pae® | pS &s ¢ poke a0 8 | pee 2 eh = [oe a E 08 8° | | ee 868 04 \ungoomE TYTPTT 2 TPT rot 0 13 16 55 65 20 30 40 > round(cor(heptathlon[,-score]), 2) 10. hurdles highjunp shot run200n Tongjump javelin runs0om 05 888 *h88 0.5 hurdles "1.00 158 0.77 0.83 i 0.33 highjump 0.58 90.39 0:35 shot. ol 0167 0:34 Funz0m 0.83 1.00 0.47 Tongjump 0:89 o-81 0.29 javelin. 0.33, 47 1200 rung0om 0.56 0:57 026 Efectivamente las correlaciones cambian sustancialmente y en el diagrama de dispersién de la matriz, no se observan ningunos valores extremos. A partir de aqui vamos a trabajar con la exclusion de la participante de Papua Nueva Guinea. Al estar los resultados de las 7 pruebas en diversas escalas, (metros, segundos), vamos a realizar el andlisis a partir de la matric de correlaciones, es decir vamos a realizar un Andlisis de Componentes Principales Normalizado. Una de las funciones que realiza el ACP es la funcién prcomp que lleva en este caso el valor TRUE en el argumento scale para aseguramos que el andlisis se realiza a través de la matriz de correlaciones, ver la informacién de esta funcién con esta orden > helpC'preomp") > heptathlon_pca <- preomp(heptathlon[, -score], scale = TRUE) > heptathlon_pca Standard deviations: [1] 2.0793370 0.9481532 0.9109016 0.6831967 0.5461888 0.3374549 0.2620420 Rotation: Pe1 Pee, Pc3 Pee Pcs Pc6 Per hurdles -0.4503876 0.05772161 -0.1739345 0.04840598 -0.19889364 0.84665086 -0.06961672 highjump -0.3145115 -0 0155694554 0:07076358 -0.09007544 0.33155910 shot -0.4024884 -0:02202088 (0154826705 0.67166466 -0.09886359 0122904298 Fun200n -0:4270860 0.18502783 0.1301287 0,23095946 -0.61781764 -0.33279359 0.46971934 Tongjump -0.4509639 -0.02492486 -0.2697589 -0.01468275 -0.12151793 -0.38294411 -0.74940781 javelin’ -0.2423079 -0:32572229 0.8806995 0.06024757 0.07874396 0.07193437 -0.21108138 Fun800m -073029068 0.65650503 0.193020 -0157418128 0131880178 -0.05217664 0.07718616 Podemos sacar un resumen del andlisis para observar algunos detalles mas > summary CheptathTon_pea) Importance of components: POL pc pc} pcg C6 pcr Standard deviation 2.0793 0.9489 0.9108 0.68990 0.54613 0.33948 0.26004 Proportion of variance 0.6177 0.1284 0.1185 0.06668 0.04262 0.01627 0.00981. Cumulative Proportion 0.6177 0.7461 0.8646 0.93131 0.97392 0.99019 1.00000 Los pesos de la 1? componente principal son > al-<= heptathlon-pcaSrotation[,1] > al hurdles _highjume $095 9 7un200 longue javelin, eunso0n -0.4503876 -0.3146115 -0.4024884 -0.4270860 -0.4509639 -0.2423079 -0.3029068 Se puede observar como los 100 metros vallas y el salto de longitud, reciben los mayores pesos y la jabalina el menor. Necesitamos reescalar apropiadamente los datos para calcular la 18 componente principal. Podemos obtener el centro y la escala usada por la funcién prcomp a través de heptathlon_pca > center <- heptathlon_pcafcenter > center hurdles highiure Shoe Tuy2dom Jongiume javelin. rungoon 2.687500 1.793750 13.173333 2.023750 6.208417 41.278333 28.516667 > scale <- heptathlon _pcasscale > scale hurdles 5 bighjung S59E 0. of¥IZ097 y Jongiume , Javelin ¢ runsoon 0.51456398 0.05232112 1.49714995 0.93676972 0.40165938 3.48870690 6.14724800 11. Para calcular los valores de la 12 componente principal para cada atleta (coordenadas de los individuos), vamos aaplicar la funcidn scale alos datos y multiplicar por los pesos de la 12 componente > hm <= ae eee oe ese > drop(scale(hm, center = center, scale = scale) %*heptathlon_pcasrotation[, 11) Joyner-Kersee (USA) John cor: Behmer (GDR) Sablovskaite (URS) 74.757530189 -3,14798340; =2.926184760 “1,288135516 Choubenkova (URS) Schulz (GOR) Fleming (aus) Greiner. (UsA} =1.503450994 =0.958467101 -0.953445060 -0.63323926. Lajbnerova (cZe) Bouraga (URS) wigngna, CHO: Dimitrova, (BUL) 0. 381571974 *0.522322004 “8.217 70150 “1075984276 Scheider (Sw) Braun (FRG) Ruotsalainen (FIN) Yuping (cHN) '0.003014986 0.109183759 0.208868056 0232507119 tagger, (cs) Brown CUsA) Muliiner (GB) Hautenauve (BEL) 0.859520046 0.756834602 1880932819 1828170404 kyto] a, CEEN Geremias (BRA Hui “Zng CAT) Jeong-Ni (KOR) 711820316 2177070627: 3.901166920 3.896847898 12. También podemos extraer las coordenadas de los individuos respecto al 1° eje, de la matriz que contiene todas las coordenadas de los individuos > predict (heptathlon_pca)[, 1] Joyner-Kersee (USA) Sohn, Cor) Behmer (GOR) Sablovskaite (URS) ~4. 757530189 =3,147943402 =2.926184760 =1, 288135516 Choubenicova (URS) Schulz (GOR) Fleming caus) Greiner CUsA) =1. 503450994 -0.958467101 =0.953445060 =0.633239267 Lajbnerova (cze) Bouraga_CURS) wigtsna (wor) pimizrova. (aut) ~0. 381571974 =0.522322004 =0.217701500 =1.075984276 Scheider (SWI) Braun (FRG) Ruotsalainen (FIN) Yuping CcHN) 10.003014986 0109183753 0. 208868056 0232507118 Hagger_ (cB) Brown (USA) muliiner CGB) Hautenauve (BEL) 02885520046 0178684602 1880932819 1,828170404 vyola, Cer) Geremias. (BRA) hui“ing (rar) Jeong-Ni_ (KOR) -118203163 2.770706272 3.901166920 3-896847898 13. Vamos a realizar un diagrama de barras de la varianza explicada por las componentes principales, es decir un diagrama de barras de los autovalores, que se obtienen elevando al cuadrado las desviaciones tipicas obtenidas con la funcién heptathlon_pca > plot (heptathTon_pea) heptathion_pca Variances Las 2 primeras componentes representan el 75% de la varianza total por lo que podemos realizar una representacién Biplot. 14, Vamos a realizar una grafica de las 24 atletas sobre los 2 primeros ejes principales con la técnica Biplot > biplotCheptathTon_pca, col = c("red”, "blue")) 4 2 0 2 4 ‘useo0m i ‘Huiing (1) a4 John (GDR) Cheybenkova (URS) Mutinr (68) rs Botmer(GoR) \_ P808(URS) ——Haerauve (BEL) 2008 Taare”) ytola (FIN) runaoom fe oa Jeong Mi Ese ed Co Sabla (UF eee ares Geremaseray Lg ee Hogpe (68) 8 a (HOL) jvein Lobnduiiebangn (8) 34 Le Pitan Scneider (SM) Braun FRO) 34 La wo Sinlusa) 04 02 ao 02 oa Pet 15. &n la figura anterior tenemos no solo las coordenadas de las 24 atletas sobre los 2 primeros ejes principales sino también las coordenadas de las variables representadas por vectores, se conoce como representacién punto- vector, nos da informacién de las varianzas y covarianzas de las variables, y de las distancias entre los individuos. La gréfica muestra como la ganadora de la medalla de oro, Joyner-Kersee acumula la mayor puntuacién en las pruebas de salto de longitud, 100 metros vallas y 200m. 16. La correlacién entre la puntuacién final dada a cada atleta en el heptathlon y la primera componente principal se calcula por > corCheptathlon$score, heptathlon_pca$x[,1]) [1] -0.9931168 Lo que significa que la 12 componente principal esta de acuerdo con la puntuacién asignada a los atletas en la prueba del heptathlon. 17. Un diagrama de dispersién de la puntuacién oficial dada a los atletas y la 1? componente principal la tenemos en la grafica: > plot (heptathlon$score, heptathlon_pca$x[,1]) & g 3 eh s 8 3 2 T T T T 5500 6000 6500 7000 heptathlon$score

También podría gustarte

  • Revocación de Donación Original
    Revocación de Donación Original
    Documento8 páginas
    Revocación de Donación Original
    Натанаел Маркез Бондарепскй
    75% (4)
  • Si, Rudyard, Español
    Si, Rudyard, Español
    Documento2 páginas
    Si, Rudyard, Español
    SantiagoRaccoon
    Aún no hay calificaciones
  • Isomorfismo
    Isomorfismo
    Documento4 páginas
    Isomorfismo
    Натанаел Маркез Бондарепскй
    Aún no hay calificaciones
  • Cuasiconcavidad y Convexidad
    Cuasiconcavidad y Convexidad
    Documento3 páginas
    Cuasiconcavidad y Convexidad
    amnesio081495
    100% (1)
  • 2014-2015 Precios Publicos Masteres-Oficiales
    2014-2015 Precios Publicos Masteres-Oficiales
    Documento2 páginas
    2014-2015 Precios Publicos Masteres-Oficiales
    Натанаел Маркез Бондарепскй
    Aún no hay calificaciones
  • Resumen de Geometría
    Resumen de Geometría
    Documento5 páginas
    Resumen de Geometría
    Натанаел Маркез Бондарепскй
    Aún no hay calificaciones
  • Preferencias Difusas
    Preferencias Difusas
    Documento7 páginas
    Preferencias Difusas
    Натанаел Маркез Бондарепскй
    Aún no hay calificaciones