0% encontró este documento útil (0 votos)
15 vistas11 páginas

Ejercicio 2 - Compressed

Ejercicio 2 Anaconda comprimido

Cargado por

Pascal Ramos
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF o lee en línea desde Scribd
0% encontró este documento útil (0 votos)
15 vistas11 páginas

Ejercicio 2 - Compressed

Ejercicio 2 Anaconda comprimido

Cargado por

Pascal Ramos
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF o lee en línea desde Scribd
Está en la página 1/ 11
Analisis de datos Cargar un conjunto de datos indice * 1. Introduecién 2. Cargar CSV "21. Desde la lbreria standard "22. Desde NumPy "23, Desde Pandas © 3, Descripcién del conjunto de datos "3.1, Clasificacién multiclase: IRIS 3.2, Clasifciacién Binaria: Sonar, Mines vs. Rocks "3.3, Regresién: Boston House Price 4, Conclusiones # Permite ajustar La anchura de La parte util de La Libreta (reduce Los mirgenes) fron Ipython.core.display import display, HTML display(HTML("")) 1. Introduccion in esta primera parte de este tema veremos como cargar un conjunto-de datos que esté en formato Tidy y, ademas, veremos como cargarlos conjuntes de datos principales que vamos a trabajar a fo largo del curso 2. Cargar un CSV Debe poder cargar sus datos antes de comenzar su proyecto de aprendizaje automatico. El formate mas camiin para las datos de aprendizaje automatico son las archivos CSV. Hay varias formas de cargar un archiva CSV en Python: * Cargue archivos CSV con la biblioteca estandar de Python, * Cargue archivos CSV con NumnPy, * Cangue archivos CSV ean Pandas, 2.1. Desde la libreria estandar -2 API de Python proporcicna el médulo CSV y funciones seader() que se pueden usar ara cargar archivos CSV. Una vez cargado, puede convert los datos CSV a un array NumPy y usarlas para el aprendizaje automatico, Por ejemplo, puede descargar al conjunto de datos de los indios Pirna en su directoria local con el nonibie de archivo pima~indians- @labetes.data.csv Todos los campos en este conjunta de datos son numeéricas y no hay una linea de encabezado, El ejempla carga un objeto que puede iterar sobre cada fila de datos y puede convertrse faciimente en un array NumPy. Ejecutar el ejemplo imprime la forma del array # Load CSV Using Python Standard Library import csv import numpy fillenane= ‘glass.csv' raw_data= open(filenane, 'r') reader = csv.reader(raw_data, deliniter= ',', quoting-csv.QUOTE_NONE) x= list(reader) data- nunpy.array(x) print(data) [ETRE *Na" ‘Mg’ v2. "Bat "Re" Type") ['1.2793' "12,79' 13.5" 24. a" '@" "*budld wind float’"] ['1.52643' "12.15" "3.52" ... "8" '@" “"vehic wind Float” ['2.52623' "13.92" "3.52" J. '@" "Bad! “build wind non-Float’ ['1.51689' 112.67" "2.88"... 8" "8 “'bulld wind non-float*"] ['2.52852' "14.09" "2,19" J... '@" "a" tableware’]] 2.2. Desde NumPy Puede cargar sus datos CSV usando NumPy y la funcién aunpy.Joadtxt(}) Esta funcion ‘no supane una fla de encabezado y tades los datos tienen el mismo formato, El siguiente ejemplo supone que el archivo pima-indians-diabetes.data.csv esti en su directorio de trabajo actual. Ejecutar el ejemplo cargaré el archivo como numpy.ndarray ¢ imprimira la forma de los datos, # Load CSV using NumPy from nunpy import loadtxt filename = ‘glass.csv’ raw_data = open(filename, 'rb") tdata= Loadtxt(raw_data, delimiters", ") print (data. shape) (za, 19) 2.3. Desde Pandas 2uede cargar sus datos CSV usando Pandas:y la funcién pandas. read_csv() Esta funcién 5 muy flexibley es quizas mi enfoque recomendado para carger sus datos de aprendizaje automético, La funcién devuelve un pandas. DataFrame qué puede comenzar a resurit y trazar de inmmediato, El siguiente siermplo supone que el archivo sima~indians- diabetes. csv esti en el directorio de trabajo actual, Tenga en cuenta que en este ejemplo especificamos explicitarrente los nombres de cada atributo al Dataframe # Load CSV using Pandas import pandas as pd filename = ‘glass.csv’ names = ['RI',"Na’,'Ng',"AL', "Si", "K', "Ca", Ba’, "Fe", "Type"] data = pd.read_csv(filename, names=names) print (data. shape) (21s, 19) También podemos modificar este ejemplo para cargar datos CSV directamente desde una URL # Load dataset import pandas as pd url="https://archive. ics-uci.edu/ml/machine-learning-databases/abalone/abalone. data dataFrame_abalone=pd.read_csv(url, header=None) dataFrane_abalone o t 2 3 4 5 6 7 8 O M 455 0.365 0.099 25140 O.2245 O.1010 21500 15 M 0.350 0265 0.090 02255 oOg9s Doses 20700 7 2 F 05% 420 0.1359 06770 O2565 O1415 2z2100 9 3M O44) 0365 0.125 5160 O2155 O10 21550 10 4 0330 0255 9.080 9.2050 oa95 o0395 20550 7 4172 F 0565 0.450 0.165 0.8870 03700 02390 22499 11 4173 -M 0590 O440 0.135 0.9660 04390 02145 22605 10 4174 M 0.600 O475 0209 1.1760 05255 02875 23080 9 4175 F 0625 0.485 0.150 1.0945 0.5310 02610 22960 10 4176 M O710 O5S5 0.195 1.9485 0.9455 03765 24950 12 4177 rows » 9 columns 3. Descripcion de conjuntos de datos Muchos conjuntos de datos ya vienen ya pordefecto en Python a través de la libreria scikit- learn Io que significa que no necesita cargar el paquete explicitamente, Estos conjunta de datos se encuentran dentro del médulo datasets y de ahi podrén cargarse de manera ‘ruy senailo cargarto 22? (586, 13) [[6.22008-83 1.80002+01 2.21086+00 .., 1,52886+01 3. 95988402 4, 9808=+28] [2.73106-02 @.0000e+02 7,0700E+08 ... 1.780BE+21 3.9692e+02 9, 1488=+28] [2.7298e-82 @.09096+00 7.0700e+00 ... 1.780Be+B1 3.97283e+02 4.03002+00] [6.07608-02 @.20008+00 1.1930e+01 ... 2.1208e+81 3.9690e+02 5. 5400e+08) [1.e959e-01 @.0909e+00 1.1930e+01 ... 2.100Be+B1 3.9345e+02 6, 4800e+00] [4.7a1ee-92 @.0969e+00 1.1938e+01 ... 2.18@Be+81 3.9598e+02 7.;8800e+00] ] Ahtora bien, estas conjuntas de datas nos interesa poder convertiris a un Dataframe de Pandas para poder trabajar con ellos de manera conecta, 222 CRIM ZN INDUS cHaS NOK RM. AGE count 506000000 505.0000 SD&000000 s06.000000 s0E.00000 sUéODD000 306000000 mean 3.673524 11.363636 11,136779 QOB9T70. «2.554695 G.2B4634 58574901 std 8601545 23322453 GBBDIS3 0.25399 © 9.11587B —O.TOZ6IT —28.148861 min 0.006320 2.000000 9460000 © g.onn900 «2385000 3.561000 2900000 25% 0.082045 2.000000 s.190000 megng0g ©» 2.449000 —s.g85500 45025000 50% 0256510 2.000000 ae90000 monogon» «2538000 208500 77.500000 75% 3.677083 12500000 18100000 © megnd00 © 2.624000 6.423500 4.075000 max 88.976200 100000000 27.740000 © 1.000000 «2.871000 &.7B0000 100.0000 3.1. Clasificacion multiclase: Iris I mejar proyecto, de tamafio pequefio, para comenzar con machine learning es el conjunto de datos de iris, ste es un buen conjunto de dates para un primer proyecto porque se entiende muy bien 2ecordemos algunas caracteristicas principales: * Los atributos son numéricos, por lo que debemos averiguar como cergary manejar los datos. * sun problema de clasificaci6n, que nos permite practicar con quizas un tipo mas facil de algoritmo de aprendizaje supervisado. * sun problema de clasificacién multclase (multi-nominal) que puede requerir un manejo especializado, © Solo-tiene 4 atributos y 150 filas, lo que significa que es pequefia y cabe facilmente en la memoria principal. ® Todos los atributos numéricos estén en las mismas unidades y la misma escala no requiere ningun escalad especial o transfermaciones para comenzar, 22? ["Inds-setosa’, Inis-setosa’, Inis-setosa’, Tris-setosa’, Inis-setosa’, Iris-setosa’, Inis-setosa’, Tris-setosa’, Inis-setosa’, Iris-setosa’, Inis-setosa’, Tris-setosa’, Inis-setosa’, Iris-setosa’, Inis-setosa’, Tris-setosa’, Inis-setosa’, Iris-setosa’, Inis-setosa’, Tris-setosa’, Inis-setosa’, Iris-setosa’, Inis-setosa’, Tris-setosa’, Inis-setosa’, Inis-setosa’, Inis-setosa’, Tris-setosa’, Inis-setosa’, Iris-setosa’, Inis-setosa’, Inis-setosa’, Inis-setosa’, Iris-setosa’, Inis-setosa’, Tris-setosa’, Inis-setosa’, Iris-setosa’, Inis-setosa’, Tris-setosa’, Inis-setosa’, Iris-setosa’, Inis-setosa’, Tris-setosa’, Inis-setosa’, Iris-setosa’, Inis-setosa’, Tnis-setosa’, Inis-setosa’, Inis-setosa’, Iriseversicolar’, Iris-versicolar’, Iris-versicolar’, Iris-versicolar’ , Iris-versicolor’, Iris-versicolor', Ints-versicolor', Ints-versicolor', Inis-versicolor', Inis-versicolor', Ints-versicolor', Ints-versicolor', Inis-versicolor', Inis-versicolor', Iris-versicolor’, Inis-versicolor’, Ints-versicolor', Iriseversicolor’, Iriseversicolor’, Iris-versicolor', Ints-versicolor', Inis-versicolor', Ints-versicolor', Ints-versicolor', Inis-versicolor', Inis-versicolor', Ints-versicolor', Ints-versicolor', Inis-versicolor', Ints-versicolor', Ints-versicolor', Ints-versicolor', Inis-versicolor', Ints-versicolor', Ints-versicolor', Ints-versicolor', Inis-versicolor', Inis-versicolor', Ints-versicolor', Iris-versicolor’, Iriseversicolor’, Iriseversicolor’, Ints-versicolor', Inis-versicolor', Iriseversicolor’, Ints-versicolor', Ints-versicolor', Ints-versicolor', Inis-versicolor', Ints-versicolor', Inis-virgiaiea Inis-virginica Inis-virginica Inis-virginica Inis-virgiaiea Inis-virginiea Inis-virginiea Inis-virginica Inis-virgiaiea Inis-virginiea Inis-virginiea Enis-virginica’, Ints-virginis’, Inis-virginica’, Inis-virginica’, Inis-virginics’, Ints-virginics’, Inis-virginica’, Inis-virginica’, Inis-virginics’, Ints-virginics’, Inis-virginica’, Inis-virginica’, Inis-virginics’, Ints-virginics’, Inis-virginica’, Inis-virginica’, Inis-virginica’, Inis-virginica’, Inis-virginica’, Inis-virginica’, Inis-vinginica’, Inis-virginics’, Inis-virginica’, Inis-virginica’, Inis-virginics’, Inis-virginics’, Inis-virginica’, Inis-virginica’, Inis-virginics’, Inis-virginics’, Inis-virginica’, Inis-virginica’, Inis-virginics’, Ints-virginics’, Inis-virginica’, Inis-virginica’, Inis-virginica’, Inis-virginica’, Inds-wirginica’] 3.2. Clasificacién Binaria: Sonar, Mines vs. Rocks al enfoque de este prayecto serd el conjunto de datos Sonar Mines vs Rocks El problema es aredecir objetos de metal o ace @ partir de los datos de retorno de la sonda, Cada patrin es un canjunto de 60 numeros en el ranga de 0.0 a 1,0. Cada ndimero representa la energia dentro de una banda de frecuencia particular, integrada durante un cierto perioda de tiempo. La-etiqueta asociada con cada registro contiene la letra "R" si el objeto es una roca y 'M” si es una mina (clindro de metal). Los nlimeros en las etiquetas estan en orden creciente de angulo de aspecto; pero no codifican el angulo direstamente. 22? 208 rows * 61 2.0200 2.0453 20262 2.0100 20762 2.0187 2.0323 a0s2z 2.0303 20260 0.0371 o.os23 o.0sez aor 0.0666 0.0346 0101 0.0437 0.9353 0.0363 oazs 0.0843 i099 0.0623 oat ames oozes aed nasa omnas columns 3 wear n6ea a.10e3 uzos o3s4 owt nse4 aw2s2 0608 wazz 4 09s4 09183 20974 2.0205 2.0590 20393 20760 20351 20167 aozta 5 0.0986 2583 o2280 0.0368 0.0649 0.1630 0958 an 1354 0.0338 eee 6 a.1539 02156 02431 0.1098 a.1209 0.2028 0.0990 257 aes ness 3.3. Regresién: Boston House Price Para este proyecte, trabajaremos el conjunta de datos Boston House Price, Cada registra en 7 0.1601 0.481 a7 a1a76 o2aeT a16s4 101s ane anes aao0 8 23109 23337 2.5598 2.0598 23564 22328 2.1030 1258 24945 2.1843 9 a2 22872 26194 1264 24859 22684 22154 22529 22354 12354 la base de datos describe un suburbio de Ia ciudad de Boston. Los datos se extrajeron del area estadistica metropolitans estandar de Boston (SMSA) en 1970, Los atriburtas se definen de a siguiente manera: CRIM tasa de criminalidad per capita por ciudad. ZN: proporcién de tierra residencial zonificada para lotes-de mas de 25000 pies cuadradas, * INDUS: proporcidn de acres de negocios no minoristas por ciudad, © CHAS: variable ficticia del rio Charles (=1 si el trecho delimita ef rio; 0 de lo contrario). * NOX: concentracion de dxidos nitricos (partes por 10 millones}. RM: niimero medio de habitaciones por vivienda, * AGE: proporcisn de unidades ocupadas por el propietario construidas antes de 1940, * DiS: distancias ponderadas a cinco centros de empleo de Boston, ® RAD: indice de accesibilidad a autepistas radiales. » TAX: tasa de impuesto a fa propiedad de valor total por USD10000, * PTRATIO: proporcian alurno-profesor por ciudad, © B: $1000(Bk - 0.63)"2$ donde Bk es la proparcién de personas de color por ciudad * STAT: % menor estado de ta poblacion, ® MEDV: valor medio de las viviendas acupadas por sus propietarios en USD1000. 22? CRIM ZN INDUS CHAS NOX RM AGE DIS RAD TAX PTRATIO ' O 200632 120 © 231 O 2538 575 G52 40900 1 2960 153 396.9 1 202731 00 © 707 O 2469 G421 789 4.9671 2 2420 17.8 396.9 2 202729 00 | 7.07 O 2469 7.185 611 4.9671 2 M20 17.8 3928. 3203237 00 218 O 2458 6998 458 GOG22 3 2220 167 34.6. 42068805 00 (218 O 2458 7.147 a2 G0G22 3 220 167 396.9 501 206263 00 11,93 Q 2573 6593 991 2476 1 2720 210 391.9 502 208527 00 11.93 O 2573 6420 767 22875 1 2730 210 396.91 503 206076 00 11,93 Q 2573 6976 90 21675 1 27320 210 396.91 504 270959 00 11,93 O 2573 G79 993 23889 1 2730 210 3934: 505 204741 00 11.93 O 2573 6030 408 25050 1 27320 210 396.91 506 rows * 14-columns A » 4. Conclusiones -legados a este punte podemos abservar la importancia de cdmo tengamas nuestro conjunta de datos, Este aspecto es esencial para poder realizar un buen proyecta de Machine Learning y no tener problemas a la hora de la Fase de Modelado, ara este curso usted deberd trabajar un conjunto de datos que esté en formato Tidy Data, ara ello, nos podemos nutrir de varias paginas web ara poder elegir un buen conjunta de datos y empezar a practicar en el Analisis de Datos que empezaremas en la siguiente seccidn; tambien para trabajar @ lo fargo del curso con el mismo conjunto de datos, Para ello, auede escoger de la platafarma UCI Machine Learning que, come hemos visto, €8 un gran ‘epositorio can una gran cantidad de datasets, También podrd escoger de otras paginas cexistentes, las cuales el enlace se pondré en el aula viral. in este sentido, se le pide indager por las diferentes paginas y escoger un conjunto de datos que crea adecuado para seguir el curso.

También podría gustarte