JARG - Taller 6 - Weka
JARG - Taller 6 - Weka
JARG - Taller 6 - Weka
Paso No. 4 – Luego de darle clic al botón del paso No. 3, procedemos a buscar el archivo titanic2.arff
con el cual vamos a realizar la práctica. Luego de seleccionar el archivo damos clic al botón abrir
ubicado en la parte inferior. Adicional a esto se puede observar que existen 6 sub-entornos de
ejecución:
• Preprocess: Incluye las herramientas y filtros para cargar y manipular los datos
• Classification: Acceso a las técnicas de clasificación y regresión.
• Cluster: Integra varios métodos de agrupamiento.
• Associate: Incluye unas pocas técnicas de reglas de asociación.
• Select Attributes: Permite aplicar diversas técnicas para la reducción del número de atributos.
• Visualize: Podemos estudiar el comportamiento de los datos mediante técnicas de visualización.
Paso No. 5 – Se comienzan a visualizar los datos contenidos en el archivo (titanic2.arff).
1. Se visualizan datos principales contenidos en el archivo como lo son:
a. Relation: relation
b. Instances: 2201
c. Attributes: 4
d. Sum of weights: 2201
4. Muestra gráficamente los datos visualizados en el punto 3, estos datos cambian de acuerdo con
el atributo seleccionado en el paso 2.
Paso No. 6 – En la siguiente pestaña “Classify” se construyen los clasificadores de datos, para el
taller se utilizará el un clasificador de árbol, para ello pulsamos sobre el botón Choose para buscar el
clasificador mencionado.
Paso No. 9 – Cuando la aplicación termine de realizar el proceso, en el cuadro “Classifier output”,
tendremos recopilada la información correspondiente al clasificado de árbol utilizado.
sex = male
| class = 1st
| | age = adult: no (175.0/57.0)
| | age = child: yes (5.0)
| class = 2nd
| | age = adult: no (168.0/14.0)
| | age = child: yes (11.0)
| class = 3rd: no (510.0/88.0)
| class = crew: no (862.0/192.0)
sex = female
| class = 1st: yes (145.0/4.0)
| class = 2nd: yes (106.0/13.0)
| class = 3rd: no (196.0/90.0)
| class = crew: yes (23.0/3.0)
Number of Leaves : 10
TP Rate FP Rate Precision Recall F-Measure MCC ROC Area PRC Area Class
0,376 0,013 0,930 0,376 0,535 0,503 0,746 0,680 yes
0,987 0,624 0,768 0,987 0,864 0,503 0,746 0,822 no
Weighted Avg. 0,789 0,427 0,820 0,789 0,758 0,503 0,746 0,777
a b <-- classified as
267 444 | a = yes
20 1470 | b = no
Paso No. 10 – Luego de analizar la información podemos visualizar gráficamente el árbol
correspondiente de esta información, para ellos vamos a dar clic derecho sobre el resultado y
seleccionamos la opción visualize tree.
Paso No. 11 – Se abre una nueva ventana, la cual se debe maximizar y para visualizar correctamente
el árbol, hacemos clic derecho sobre la imagen y seleccionamos la opción Fit to Screen.
Paso No. 12 – En la siguiente pestaña “Cluster”, el funcionamiento es muy similar al de clasificación:
se elige un método de clustering, se selecciona las opciones pertinentes y con el botón Start comienza
el funcionamiento.
Paso No. 13 - Cuando la aplicación termine de realizar el proceso, en el cuadro “Clusterer output”,
tendremos recopilada la información correspondiente al clustering seleccionado
.
=== Run information ===
Scheme: weka.clusterers.EM -I 100 -N -1 -X 10 -max -1 -ll-cv 1.0E-6 -ll-iter 1.0E-6 -M 1.0E-6 -K 10 -num-
slots 1 -S 100
Relation: relation
Instances: 2201
Attributes: 4
class
age
sex
survived
Test mode: evaluate on training data
EM
==
Clustered Instances
0 616 ( 28%)
1 212 ( 10%)
2 791 ( 36%)
3 167 ( 8%)
4 415 ( 19%)
Paso No. 15 - Cuando se termine de realizar el paso anterior, en el cuadro “Associator output”,
tendremos recopilada la información correspondiente a los datos asociados encontrados.
Apriori
=======
1. class=crew 885 ==> age=adult 885 <conf:(1)> lift:(1.05) lev:(0.02) [43] conv:(43.83)
2. class=crew sex=male 862 ==> age=adult 862 <conf:(1)> lift:(1.05) lev:(0.02) [42] conv:(42.69)
3. sex=male survived=no 1364 ==> age=adult 1329 <conf:(0.97)> lift:(1.03) lev:(0.01) [32] conv:(1.88)
4. class=crew 885 ==> sex=male 862 <conf:(0.97)> lift:(1.24) lev:(0.08) [165] conv:(7.87)
5. class=crew age=adult 885 ==> sex=male 862 <conf:(0.97)> lift:(1.24) lev:(0.08) [165] conv:(7.87)
6. class=crew 885 ==> age=adult sex=male 862 <conf:(0.97)> lift:(1.29) lev:(0.09) [191] conv:(8.95)
7. survived=no 1490 ==> age=adult 1438 <conf:(0.97)> lift:(1.02) lev:(0.01) [21] conv:(1.39)
8. sex=male 1731 ==> age=adult 1667 <conf:(0.96)> lift:(1.01) lev:(0.01) [21] conv:(1.32)
9. age=adult survived=no 1438 ==> sex=male 1329 <conf:(0.92)> lift:(1.18) lev:(0.09) [198] conv:(2.79)
10. survived=no 1490 ==> sex=male 1364 <conf:(0.92)> lift:(1.16) lev:(0.09) [192] conv:(2.51)
Paso No. 16 – Esta pestaña nos permite acceder al área de selección de atributos. El objetivo de estos
métodos es identificar, mediante un conjunto de datos que poseen ciertos atributos, aquellos atributos
tiene más peso a la hora de determinar si los datos son de una clase u otra.
Paso No. 17 – Cuando se termine de realizar el paso anterior, en el cuadro “Attribute Selection
output”, tendremos recopilada la información correspondiente a los atributos utilizados.
Search Method:
Best first.
Start set: no attributes
Search direction: forward
Stale search after 5 node expansions
Total number of subsets evaluated: 6
Merit of best subset found: 0.172
Selected attributes: 3 : 1
sex
Paso No. 18 – Esta pestaña “” muestra gráficamente la distribución de todos los atributos mostrando
graficas en dos dimensiones, en las cuales se va representando en los ejes todos los posibles pares
de combinaciones de los atributos, también nos permite ver correlaciones y asociaciones entre los
atributos de una forma gráfica.