Aprendizaje Supervisado
Aprendizaje Supervisado
Aprendizaje Supervisado
Es una técnica para deducir una función a partir de datos de entrenamiento. Los
datos de entrenamiento consisten de pares de objetos (normalmente vectores): una
componente del par son los datos de entrada y el otro, los resultados deseados.
Uno de los usos más extendidos del aprendizaje supervisado consiste en hacer
predicciones a futuro basadas en comportamientos o características que se han
visto en los datos ya almacenados El aprendizaje supervisado permite buscar
patrones en datos históricos relacionando todos campos con un campo especial,
llamado campo objetivo.
Arboles de decisión
Esta herramienta logra servir como apoyo a una toma de decisiones informada,
al exponer las distintas opciones y sus posibles consecuencias, incluidos los
resultados de eventos fortuitos, los costos de recursos y la utilidad; en base a un
gráfico A la hora de trabajar con este algoritmo es necesario tener en cuenta
que hay que conocer el número mínimo de preguntas simples (es decir, las que
puedan responderse con un sí o un no) que es preciso lanzar para evaluar la
probabilidad de tomar una decisión correcta. La ventaja de los árboles de decisión
es que permiten abordar el problema de una manera estructurada y sistemática para
llegar a una conclusión lógica. Pueden emplearse para predecir la respuesta del
público ante el lanzamiento de un nuevo producto o para averiguar la idoneidad de
una campaña de marketing.
Existen dos formas de poda muy comunes utilizadas en los diferentes algoritmos: la
poda por coste-complejidad y la poda pesimista. En la poda por coste-complejidad
se trata de equilibrar la precisión y el tamaño del árbol. La complejidad está
determinada por el número de hojas que posee el árbol (nodos terminales). La poda
pesimista utiliza los casos clasificados incorrectamente y obtiene un error de
sustitución, eliminando los subárboles que no mejoran significativamente la
precisión del clasificador. Existen diferentes algoritmos que implementan este
método entre los más conocidos se encuentran: ID3, C4.5, C5.0, CHAID, MARS o
Árboles de Inferencia Condicional.
Ejemplo
plot(modelo) # Gráfico
# Matriz de confusión
tabla <- table(prediccion, datos.test$Species)
tabla
##
## prediccion setosa versicolor virginica
## setosa 15 0 0
## versicolor 0 11 0
## virginica 0 1 18
# % correctamente clasificados
100 * sum(diag(tabla)) / sum(tabla)
## [1] 97.77778
## [1] virginica
## Levels: setosa versicolor virginica