Data Science
Data Science
Data Science
... y los algoritmos individuales son solo una pieza del rompecabezas. El resto del rompecabezas es cómo
los aplica de la manera correcta.
El aprendizaje automático es la práctica de enseñar a las computadoras cómo aprender patrones a partir de
datos, a menudo para tomar decisiones o predicciones.
Para un verdadero aprendizaje automático, la computadora debe poder aprender patrones que no están
programados explícitamente para identificar.
Terminología clave
Aprendizaje supervisado
El aprendizaje supervisado incluye tareas para datos "etiquetados" (es decir, tiene una variable
objetivo).
El aprendizaje no supervisado incluye tareas para datos "no etiquetados" (es decir, no tiene
una variable de destino).
Primero, aunque estamos "enseñando a las computadoras a aprender por sí mismas", la guía
humana juega un papel muy importante.
Si bien eso suena abierto, obtendrá nuestros marcos probados en los que siempre puede
confiar como puntos de partida.
Uno de los escollos más peligrosos del aprendizaje automático es el sobreajuste. Un modelo
de sobreajuste ha "memorizado" el ruido en el conjunto de entrenamiento, en lugar de
aprender los verdaderos patrones subyacentes.
Le enseñaremos estrategias para prevenir el sobreajuste (A) eligiendo los algoritmos correctos
y (B) ajustándolos correctamente.
Hay 5 pasos básicos:
1. Análisis exploratorio
a. Primero, "conozca" los datos. Este paso debe ser rápido, eficaz y decisivo.
2. Limpieza de datos
a. Luego, limpie sus datos para evitar muchos errores comunes. Mejores datos
superan a algoritmos más sofisticados.
3. Ingeniería de funciones
a. A continuación, ayude a sus algoritmos a "centrarse" en lo que es importante
creando nuevas funciones.
4. Selección de algoritmo
a. Elija los mejores y más apropiados algoritmos sin perder el tiempo.
5. Entrenamiento de modelos
a. Finalmente, entrena a tus modelos. Este paso es bastante práctico una vez que
hayas hecho los primeros 4.
Esto le dará una "idea" de los valores de cada función y es una buena forma de
comprobar si todo tiene sentido.
Puede resultar muy esclarecedor trazar las distribuciones de sus características
numéricas. A menudo, una cuadrícula rápida y sucia de histogramas es
suficiente para comprender las distribuciones.
En este punto, debe comenzar a tomar notas sobre las posibles correcciones
que le gustaría hacer. Si algo parece fuera de lugar, como un valor atípico
potencial en una de sus funciones, ahora es un buen momento para
preguntarle al cliente / a la parte interesada clave, o profundizar un poco más.
Trazar segmentaciones
Observaciones duplicadas
Las observaciones duplicadas surgen con mayor frecuencia durante la
recopilación de datos, como cuando:
Combine conjuntos de datos de varios lugares
Raspar datos
Reciba datos de clientes / otros departamentos
Observaciones irrelevantes
Las observaciones irrelevantes son aquellas que en realidad no se ajustan
al problema específico que está tratando de resolver.
Como regla general , recomendamos combinar clases hasta que cada una
tenga al menos ~ 50 observaciones. Como con cualquier "regla" empírica,
utilícela como una guía (no como una regla ).
ejemplo inmobiliario:
Después de combinar clases dispersas, tenemos menos clases únicas, pero cada una
tiene más observaciones.
A menudo, una prueba visual es suficiente para decidir si desea agrupar determinadas
clases.
Por último, elimine las funciones redundantes o no utilizadas del conjunto de datos.
Las funciones no utilizadas son aquellas que no tienen sentido para pasar a nuestros
algoritmos de aprendizaje automático. Ejemplos incluyen:
Columnas de identificación
En lugar de darle una larga lista de algoritmos, nuestro objetivo es explicar algunos
conceptos esenciales (por ejemplo, regularización, ensamblaje, selección automática de
funciones) que le enseñarán por qué algunos algoritmos tienden a funcionar mejor que
otros.
En el aprendizaje automático aplicado, los algoritmos individuales deben
intercambiarse dentro y fuera según cuál funcione mejor para el problema y el conjunto
de datos. Por lo tanto, nos centraremos en la intuición y los beneficios prácticos sobre
las matemáticas y la teoría.
Los modelos de regresión lineal simple se ajustan a una "línea recta" (técnicamente un
hiperplano dependiendo del número de características, pero es la misma idea). En la
práctica, rara vez funcionan bien. De hecho, recomendamos omitirlos para la mayoría
de los problemas de aprendizaje automático.
Su principal ventaja es que son fáciles de interpretar y comprender. Sin embargo,
nuestro objetivo no es estudiar los datos y redactar un informe de
investigación. Nuestro objetivo es construir un modelo que pueda realizar predicciones
precisas.
En este sentido, la regresión lineal simple adolece de dos defectos importantes:
Regresión de lazo
Least Absolute Shrinkage and Selection Operator.
Una penalización más fuerte lleva a que los coeficientes se acerquen más a
cero.
Red elástica
Por ejemplo, digamos que para las viviendas unifamiliares, los lotes más
grandes tienen precios más altos.
Conjuntos de árboles
Empaquetado (bagging)
Impulso
Bosques aleatorios
1. Cada árbol solo puede elegir entre un subconjunto aleatorio de características para
dividir (lo que lleva a la selección de características).
2. Cada árbol solo se entrena en un subconjunto aleatorio de observaciones (un
proceso llamado remuestreo ).
En la práctica, los bosques aleatorios tienden a funcionar muy bien desde el primer
momento.
Árboles potenciados
Los árboles potenciados entrenan una secuencia de árboles de decisión
limitados y "débiles" y combinan sus predicciones mediante el refuerzo.
2. Regresión de crestas
3. Red elástica
4. Bosque aleatorio
5. Árbol potenciado
Puede parecer que nos tomó un tiempo llegar aquí, pero los científicos de datos
profesionales realmente dedican la mayor parte de su tiempo a los pasos que
conducen a este:
Comencemos con un paso crucial pero que a veces se pasa por alto: gastar sus datos.
Piense en sus datos como un recurso limitado.
Puede gastar parte de él para entrenar su modelo (es decir, alimentarlo con el
algoritmo).
Hasta ahora, hemos estado hablando casualmente sobre modelos de "ajuste", pero
ahora es el momento de tratar el tema de manera más formal.
Cuando hablamos de modelos de ajuste, nos referimos específicamente al ajuste
de hiperparámetros .
Hay dos tipos de parámetros en los algoritmos de aprendizaje automático.
La distinción clave es que los parámetros del modelo se pueden aprender
directamente de los datos de entrenamiento, mientras que los hiperparámetros
no.
4. Realice los pasos (2) y (3) 10 veces, cada vez sosteniendo un pliegue
diferente.
5. Promedio del rendimiento en los 10 pliegues de retención.
El rendimiento promedio en los 10 pliegues de retención es su estimación de
rendimiento final, también llamada puntuación de validación cruzada. Debido a que
creó 10 divisiones de mini tren / prueba, esta puntuación suele ser bastante confiable.
Al final de este proceso, tendrá una puntuación con validación cruzada para cada
conjunto de valores de hiperparámetros ... para cada algoritmo.
Por ejemplo:
Es un poco como los Juegos del Hambre ... cada algoritmo envía sus propios
"representantes" (es decir, modelo entrenado en el mejor conjunto de valores de
hiperparámetros) a la selección final, que viene a continuación ...