¿Qué es la clasificación en el modelado predictivo?
En el aprendizaje automático, la clasificación se refiere al entrenamiento de un modelo en un conjunto de datos etiquetados para asignar puntos de datos a clases o para clasificar nuevos puntos de datos. La clasificación es un método de modelado predictivo.
Algunos ejemplos de clasificación
- Filtros de spam: Los filtros de spam utilizan algoritmos de clasificación para reconocer los mensajes de spam mediante el aprendizaje de sus características. A menudo se utilizan los algoritmos Naïve-Bayes y Support Vector Machines.
- Clasificación de imágenes: ¿Cómo sabe tu teléfono qué estás haciendo una foto a la comida? Mediante la clasificación de imágenes. Las redes neuronales convolucionales (CNN) suelen utilizarse para entrenar estos algoritmos.
- Detección de fraudes: La detección de fraudes entra dentro de la detección de anomalías. Los algoritmos de detección de anomalías pueden entrenarse utilizando una variedad de algoritmos de clasificación, siendo los más comunes Naive Bayes y K-NN. La detección de fraudes funciona clasificando las actividades en “normales” y “atípicas”. Los valores atípicos/anómalos activan medidas de protección.
Conjuntos de datos para la clasificación
Los modelos de clasificación requieren grandes conjuntos de datos. Más datos = más precisión, normalmente. En general, su modelo debe tener un conjunto de datos de entrenamiento que haga hincapié en la cantidad y la relevancia. Los conjuntos de datos de entrenamiento deben parecerse lo suficiente al problema y tener tantos ejemplos de cada clase como sea posible. Por ejemplo, si su objetivo es entrenar un filtro de spam de correo electrónico, necesita entrenar el modelo de clasificación en correos electrónicos formales, taquigrafía, correos electrónicos reenviados, correos electrónicos promocionales, notificaciones, confirmaciones de pedidos y correos electrónicos de spam. El conjunto de datos tiene que cubrir suficientemente todos estos elementos y más para ser preciso.
Notación de las etiquetas de clase
Las etiquetas de clase suelen ser valores de cadena que se convierten en valores numéricos. Por ejemplo, “spam” = 1, “no spam” = 0. (Un consejo: tenga cuidado con su notación y asegúrese de documentar completamente su asignación).
¿Qué algoritmo debe utilizar?
No hay un único algoritmo que funcione mejor para la clasificación. Como la mayoría de las cosas en el aprendizaje automático, usted está tirando de su caja de herramientas de algoritmos y tendrá que evaluar cuál se adapta mejor a su problema. En muchos casos, acabará probando varios algoritmos diferentes y comparándolos para averiguar cuál es el mejor. ¿Necesita un punto de partida?
- Bosque aleatorio: Fácil de implementar. Funciona bien en conjuntos de datos con muchas variables.
- Naïve-Bayes: Rápido y funciona bien en conjuntos de datos pequeños.
- Regresión logística: La regresión logística simple puede funcionar para la clasificación. No es tan potente como otros métodos y sólo funciona con variables binarias.
Pero antes de elegir un algoritmo, hay que entender con qué tipo de clasificación se está trabajando. Hay 4 tipos principales de clasificación en el aprendizaje automático.
- Clasificación binaria
- Clasificación multi clase
- Clasificación multi etiqueta
- Clasificación de desequilibrio
Veamos cada uno de ellos con más detalle.
Clasificación binaria
La clasificación binaria se refiere a las tareas de clasificación que tienen dos etiquetas de clase. Normalmente, la clasificación binaria implica una clase que es “normal” y otra que es “anormal”.
Ejemplos de clasificación binaria
- Filtros de correo electrónico (spam, no spam)
- Predicción de conversión/compra (compra, no compra)
- Detección de fraudes (fraude, no fraude)
- Decisiones de préstamo (prestar, no prestar)
Etiquetado de clases binarias
Las clases binarias se suelen etiquetar como 0 y 1. El 0 se asigna a la clasificación “anormal” y el 1 a la clasificación “normal”. En nuestro ejemplo del filtro de spam, “spam” = 0 y “no spam” = 1.
¿Por qué las clases binarias se etiquetan como 0 y 1?
La distribución Bernoulli. (La distribución Bernoulli es una distribución de probabilidad discreta para eventos con resultados binarios. Predice la probabilidad de que un evento ocurra o no ocurra. La distribución Bernoulli utiliza 0 y 1. De ahí que la notación se extienda también al etiquetado de clases binarias.
Algoritmos populares en la clasificación binaria
El etiquetado de clases binarias suele utilizar algoritmos más sencillos y rápidos. Aquí hay algunos para considerar en su modelado.
- Regresión Logística (sólo soporta nativamente 2 clases)
- Árboles de decisión
- Vecinos más cercanos (kNNs)
- Bates ingenuos
- Máquina de vectores de apoyo (sólo admite de forma nativa 2 clases)
Clasificación multi clase
La clasificación multiclase se refiere a las tareas de clasificación que tienen más de dos etiquetas de clase. La clasificación multiclase no suele tener una noción de “normal” o “anormal”. Más bien, los ejemplos son clases que forman parte de una clase entre una serie de clases conocidas.
Ejemplos de clasificación multi clase
- Color de las flores (rojo, azul, amarillo)
- Tipo de animal (gato, perro, pez)
- Especies de aves (pinzón, arrendajo azul, colibrí)
- Tallas de ropa (pequeña, mediana, grande)
Etiquetado multi clase
Mantenerse organizado es importante en el etiquetado multiclase, especialmente cuando se tiene un gran número de clases. El etiquetado multi clase suele empezar en 0. (Por ejemplo, “rojo” = 0, “azul” = 1, “amarillo” = 2).
Distribuciones categóricas
Las distribuciones categóricas (también llamadas distribuciones Bernoulli generalizadas o distribuciones Multinoulli) son una distribución de probabilidad discreta que asigna probabilidades a cada una de las K clases posibles. La probabilidad de cada clase se especifica por separado en la distribución.
Algoritmos populares en la clasificación multi clase
La clasificación multi clase puede utilizar una amplia gama de posibles algoritmos. He aquí algunos de ellos.
- Vecinos más cercanos (kNNs)
- Árboles de decisión
- Bosque aleatorio
- Naïve-Bayes
- Impulso por gradiente
Adaptación de los algoritmos binarios a los multi clase
Si está más familiarizado y se siente más cómodo con los algoritmos binarios -como la regresión logística o las máquinas de vectores de soporte- puede estar de suerte. Estos algoritmos pueden ser adaptados para su uso en múltiples clases. Estas estrategias implican el uso de uno-vs-todos y uno-vs-uno.
- Uno-vs-todos: cada clase frente a todas las demás clases (¿La flor es roja o cualquier otra cosa menos roja?)
- Uno-vs-uno: ejecuta el algoritmo binario varias veces para cada posibilidad. (¿La flor es roja o azul? ¿La flor es roja o amarilla? ¿La flor es azul o amarilla?
Clasificación multi etiqueta
Ejemplos de clasificación multi etiqueta
La clasificación multi etiqueta es cada vez más común a medida que intentamos comprender mejor los conjuntos de datos utilizando la IA. La aplicación más práctica es la visión por ordenador.
- Elementos de una imagen
- Género de la película basado en el cartel de la misma
- Avisos en vídeos (vulgares, gráficos, ofensivos, blasfemos)
- Marcar contenidos en las redes sociales
Algoritmos populares en la clasificación multi etiqueta
La clasificación multi etiqueta no puede basarse en algoritmos binarios o multiclase. Más bien se utilizan versiones especializadas de estas fórmulas estándar.
- Árboles de decisión multi etiqueta
- Bosques aleatorios multi etiqueta
- Multi-etiqueta Gradient Boosting
Como alternativa, puede predecir las etiquetas de cada clase con un algoritmo de clasificación independiente. ¿Necesita profundizar en la clasificación multi etiqueta? Lee la guía y el caso de estudio de Towards Data Science en su increíblemente completo artículo. (¡Hemos aprendido mucho!)
Multi clase vs. Multi etiqueta: ¿Cuál es la diferencia?
La clasificación multi etiqueta y multi clase puede ser difícil de distinguir. Por ejemplo, la fruta favorita frente a la fruta que le gusta. Si tiene un conjunto de datos de 1.000 personas a las que se les ha pedido que clasifiquen las manzanas, los plátanos, las naranjas y las uvas y está buscando información sobre su fruta favorita, la clasificación multiclase es adecuada. Si lo que se busca es un modelo que muestre cómo se relacionan las tres frutas que más gustan, lo apropiado es la multi etiqueta. Otro ejemplo común es el de la visión por ordenador y el análisis de imágenes. Por ejemplo, si se está analizando un conjunto de datos por expresión facial/emoción para averiguar la distribución entre feliz, triste, enfadado y asustado, lo apropiado es la multietiqueta. Si lo que se pretende es identificar el cruce entre triste y enfadado, lo más apropiado es la multi etiqueta.
Clasificación desequilibrada
La clasificación desequilibrada se refiere a la clasificación en la que los conjuntos de datos de cada clase están distribuidos de forma desigual.
Ejemplos de clasificación desequilibrada
La clasificación desequilibrada suele referirse a un conjunto de datos en el que la mayoría de los puntos de datos son binarios con unos pocos valores atípicos importantes.
- Pruebas de diagnóstico médico
- Predicción de siniestros
- Búsqueda de valores atípicos
- Detección de fraudes
Estos ejemplos tienen cierto cruce con la clasificación binaria. La Clasificación desequilibrada se utiliza en estos casos cuando los datos de entrenamiento pueden carecer de ejemplos de lo que se busca o cuando los valores atípicos son muy importantes.
Técnicas de muestreo
En la clasificación desequilibrada, es posible que tenga que revisar su conjunto de datos. Puede cambiar la composición de la muestra submuestreando la clase mayoritaria o sobre muestreando las clases minoritarias.
Técnicas de muestreo para la clasificación desequilibrada
Sobre muestreo | Submuestreo |
Sobre Muestreo aleatorio | Submuestreo aleatorio |
Sobre muestreo aleatorio con imblearn | Submuestreo aleatorio con imblearn |
Técnica de sobre muestreo sintético de minorías (SMOTE) | Enlaces de Tomek |
NearMiss |
Obtenga más detalles sobre cómo utilizar mejor estas técnicas de muestreo con esta guía de Analytics Vidhya.
Algoritmos populares en la clasificación desequilibrada
Al igual que la clasificación multi etiqueta, los algoritmos utilizados en la clasificación desequilibrada deben estar especializados para modelar correctamente. Puede utilizar algoritmos “sensibles al coste” para prestar más atención a las clases minoritarias. Los algoritmos de regresión logística, árboles de decisión y máquinas de vectores de apoyo tienen opciones especializadas sensibles a los costes.
Fuente: Elevate.com