MAD vs Tukey:
Eligiendo el Método Correcto para Detectar Outliers
No todos los métodos de detección de valores atípicos son iguales. Aprende cuándo usar MAD (Desviación Absoluta Mediana) frente al método 1.5×IQR de Tukey, cómo funciona cada uno y cuál funciona mejor para diferentes distribuciones de datos.
1. ¿Qué son los Outliers y por qué importan?
Los Outliers (valores atípicos) son puntos de datos que se desvían significativamente del resto de tu conjunto de datos. Pueden representar:
- Errores de entrada de datos: Errores tipográficos, puntos decimales mal colocados.
- Eventos raros: Observaciones legítimas pero inusuales (ej. un estudiante sacando 100% en un examen difícil).
- Errores de medición: Mal funcionamiento del equipo o factores ambientales.
- Anomalías verdaderas: Valores reales pero excepcionales que requieren investigación.
Detectar outliers es crucial porque pueden:
- Sesgar tus estadísticas: Afectan dramáticamente la media y la desviación estándar.
- Confundir tu análisis: Pueden ocultar patrones o crear patrones falsos.
- Requerir investigación: Entender por qué existen puede revelar ideas importantes.
2. Método 1.5×IQR de Tukey Explicado
El método de Tukey (también llamado regla 1.5×IQR) es el método más común para detectar outliers en diagramas de caja. Fue desarrollado por John Tukey en los años 70 como parte del análisis exploratorio de datos.
Cómo Funciona
- Calcula Q1 (primer cuartil) y Q3 (tercer cuartil)
- Calcula el IQR (Rango Intercuartílico) = Q3 - Q1
- Calcula el límite inferior = Q1 - 1.5 × IQR
- Calcula el límite superior = Q3 + 1.5 × IQR
- Cualquier punto < límite inferior o > límite superior se considera un outlier
Ejemplo
Si Q1 = 20, Q3 = 40, entonces IQR = 20
Límite inferior = 20 - 1.5 × 20 = -10
Límite superior = 40 + 1.5 × 20 = 70
Cualquier valor < -10 o > 70 es un outlier.
Pros y Contras
Ventajas
- Simple e intuitivo
- Ampliamente entendido y aceptado
- Funciona bien para datos simétricos
- Estándar en visualización de box plots
- Rápido de calcular
Limitaciones
- Asume distribución simétrica
- Puede marcar demasiados puntos en datos sesgados
- Sensible a outliers extremos
- Puede omitir outliers en distribuciones sesgadas
3. Método MAD (Desviación Absoluta Mediana) Explicado
MAD (Median Absolute Deviation) es un método robusto de detección de outliers que funciona mejor que el método de Tukey para datos sesgados o asimétricos. Se basa en la mediana en lugar de los cuartiles, lo que lo hace más resistente a los outliers.
Cómo Funciona
- Calcula la mediana de tus datos
- Calcula las desviaciones absolutas desde la mediana: |valor - mediana|
- Calcula la MAD = mediana de las desviaciones absolutas
- Calcula los Z-scores modificados usando MAD como escala
- Cualquier punto con |Z-score modificado| > umbral (típicamente 3.5) es un outlier
Ejemplo
Si mediana = 25, MAD = 5, umbral = 3.5
Para un valor de 45: Z-score modificado = (45 - 25) / 5 = 4.0
Como |4.0| > 3.5, este valor es un outlier.
Pros y Contras
Ventajas
- Robusto a outliers (usa mediana, no media)
- Funciona bien para datos sesgados
- Menos sensible a valores extremos
- Mejor para distribuciones asimétricas
- Más preciso para datos no normales
Limitaciones
- Menos conocido que el método de Tukey
- Ligeramente más complejo de explicar
- Requiere elegir un umbral (típicamente 3.5)
- Puede ser demasiado conservador para algunas aplicaciones
4. Comparación Lado a Lado
| Aspecto | Tukey (1.5×IQR) | MAD |
|---|---|---|
| Base | Cuartiles (Q1, Q3) | Mediana y desviaciones absolutas |
| Mejor Para | Distribuciones simétricas, tipo normal | Distribuciones sesgadas, asimétricas |
| Robustez | Moderada (usa cuartiles) | Alta (usa mediana) |
| Complejidad | Simple (fácil de explicar) | Moderada (requiere umbral) |
| Popularidad | Muy común (estándar en box plots) | Menos común (uso creciente) |
| Umbral | Fijo (1.5 × IQR) | Configurable (típicamente 3.5) |
5. Cuándo Usar Cada Método
Usa el Método Tukey Cuando:
- Tus datos son aproximadamente simétricos
- Estás creando diagramas de caja estándar
- Necesitas un método simple y ampliamente entendido
- Tu audiencia espera diagramas de caja tradicionales
- Trabajas con datos distribuidos normalmente
- Quieres consistencia con las prácticas estándar
Usa el Método MAD Cuando:
- Tus datos son sesgados o asimétricos
- Tienes muchos outliers que podrían afectar los cuartiles
- Necesitas un método más robusto
- Trabajas con distribuciones no normales
- Quieres mejor precisión para datos sesgados
- Estás analizando datos con contaminación potencial
6. Ejemplos Prácticos
Ejemplo 1: Datos Simétricos (Preferible Tukey)
Escenario: Puntajes de pruebas de un examen bien diseñado (distribución aproximadamente normal).
Datos:
75, 78, 80, 82, 85, 87, 90, 92, 95, 98
Resultado: Ambos métodos funcionan bien, pero el método de Tukey es más simple y estándar para este caso.
→ Prueba este ejemplo en la Calculadora de Outliers (cambia entre métodos) →Ejemplo 2: Datos Sesgados (Preferible MAD)
Escenario: Datos de ingresos (distribución sesgada a la derecha con pocos ingresos altos).
Datos:
30, 35, 40, 45, 50, 55, 60, 65, 70, 200
Resultado: El método MAD es más robusto aquí. El método de Tukey podría marcar el 200 como outlier, mientras que MAD considera mejor la distribución general.
→ Prueba este ejemplo en la Calculadora de Outliers (compara métodos) →Ejemplo 3: Datos con Muchos Outliers
Escenario: Lecturas de sensores con errores de medición potenciales.
Datos:
12.1, 12.3, 12.5, 12.7, 12.9, 13.1, 13.3, 50.0, 55.0, 60.0
Resultado: El método MAD es más robusto porque usa la mediana, que se ve menos afectada por outliers. Esto lo hace mejor para detectar verdaderos outliers en datos contaminados.
→ Prueba este ejemplo en la Calculadora de Outliers (prueba ambos métodos) →7. FAQ
P: ¿Qué método es más preciso?
R: Ninguno es universalmente más preciso. El método de Tukey es mejor para distribuciones simétricas tipo normal, mientras que el método MAD es mejor para datos sesgados o asimétricos. El "mejor" método depende de la distribución de tus datos.
P: ¿Puedo usar ambos métodos en PlotNerd?
R: ¡Sí! La Calculadora de Outliers de PlotNerd te permite cambiar entre los métodos Tukey y MAD en tiempo real. Simplemente selecciona tu método preferido en el panel de resultados y el gráfico se actualizará al instante. Esto te permite comparar cómo cada método identifica outliers en tus datos.
P: ¿Cuál es el umbral de MAD en PlotNerd?
R: PlotNerd usa un umbral predeterminado de 3.5 para la detección de outliers con MAD, que es el estándar en la literatura estadística. Esto significa que cualquier punto de datos con un Z-score modificado mayor a 3.5 (en valor absoluto) se considera un outlier.
8. Conclusión
Elegir entre los métodos de detección de outliers 1.5×IQR de Tukey y MAD depende de las características de tus datos:
- Usa el método de Tukey para distribuciones simétricas, tipo normal y diagramas de caja estándar.
- Usa el método MAD para datos sesgados, asimétricos o cuando necesites una detección de outliers más robusta.
Con PlotNerd, puedes comparar fácilmente ambos métodos en tiempo real, viendo cómo cada uno identifica los valores atípicos en tu conjunto de datos específico. Esto te ayuda a elegir el método más apropiado para tu análisis.
¿Listo para Probar Ambos Métodos?
Prueba la calculadora de detección de outliers de PlotNerd para ver cómo se comparan los métodos Tukey y MAD en tus datos.
Lanzar Calculadora de OutliersArtículos Relacionados
- → Guía Completa del Método IQR para Detectar Outliers
- → Cómo Leer un Diagrama de Caja: Guía Simple
- → Cómo Comparar Múltiples Grupos con Diagramas de Caja Agrupados
- → Entendiendo los Diagramas de Caja con Muescas
🛠️ Herramientas Relacionadas
- → Calculadora de Outliers – Compara los métodos Tukey y MAD lado a lado
- → Calculadora de Cuartiles de Tukey – Calcula cuartiles y crea diagramas de caja