Métodos Estadísticos

MAD vs Tukey:
Eligiendo el Método Correcto para Detectar Outliers

No todos los métodos de detección de valores atípicos son iguales. Aprende cuándo usar MAD (Desviación Absoluta Mediana) frente al método 1.5×IQR de Tukey, cómo funciona cada uno y cuál funciona mejor para diferentes distribuciones de datos.

Publicado: 27 de agosto de 2025
Actualizado: 3 de febrero de 2026
Tiempo de lectura: 14 minutos
Dificultad: Intermedio

1. ¿Qué son los Outliers y por qué importan?

Los Outliers (valores atípicos) son puntos de datos que se desvían significativamente del resto de tu conjunto de datos. Pueden representar:

  • Errores de entrada de datos: Errores tipográficos, puntos decimales mal colocados.
  • Eventos raros: Observaciones legítimas pero inusuales (ej. un estudiante sacando 100% en un examen difícil).
  • Errores de medición: Mal funcionamiento del equipo o factores ambientales.
  • Anomalías verdaderas: Valores reales pero excepcionales que requieren investigación.

Detectar outliers es crucial porque pueden:

  • Sesgar tus estadísticas: Afectan dramáticamente la media y la desviación estándar.
  • Confundir tu análisis: Pueden ocultar patrones o crear patrones falsos.
  • Requerir investigación: Entender por qué existen puede revelar ideas importantes.

2. Método 1.5×IQR de Tukey Explicado

El método de Tukey (también llamado regla 1.5×IQR) es el método más común para detectar outliers en diagramas de caja. Fue desarrollado por John Tukey en los años 70 como parte del análisis exploratorio de datos.

Cómo Funciona

  1. Calcula Q1 (primer cuartil) y Q3 (tercer cuartil)
  2. Calcula el IQR (Rango Intercuartílico) = Q3 - Q1
  3. Calcula el límite inferior = Q1 - 1.5 × IQR
  4. Calcula el límite superior = Q3 + 1.5 × IQR
  5. Cualquier punto < límite inferior o > límite superior se considera un outlier

Ejemplo

Si Q1 = 20, Q3 = 40, entonces IQR = 20

Límite inferior = 20 - 1.5 × 20 = -10

Límite superior = 40 + 1.5 × 20 = 70

Cualquier valor < -10 o > 70 es un outlier.

Pros y Contras

Ventajas

  • Simple e intuitivo
  • Ampliamente entendido y aceptado
  • Funciona bien para datos simétricos
  • Estándar en visualización de box plots
  • Rápido de calcular

Limitaciones

  • Asume distribución simétrica
  • Puede marcar demasiados puntos en datos sesgados
  • Sensible a outliers extremos
  • Puede omitir outliers en distribuciones sesgadas

3. Método MAD (Desviación Absoluta Mediana) Explicado

MAD (Median Absolute Deviation) es un método robusto de detección de outliers que funciona mejor que el método de Tukey para datos sesgados o asimétricos. Se basa en la mediana en lugar de los cuartiles, lo que lo hace más resistente a los outliers.

Cómo Funciona

  1. Calcula la mediana de tus datos
  2. Calcula las desviaciones absolutas desde la mediana: |valor - mediana|
  3. Calcula la MAD = mediana de las desviaciones absolutas
  4. Calcula los Z-scores modificados usando MAD como escala
  5. Cualquier punto con |Z-score modificado| > umbral (típicamente 3.5) es un outlier

Ejemplo

Si mediana = 25, MAD = 5, umbral = 3.5

Para un valor de 45: Z-score modificado = (45 - 25) / 5 = 4.0

Como |4.0| > 3.5, este valor es un outlier.

Pros y Contras

Ventajas

  • Robusto a outliers (usa mediana, no media)
  • Funciona bien para datos sesgados
  • Menos sensible a valores extremos
  • Mejor para distribuciones asimétricas
  • Más preciso para datos no normales

Limitaciones

  • Menos conocido que el método de Tukey
  • Ligeramente más complejo de explicar
  • Requiere elegir un umbral (típicamente 3.5)
  • Puede ser demasiado conservador para algunas aplicaciones

4. Comparación Lado a Lado

Aspecto Tukey (1.5×IQR) MAD
Base Cuartiles (Q1, Q3) Mediana y desviaciones absolutas
Mejor Para Distribuciones simétricas, tipo normal Distribuciones sesgadas, asimétricas
Robustez Moderada (usa cuartiles) Alta (usa mediana)
Complejidad Simple (fácil de explicar) Moderada (requiere umbral)
Popularidad Muy común (estándar en box plots) Menos común (uso creciente)
Umbral Fijo (1.5 × IQR) Configurable (típicamente 3.5)

5. Cuándo Usar Cada Método

Usa el Método Tukey Cuando:

  • Tus datos son aproximadamente simétricos
  • Estás creando diagramas de caja estándar
  • Necesitas un método simple y ampliamente entendido
  • Tu audiencia espera diagramas de caja tradicionales
  • Trabajas con datos distribuidos normalmente
  • Quieres consistencia con las prácticas estándar

Usa el Método MAD Cuando:

  • Tus datos son sesgados o asimétricos
  • Tienes muchos outliers que podrían afectar los cuartiles
  • Necesitas un método más robusto
  • Trabajas con distribuciones no normales
  • Quieres mejor precisión para datos sesgados
  • Estás analizando datos con contaminación potencial

6. Ejemplos Prácticos

Ejemplo 1: Datos Simétricos (Preferible Tukey)

Escenario: Puntajes de pruebas de un examen bien diseñado (distribución aproximadamente normal).

Datos:

75, 78, 80, 82, 85, 87, 90, 92, 95, 98

Resultado: Ambos métodos funcionan bien, pero el método de Tukey es más simple y estándar para este caso.

→ Prueba este ejemplo en la Calculadora de Outliers (cambia entre métodos) →

Ejemplo 2: Datos Sesgados (Preferible MAD)

Escenario: Datos de ingresos (distribución sesgada a la derecha con pocos ingresos altos).

Datos:

30, 35, 40, 45, 50, 55, 60, 65, 70, 200

Resultado: El método MAD es más robusto aquí. El método de Tukey podría marcar el 200 como outlier, mientras que MAD considera mejor la distribución general.

→ Prueba este ejemplo en la Calculadora de Outliers (compara métodos) →

Ejemplo 3: Datos con Muchos Outliers

Escenario: Lecturas de sensores con errores de medición potenciales.

Datos:

12.1, 12.3, 12.5, 12.7, 12.9, 13.1, 13.3, 50.0, 55.0, 60.0

Resultado: El método MAD es más robusto porque usa la mediana, que se ve menos afectada por outliers. Esto lo hace mejor para detectar verdaderos outliers en datos contaminados.

→ Prueba este ejemplo en la Calculadora de Outliers (prueba ambos métodos) →

7. FAQ

P: ¿Qué método es más preciso?

R: Ninguno es universalmente más preciso. El método de Tukey es mejor para distribuciones simétricas tipo normal, mientras que el método MAD es mejor para datos sesgados o asimétricos. El "mejor" método depende de la distribución de tus datos.

P: ¿Puedo usar ambos métodos en PlotNerd?

R: ¡Sí! La Calculadora de Outliers de PlotNerd te permite cambiar entre los métodos Tukey y MAD en tiempo real. Simplemente selecciona tu método preferido en el panel de resultados y el gráfico se actualizará al instante. Esto te permite comparar cómo cada método identifica outliers en tus datos.

P: ¿Cuál es el umbral de MAD en PlotNerd?

R: PlotNerd usa un umbral predeterminado de 3.5 para la detección de outliers con MAD, que es el estándar en la literatura estadística. Esto significa que cualquier punto de datos con un Z-score modificado mayor a 3.5 (en valor absoluto) se considera un outlier.

8. Conclusión

Elegir entre los métodos de detección de outliers 1.5×IQR de Tukey y MAD depende de las características de tus datos:

  • Usa el método de Tukey para distribuciones simétricas, tipo normal y diagramas de caja estándar.
  • Usa el método MAD para datos sesgados, asimétricos o cuando necesites una detección de outliers más robusta.

Con PlotNerd, puedes comparar fácilmente ambos métodos en tiempo real, viendo cómo cada uno identifica los valores atípicos en tu conjunto de datos específico. Esto te ayuda a elegir el método más apropiado para tu análisis.

¿Listo para Probar Ambos Métodos?

Prueba la calculadora de detección de outliers de PlotNerd para ver cómo se comparan los métodos Tukey y MAD en tus datos.

Lanzar Calculadora de Outliers

Artículos Relacionados

🛠️ Herramientas Relacionadas

🔗 Ver También