MAD vs Tukey: Eligiendo el Método Correcto para Detectar Outliers

Name: PlotNerd
Availability: InStock
Author: PlotNerd

1. ¿Qué son los Outliers y por qué importan?

Los Outliers (valores atípicos) son puntos de datos que se desvían significativamente del resto de tu conjunto de datos. Pueden representar:

Errores de entrada de datos: Errores tipográficos, puntos decimales mal colocados.
Eventos raros: Observaciones legítimas pero inusuales (ej. un estudiante sacando 100% en un examen difícil).
Errores de medición: Mal funcionamiento del equipo o factores ambientales.
Anomalías verdaderas: Valores reales pero excepcionales que requieren investigación.

Detectar outliers es crucial porque pueden:

Sesgar tus estadísticas: Afectan dramáticamente la media y la desviación estándar.
Confundir tu análisis: Pueden ocultar patrones o crear patrones falsos.
Requerir investigación: Entender por qué existen puede revelar ideas importantes.

2. Método 1.5×IQR de Tukey Explicado

El método de Tukey (también llamado regla 1.5×IQR) es el método más común para detectar outliers en diagramas de caja. Fue desarrollado por John Tukey en los años 70 como parte del análisis exploratorio de datos.

Cómo Funciona

Calcula Q1 (primer cuartil) y Q3 (tercer cuartil)
Calcula el IQR (Rango Intercuartílico) = Q3 - Q1
Calcula el límite inferior = Q1 - 1.5 × IQR
Calcula el límite superior = Q3 + 1.5 × IQR
Cualquier punto < límite inferior o > límite superior se considera un outlier

Ejemplo

Si Q1 = 20, Q3 = 40, entonces IQR = 20

Límite inferior = 20 - 1.5 × 20 = -10

Límite superior = 40 + 1.5 × 20 = 70

Cualquier valor < -10 o > 70 es un outlier.

Pros y Contras

Ventajas

Simple e intuitivo
Ampliamente entendido y aceptado
Funciona bien para datos simétricos
Estándar en visualización de box plots
Rápido de calcular

Limitaciones

Asume distribución simétrica
Puede marcar demasiados puntos en datos sesgados
Sensible a outliers extremos
Puede omitir outliers en distribuciones sesgadas

3. Método MAD (Desviación Absoluta Mediana) Explicado

MAD (Median Absolute Deviation) es un método robusto de detección de outliers que funciona mejor que el método de Tukey para datos sesgados o asimétricos. Se basa en la mediana en lugar de los cuartiles, lo que lo hace más resistente a los outliers.

Cómo Funciona

Calcula la mediana de tus datos
Calcula las desviaciones absolutas desde la mediana: |valor - mediana|
Calcula la MAD = mediana de las desviaciones absolutas
Calcula los Z-scores modificados usando MAD como escala
Cualquier punto con |Z-score modificado| > umbral (típicamente 3.5) es un outlier

Ejemplo

Si mediana = 25, MAD = 5, umbral = 3.5

Para un valor de 45: Z-score modificado = (45 - 25) / 5 = 4.0

Como |4.0| > 3.5, este valor es un outlier.

Pros y Contras

Ventajas

Robusto a outliers (usa mediana, no media)
Funciona bien para datos sesgados
Menos sensible a valores extremos
Mejor para distribuciones asimétricas
Más preciso para datos no normales

Limitaciones

Menos conocido que el método de Tukey
Ligeramente más complejo de explicar
Requiere elegir un umbral (típicamente 3.5)
Puede ser demasiado conservador para algunas aplicaciones

4. Comparación Lado a Lado

Aspecto	Tukey (1.5×IQR)	MAD
Base	Cuartiles (Q1, Q3)	Mediana y desviaciones absolutas
Mejor Para	Distribuciones simétricas, tipo normal	Distribuciones sesgadas, asimétricas
Robustez	Moderada (usa cuartiles)	Alta (usa mediana)
Complejidad	Simple (fácil de explicar)	Moderada (requiere umbral)
Popularidad	Muy común (estándar en box plots)	Menos común (uso creciente)
Umbral	Fijo (1.5 × IQR)	Configurable (típicamente 3.5)

5. Cuándo Usar Cada Método

Usa el Método Tukey Cuando:

Tus datos son aproximadamente simétricos
Estás creando diagramas de caja estándar
Necesitas un método simple y ampliamente entendido
Tu audiencia espera diagramas de caja tradicionales
Trabajas con datos distribuidos normalmente
Quieres consistencia con las prácticas estándar

Usa el Método MAD Cuando:

Tus datos son sesgados o asimétricos
Tienes muchos outliers que podrían afectar los cuartiles
Necesitas un método más robusto
Trabajas con distribuciones no normales
Quieres mejor precisión para datos sesgados
Estás analizando datos con contaminación potencial

6. Ejemplos Prácticos

Ejemplo 1: Datos Simétricos (Preferible Tukey)

Escenario: Puntajes de pruebas de un examen bien diseñado (distribución aproximadamente normal).

Datos:

75, 78, 80, 82, 85, 87, 90, 92, 95, 98

Resultado: Ambos métodos funcionan bien, pero el método de Tukey es más simple y estándar para este caso.

→ Prueba este ejemplo en la Calculadora de Outliers (cambia entre métodos) →

Ejemplo 2: Datos Sesgados (Preferible MAD)

Escenario: Datos de ingresos (distribución sesgada a la derecha con pocos ingresos altos).

Datos:

30, 35, 40, 45, 50, 55, 60, 65, 70, 200

Resultado: El método MAD es más robusto aquí. El método de Tukey podría marcar el 200 como outlier, mientras que MAD considera mejor la distribución general.

→ Prueba este ejemplo en la Calculadora de Outliers (compara métodos) →

Ejemplo 3: Datos con Muchos Outliers

Escenario: Lecturas de sensores con errores de medición potenciales.

Datos:

12.1, 12.3, 12.5, 12.7, 12.9, 13.1, 13.3, 50.0, 55.0, 60.0

Resultado: El método MAD es más robusto porque usa la mediana, que se ve menos afectada por outliers. Esto lo hace mejor para detectar verdaderos outliers en datos contaminados.

→ Prueba este ejemplo en la Calculadora de Outliers (prueba ambos métodos) →

7. FAQ

P: ¿Qué método es más preciso?

R: Ninguno es universalmente más preciso. El método de Tukey es mejor para distribuciones simétricas tipo normal, mientras que el método MAD es mejor para datos sesgados o asimétricos. El "mejor" método depende de la distribución de tus datos.

P: ¿Puedo usar ambos métodos en PlotNerd?

R: ¡Sí! La Calculadora de Outliers de PlotNerd te permite cambiar entre los métodos Tukey y MAD en tiempo real. Simplemente selecciona tu método preferido en el panel de resultados y el gráfico se actualizará al instante. Esto te permite comparar cómo cada método identifica outliers en tus datos.

P: ¿Cuál es el umbral de MAD en PlotNerd?

R: PlotNerd usa un umbral predeterminado de 3.5 para la detección de outliers con MAD, que es el estándar en la literatura estadística. Esto significa que cualquier punto de datos con un Z-score modificado mayor a 3.5 (en valor absoluto) se considera un outlier.

8. Conclusión

Elegir entre los métodos de detección de outliers 1.5×IQR de Tukey y MAD depende de las características de tus datos:

Usa el método de Tukey para distribuciones simétricas, tipo normal y diagramas de caja estándar.
Usa el método MAD para datos sesgados, asimétricos o cuando necesites una detección de outliers más robusta.

Con PlotNerd, puedes comparar fácilmente ambos métodos en tiempo real, viendo cómo cada uno identifica los valores atípicos en tu conjunto de datos específico. Esto te ayuda a elegir el método más apropiado para tu análisis.

¿Listo para Probar Ambos Métodos?

Prueba la calculadora de detección de outliers de PlotNerd para ver cómo se comparan los métodos Tukey y MAD en tus datos.

Lanzar Calculadora de Outliers

MAD vs Tukey:
Eligiendo el Método Correcto para Detectar Outliers

1. ¿Qué son los Outliers y por qué importan?

2. Método 1.5×IQR de Tukey Explicado

Cómo Funciona

Pros y Contras

Ventajas

Limitaciones

3. Método MAD (Desviación Absoluta Mediana) Explicado

Cómo Funciona

Pros y Contras

Ventajas

Limitaciones

4. Comparación Lado a Lado

5. Cuándo Usar Cada Método

Usa el Método Tukey Cuando:

Usa el Método MAD Cuando:

6. Ejemplos Prácticos

Ejemplo 1: Datos Simétricos (Preferible Tukey)

Ejemplo 2: Datos Sesgados (Preferible MAD)

Ejemplo 3: Datos con Muchos Outliers

7. FAQ

P: ¿Qué método es más preciso?

P: ¿Puedo usar ambos métodos en PlotNerd?

P: ¿Cuál es el umbral de MAD en PlotNerd?

8. Conclusión

¿Listo para Probar Ambos Métodos?

Artículos Relacionados

🛠️ Herramientas Relacionadas

🔗 Ver También

🛠️ Herramientas

📚 Artículos