IQR vs. Desviación Estándar:
¿Cuál Encuentra Mejor los Outliers?
Las dos formas más comunes de encontrar outliers a menudo dan resultados diferentes. Aquí te mostramos cómo elegir la correcta para tus datos.
Comparación de un Vistazo
| Característica | Método IQR (Tukey) | Desviación Estándar (Z-Score) |
|---|---|---|
| Mejor Para | Datos Normales o Sesgados | Datos Estrictamente Normales |
| Robustez | Alta (Resistente a outliers) | Baja (Influenciada por outliers) |
| Definición | 1.5 × IQR más allá de los cuartiles | 2 o 3 DE de la media |
| Uso Común | Diagramas de Caja, EDA | Control de Calidad, Física |
El Método IQR (Recomendado)
El método del Rango Intercuartílico (IQR), también conocido como las Vallas de Tukey, usa el 50% central de tus datos para definir lo que es "normal".
Por qué gana:
El método IQR es robusto. Esto significa que los outliers mismos no afectan el cálculo de los límites. Incluso si tienes un outlier masivo (como 1,000,000 en un conjunto de datos de 1-10), la mediana y los cuartiles permanecen estables.
Este es el método estándar usado en Diagramas de Caja. Si estás haciendo análisis exploratorio de datos o trabajando con datos del mundo real (que raramente son perfectamente normales), quédate con IQR.
El Método de Desviación Estándar (Z-Score)
Este método define los outliers como puntos de datos que están a más de 2 o 3 Desviaciones Estándar de la Media.
El Problema (Efecto de Enmascaramiento):
La Media y la Desviación Estándar son sensibles a los outliers. Un solo valor extremo arrastrará la Media hacia él e inflará la Desviación Estándar. ¡Esto expande el rango "normal", potencialmente ocultando (enmascarando) el mismísimo outlier que estás tratando de encontrar!
Usa este método SOLO si estás seguro de que tus datos siguen una Distribución Normal (Campana de Gauss) y estás detectando anomalías en un proceso controlado (como tolerancias de manufactura).
El Veredicto
Usa IQR Cuando:
- Tus datos están sesgados (ej. ingresos, precios de casas).
- Tienes un conjunto de datos pequeño.
- Quieres crear un Diagrama de Caja.
- No estás seguro sobre la distribución.
Usa Desviación Estándar Cuando:
- Tus datos son estrictamente Normales (Gaussianos).
- Estás haciendo Control de Calidad (Seis Sigma).
- Necesitas realizar pruebas estadísticas paramétricas más tarde.
PlotNerd usa el robusto Método IQR por defecto, pero también soporta MAD (aún más robusto).
Prueba la Calculadora IQR