La Guía Definitiva de
Algoritmos de Cuartiles
¿Sabías que hay al menos 9 formas diferentes de calcular un cuartil? Desglosamos el sistema de clasificación Hyndman & Fan utilizado por R y Python.
Introducción: El Mito de la "Respuesta Correcta"
Si pides a cinco estadísticos que calculen los cuartiles de un conjunto de datos pequeño, podrías obtener cinco respuestas diferentes. Y técnicamente, todas podrían ser correctas.
En 1996, los estadísticos Rob J. Hyndman y Yanan Fan
publicaron un artículo fundamental titulado
"Sample Quantiles in Statistical Packages",
donde clasificaron los 9 métodos más comunes utilizados
por el software. Esta clasificación es ahora el estándar
utilizado en el lenguaje R (type=1 a type=9).
¿Por qué importa esto?
Si estás replicando un estudio o verificando una tarea, usar el "Tipo" incorrecto puede llevar a respuestas "incorrectas", incluso si tus matemáticas son sólidas.
Los 9 Tipos de Cuartiles
Los métodos se categorizan generalmente en dos grupos: Discontinuos (Tipos 1-3) y Continuos (Tipos 4-9).
Métodos Discontinuos (Discretos)
Estos métodos siempre devuelven un valor del conjunto de datos original (o un punto medio). A menudo se usan para muestras pequeñas o datos ordinales.
- Tipo 1 (Inverso de CDF empírico): Usado por software antiguo. Simplemente toma el valor en el rango específico.
- Tipo 2 (Similar al Tipo 1): Promedia en discontinuidades. Usado en algunos procedimientos SAS.
- Tipo 3 (Estadístico de orden par más cercano): El predeterminado en SAS. Redondea al rango más cercano.
Métodos Continuos (Interpolación Lineal)
| Tipo | Descripción | Uso de Software |
|---|---|---|
| Tipo 4 | Interpolación lineal de CDF empírico. | Raramente usado por defecto. |
| Tipo 5 | Función lineal por tramos. | Aplicaciones de hidrología. |
| Tipo 6 | Posición de ploteo Weibull (base N+1). | Minitab, SPSS, Excel (EXC). |
| Tipo 7 | Interpolación lineal (base N-1). | R Default, NumPy, Excel (INC). |
| Tipo 8 | Aprox. insesgado para la mediana. | Recomendado por Hyndman & Fan. |
| Tipo 9 | Aprox. insesgado para Normal. | Modelado financiero. |
Métodos Más Comunes
Aunque hay 9 tipos, usualmente solo encontrarás tres en la práctica.
Tipo 7 (R Default, Excel INC)
El estándar de oro para la ciencia de datos
moderna. Interpola los datos linealmente.
h = (n-1)*p + 1
Tipo 6 (Excel EXC, Minitab)
Comúnmente usado cuando quieres extender el
rango para muestras pequeñas (Excluye puntos
finales).
h = (n+1)*p
Bisagras de Tukey (EDA)
No es estrictamente uno de los 9 tipos. Usado para cálculos manuales y diagramas de caja (box plots). Implica dividir los datos por la mediana.
Implementación de Código
En Lenguaje R
data <- c(1, 2, 3, 4, 5, 6, 7, 8, 9, 10)
# Comparar los 9 tipos
sapply(1:9, function(type) {
quantile(data, probs = c(0.25, 0.75), type = type)
}) En Python (NumPy)
import numpy as np
data = [1, 2, 3, 4, 5, 6, 7, 8, 9, 10]
# El método 'linear' corresponde a R type 7
q1 = np.percentile(data, 25, method='linear')
q3 = np.percentile(data, 75, method='linear')
# Otros métodos incluyen: 'lower', 'higher', 'midpoint', 'nearest' ¿Cuál deberías usar?
Para Estudiantes
¡Revisa tu libro de texto! Si estás haciendo cálculos a mano, casi seguro estás usando Bisagras de Tukey (Inclusivo). Usa nuestra Calculadora Tukey.
Para Científicos de Datos
Quédate con el Tipo 7. Es el estándar en R, Python (NumPy, Pandas) y Scikit-learn. Tiene las mejores propiedades matemáticas para datos continuos.
Para Analistas de Negocios
Si trabajas en Excel, usa QUARTILE.INC (que es
Tipo 7). Evita la función heredada QUARTILE si
es posible.
¿Confundido? Déjanos verificar por ti.
PlotNerd calcula tus datos usando los 5 métodos más comunes simultáneamente, para que veas la diferencia al instante.
Ir a la Calculadora