Quartil-Algorithmen
Der ultimative Leitfaden
Wussten Sie, dass es mindestens 9 verschiedene Methoden gibt, um Quartile zu berechnen? Wir entschlüsseln das Hyndman & Fan Klassifizierungssystem, das von R und Python verwendet wird.
Einleitung: Der Mythos der "einen richtigen Antwort"
Wenn Sie fünf Statistiker bitten, die Quartile eines kleinen Datensatzes zu berechnen, erhalten Sie möglicherweise fünf verschiedene Antworten. Und rein technisch gesehen könnten sie alle recht haben.
1996 veröffentlichten die Statistiker Rob J. Hyndman und
Yanan Fan eine bahnbrechende Arbeit mit dem Titel Sample Quantiles in Statistical Packages, in der sie die 9 häufigsten Methoden, die von
Software verwendet werden, klassifizierten. Diese
Taxonomie ist heute der Standard in der
Programmiersprache R (type=1 bis type=9).
Warum ist das wichtig?
Wenn Sie eine Studie replizieren oder Hausaufgaben überprüfen, kann die Verwendung des falschen "Typs" zu einer "falschen" Antwort führen, selbst wenn Ihre Mathematik korrekt ist.
Die 9 Quantil-Typen
Diese Methoden werden allgemein in zwei Gruppen unterteilt: Diskrete Methoden (Typ 1-3) und Kontinuierliche Methoden (Typ 4-9).
Diskrete Methoden (Unstetig)
Diese Methoden geben immer einen Wert aus dem Originaldatensatz (oder einen Mittelpunkt) zurück. Sie werden oft für kleine Stichproben oder ordinale Daten verwendet.
- Typ 1 (Inverse der empirischen Verteilungsfunktion): Verwendet von einiger älterer Software. Nimmt nur Werte an bestimmten Rängen.
- Typ 2 (Ähnlich wie Typ 1, aber gemittelt bei Unstetigkeiten): In einigen SAS-Verfahren verwendet.
- Typ 3 (Nächste gerade Ordnungsstatistik): Der Standard in SAS. Rundet auf den nächsten Rang.
Kontinuierliche Methoden (Lineare Interpolation)
Diese Methoden interpolieren zwischen Datenpunkten, was bedeutet, dass das Ergebnis eine Dezimalzahl sein kann, die im Datensatz nicht existiert.
| Typ | Beschreibung | Software-Nutzung |
|---|---|---|
| Typ 4 | Lineare Interpolation der empirischen Verteilungsfunktion. | Selten als Standard verwendet. |
| Typ 5 | Stückweise lineare Funktion. | Hydrologische Anwendungen. |
| Typ 6 | Weibull Plotting Position (N+1 Basis). | Minitab, SPSS, Excel (QUARTILE.EXC). |
| Typ 7 | Lineare Interpolation (N-1 Basis). | R Standard, Python (NumPy), Excel (QUARTILE.INC). |
| Typ 8 | Ungefähr median-unverzerrt. | Von Hyndman & Fan für die meisten Zwecke empfohlen. |
| Typ 9 | Ungefähr unverzerrt (Normalverteilung). | Verwendung in einigen Finanzmodellen. |
Die gebräuchlichsten Methoden
Obwohl es 9 Typen gibt, werden Sie in der Praxis meistens nur drei begegnen.
Typ 7 (R Standard, Excel INC)
Der Goldstandard für moderne Data Science. Er
interpoliert linear zwischen Datenpunkten.
h = (n-1)*p + 1
Typ 6 (Excel EXC, Minitab)
Häufig verwendet, wenn Sie bei kleinen
Stichproben den Bereich erweitern möchten
(schließt Endpunkte aus).
h = (n+1)*p
Tukey's Hinges (EDA)
Streng genommen keiner der 9 Typen. Wird für manuelle Berechnungen und Box-Plots verwendet. Beinhaltet das Teilen der Daten am Median.
Code-Implementierung
In R
data <- c(1, 2, 3, 4, 5, 6, 7, 8, 9, 10)
# Vergleiche alle 9 Typen
sapply(1:9, function(type) {
quantile(data, probs = c(0.25, 0.75), type = type)
}) In Python (NumPy)
import numpy as np
data = [1, 2, 3, 4, 5, 6, 7, 8, 9, 10]
# method='linear' entspricht R Typ 7
q1 = np.percentile(data, 25, method='linear')
q3 = np.percentile(data, 75, method='linear')
# Andere Methoden: 'lower', 'higher', 'midpoint', 'nearest' In Excel
' Typ 7 (inklusive)
=QUARTILE.INC(A1:A10, 1) ' Q1
=QUARTILE.INC(A1:A10, 3) ' Q3
' Typ 6 (exklusive)
=QUARTILE.EXC(A1:A10, 1) ' Q1
=QUARTILE.EXC(A1:A10, 3) ' Q3 Welche Methode sollten Sie verwenden?
Für Studenten
Schauen Sie in Ihr Lehrbuch! Wenn Sie manuelle Berechnungen durchführen, verwenden Sie mit ziemlicher Sicherheit Tukey's Hinges (inklusive). Nutzen Sie unseren Tukey-Rechner.
Für Data Scientists
Bleiben Sie bei Typ 7. Es ist der Standard in R, Python (NumPy, Pandas) und Scikit-learn. Es hat die besten mathematischen Eigenschaften für kontinuierliche Daten.
Für Business-Analysten
Wenn Sie in Excel arbeiten, verwenden Sie QUARTILE.INC (das ist Typ 7). Vermeiden Sie die alte QUARTILE-Funktion, wenn möglich.
Für Medizin-/Sozialwissenschaftler
Wenn Sie SPSS oder SAS verwenden, beachten Sie, dass deren Voreinstellungen von R/Python abweichen können. Dokumentieren Sie immer die verwendete Methode in Ihren Arbeiten.
Verwirrt? Lassen Sie uns das prüfen
PlotNerd berechnet Ihre Daten gleichzeitig mit den 4 häufigsten Methoden, sodass Sie die Unterschiede sofort sehen können.
Zum Rechner