IQR vs. Standardabweichung:
Wer findet Ausreißer besser?
Zwei der häufigsten Methoden zur Ausreißererkennung liefern oft unterschiedliche Ergebnisse. Hier ist Ihr Leitfaden zur richtigen Wahl für Ihre Daten.
Der Vergleich auf einen Blick
| Merkmal | IQR-Methode (Tukey) | Standardabweichung (Z-Score) |
|---|---|---|
| Am besten für | Schiefe oder normale Daten | Strenge Normalverteilung |
| Robustheit | Hoch (ignoriert Ausreißer) | Niedrig (wird durch Ausreißer beeinflusst) |
| Definition | Jenseits von 1,5 × IQR der Quartile | 2 oder 3 Standardabweichungen vom Mittelwert |
| Häufige Nutzung | Box-Plots, Explorative Analyse | Qualitätskontrolle, Physik |
Die IQR-Methode (Empfohlen)
Die Interquartilsabstands-Methode (IQR), auch Tukey-Zäune genannt, nutzt die mittleren 50% der Daten, um "normal" zu definieren.
Warum sie gewinnt:
Die IQR-Methode ist robust. Das heißt, die Ausreißer selbst beeinflussen die Berechnung der Grenzen nicht. Selbst wenn Sie einen riesigen Ausreißer haben (z.B. 1.000.000 in einem Datensatz von 1-10), bleiben der Median und die Quartile stabil.
Dies ist der Standard für Box-Plots. Wenn Sie explorative Datenanalyse betreiben oder mit realen Daten arbeiten (die selten perfekt normalverteilt sind), bleiben Sie bei IQR.
Standardabweichungs-Methode (Z-Score)
Diese Methode definiert Ausreißer als Punkte, die mehr als 2 oder 3 Standardabweichungen vom Mittelwert entfernt sind.
Das Problem (Maskierungseffekt):
Mittelwert und Standardabweichung sind beide empfindlich gegenüber Ausreißern. Ein einzelner Extremwert zieht den Mittelwert zu sich und bläht die Standardabweichung auf. Das erweitert den "normalen" Bereich und kann (maskieren) genau die Ausreißer, die Sie finden wollen!
Nutzen Sie dies nur, wenn Sie sicher sind, dass Ihre Daten einer Normalverteilung (Glockenkurve) folgen und Sie Anomalien in einem kontrollierten Prozess (wie Fertigungstoleranzen) suchen.
Das Urteil
Nutzen Sie IQR, wenn:
- Ihre Daten schief sind (z.B. Einkommen, Immobilienpreise).
- Ihr Datensatz klein ist.
- Sie Box-Plots erstellen wollen.
- Sie sich bei der Verteilung unsicher sind.
Nutzen Sie Standardabweichung, wenn:
- Ihre Daten strikt der Normalverteilung folgen (Gauss).
- Sie Qualitätskontrolle betreiben (Six Sigma).
- Sie später parametrische Tests durchführen müssen.
PlotNerd nutzt standardmäßig die robuste IQR-Methode, unterstützt aber auch MAD (noch robuster).
IQR-Rechner ausprobieren