⚖️ 统计方法
IQR 与标准差:
IQR 与标准差:
哪种方法更能找到异常值?
两种最常用的异常值检测方法往往会给出不同的结果。以下是如何为您的数据选择正确方法的指南。
发布于:2025年12月4日
更新于:2026年2月3日
深度分析
一览对比表
| 特征 | IQR 方法 (Tukey) | 标准差 (Z-Score) |
|---|---|---|
| 最适用于 | 偏态或正态数据 | 严格的正态数据 |
| 稳健性 | 高(不受异常值影响) | 低(受异常值影响) |
| 定义 | 超出四分位数 1.5 × IQR | 离均值 2 或 3 个标准差 |
| 常见用途 | 箱线图、探索性数据分析 | 质量控制、物理学 |
IQR 方法(推荐)
四分位距 (IQR) 方法,也称为 Tukey 围栏法,使用数据的中间 50% 来定义什么是"正常"。
为什么它更胜一筹:
IQR 方法是 稳健的。这意味着异常值本身不会影响边界的计算。即使您的数据集中有一个巨大的异常值(例如在 1-10 的数据集中出现 1,000,000),中位数和四分位数仍然保持稳定。
这是 箱线图 中使用的标准方法。如果您正在进行探索性数据分析或处理现实世界的数据(很少是完美的正态分布),请坚持使用 IQR。
标准差方法 (Z-Score)
此方法将异常值定义为距离均值超过 2 或 3 个标准差的数据点。
问题(掩蔽效应):
均值和标准差对异常值 敏感。一个极端值会将均值拉向它本身,并使标准差膨胀。这会扩大"正常"范围,可能会隐藏(掩蔽)您正在尝试查找的异常值!
仅当您确定数据遵循 正态分布(钟形曲线)并且您正在检测受控过程(如制造公差)中的异常时,才使用此方法。
结论
何时使用 IQR:
- 您的数据是偏态的(例如,收入、房价)。
- 您的数据集很小。
- 您想创建箱线图。
- 您不确定数据的分布。
何时使用标准差:
- 您的数据严格遵循正态分布(高斯分布)。
- 您正在进行质量控制(六西格玛)。
- 您之后需要进行参数统计检验。
PlotNerd 默认使用稳健的 IQR 方法,但也支持 MAD(更加稳健)。
试用 IQR 计算器