MAD vs Tukey:
选择正确的异常值检测方法
并非所有异常值检测方法都是一样的。了解何时使用 MAD(中位数绝对偏差)与 Tukey 的 1.5×IQR 方法,每种方法如何工作,以及哪种方法更适合不同的数据分布。
1. 什么是异常值及为何它们很重要?
异常值是与数据集中其他数据点显著偏离的数据点。它们可能代表:
- 数据输入错误: 拼写错误、小数点位置错误或测量错误。
- 罕见事件: 合法但不寻常的观察结果(例如,学生在困难考试中获得 100%)。
- 测量误差: 设备故障或环境因素。
- 真正的异常: 真实但例外的数值,需要调查。
检测异常值至关重要,因为它们可以:
- 扭曲您的统计数据: 异常值会极大地影响平均值和标准差。
- 误导您的分析: 它们可能隐藏模式或制造虚假模式。
- 需要调查: 了解异常值存在的原因可以揭示重要的见解。
2. Tukey 的 1.5×IQR 方法详解
Tukey 方法(也称为1.5×IQR 规则)是箱线图中最常用的异常值检测方法。它由 John Tukey 在 20 世纪 70 年代作为探索性数据分析的一部分开发。
工作原理
- 计算 Q1(第一四分位数)和 Q3(第三四分位数)
- 计算 IQR(四分位距)= Q3 - Q1
- 计算下围栏 = Q1 - 1.5 × IQR
- 计算上围栏 = Q3 + 1.5 × IQR
- 任何小于下围栏或大于上围栏的数据点都被视为异常值
示例
如果 Q1 = 20, Q3 = 40, 那么 IQR = 20
下围栏 = 20 - 1.5 × 20 = -10
上围栏 = 40 + 1.5 × 20 = 70
任何小于 -10 或大于 70 的值都是异常值。
优点和缺点
优点
- 简单直观
- 被广泛理解和接受
- 对对称数据效果良好
- 箱线图可视化的标准
- 计算快速
局限性
- 假设对称分布
- 在偏态数据中可能标记过多点
- 对极端异常值敏感
- 可能遗漏偏态分布中的异常值
3. MAD (中位数绝对偏差) 方法详解
MAD (中位数绝对偏差) 是一种稳健的异常值检测方法,对于偏态或非对称数据,它的效果优于 Tukey 方法。它基于中位数而不是四分位数,这使得它对异常值更具抵抗力。
工作原理
- 计算数据的中位数
- 计算与中位数的绝对偏差:|值 - 中位数|
- 计算 MAD = 绝对偏差的中位数
- 使用 MAD 作为尺度计算修正 Z 分数 (Modified Z-scores)
- 任何 |修正 Z 分数| > 阈值(通常为 3.5)的点都是异常值
示例
如果 中位数 = 25, MAD = 5, 阈值 = 3.5
对于值 45:修正 Z 分数 = (45 - 25) / 5 = 4.0
因为 |4.0| > 3.5,这个值是异常值。
优点和缺点
优点
- 对异常值稳健(使用中位数,而非平均值)
- 对偏态数据效果良好
- 对极端值不太敏感
- 更适合非对称分布
- 对非正态数据更准确
局限性
- 不如 Tukey 方法知名
- 解释起来稍微复杂一些
- 需要选择阈值(通常为 3.5)
- 对于某些应用可能过于保守
4. 并排比较
| 方面 | Tukey (1.5×IQR) | MAD |
|---|---|---|
| 基础 | 四分位数 (Q1, Q3) | 中位数和绝对偏差 |
| 最适合 | 对称、类正态分布 | 偏态、非对称分布 |
| 稳健性 | 中等 (使用四分位数) | 高 (使用中位数) |
| 复杂性 | 简单 (易于解释) | 中等 (需要阈值) |
| 流行度 | 非常普遍 (箱线图标准) | 较少见 (使用在增长) |
| 阈值 | 固定 (1.5 × IQR) | 可配置 (通常为 3.5) |
5. 何时使用每种方法
在以下情况使用 Tukey 方法:
- 您的数据大致对称
- 您正在创建标准箱线图
- 您需要一种简单、广泛理解的方法
- 您的受众期望传统的箱线图
- 您正在处理正态分布的数据
- 您希望与标准实践保持一致
在以下情况使用 MAD 方法:
- 您的数据是偏态或不对称的
- 您有很多可能影响四分位数的异常值
- 您需要一种更稳健的方法
- 您正在处理非正态分布
- 您希望对偏态数据有更好的准确性
- 您正在分析可能受到污染的数据
6. 实际示例
示例 1:对称数据(首选 Tukey)
场景: 精心设计的考试成绩(近似正态分布)。
数据:
75, 78, 80, 82, 85, 87, 90, 92, 95, 98
结果: 两种方法都很好用,但在这种情况下,Tukey 方法更简单且更标准。
→ 在异常值计算器中尝试此示例(切换方法)→示例 2:偏态数据(首选 MAD)
场景: 收入数据(右偏分布,有少数高收入者)。
数据:
30, 35, 40, 45, 50, 55, 60, 65, 70, 200
结果: MAD 方法在这里更稳健。Tukey 方法可能会将 200 标记为异常值,而 MAD 能更好地考虑整体分布。
→ 在异常值计算器中尝试此示例(比较方法)→示例 3:包含许多异常值的数据
场景: 可能存在测量误差的传感器读数。
数据:
12.1, 12.3, 12.5, 12.7, 12.9, 13.1, 13.3, 50.0, 55.0, 60.0
结果: MAD 方法更稳健,因为它使用中位数,受异常值影响较小。这使得它更擅长检测受污染数据中的真实异常值。
→ 在异常值计算器中尝试此示例(测试两种方法)→7. 常见问题 (FAQ)
Q: 哪种方法更准确?
A: 没有一种方法在所有情况下都更准确。Tukey 方法对于对称、类正态分布更好,而MAD 方法对于偏态或非对称数据更好。“最好”的方法取决于您数据的分布。
Q: 我可以在 PlotNerd 中使用这两种方法吗?
A: 是的!PlotNerd 的异常值计算器 允许您实时在 Tukey 和 MAD 方法之间切换。只需在结果面板中选择您喜欢的方法,图表就会立即更新。这让您可以比较每种方法如何识别数据中的异常值。
Q: PlotNerd 中的 MAD 阈值是多少?
A: PlotNerd 使用默认阈值 3.5 进行 MAD 异常值检测,这是统计文献中的标准。这意味着任何绝对值大于 3.5 的修正 Z 分数的数据点都被视为异常值。
8. 结论
在 Tukey 的 1.5×IQR 和 MAD 异常值检测方法之间进行选择取决于您数据的特征:
- 使用 Tukey 方法用于对称、类正态分布和标准箱线图
- 使用 MAD 方法用于偏态、非对称数据或当您需要更稳健的异常值检测时
使用 PlotNerd,您可以轻松地实时比较这两种方法,查看每种方法如何识别您特定数据集中的异常值。这有助于您为分析选择最合适的方法。
相关文章
相关工具
- → 异常值计算器 – 并排比较 Tukey 和 MAD 方法
- → Tukey Hinges 计算器 – 计算四分位数并创建箱线图