统计方法

MAD vs Tukey:
选择正确的异常值检测方法

并非所有异常值检测方法都是一样的。了解何时使用 MAD(中位数绝对偏差)与 Tukey 的 1.5×IQR 方法,每种方法如何工作,以及哪种方法更适合不同的数据分布。

发布于:2025年8月27日
更新于:2026年2月3日
阅读时间:14 分钟
难度:中等

1. 什么是异常值及为何它们很重要?

异常值是与数据集中其他数据点显著偏离的数据点。它们可能代表:

  • 数据输入错误: 拼写错误、小数点位置错误或测量错误。
  • 罕见事件: 合法但不寻常的观察结果(例如,学生在困难考试中获得 100%)。
  • 测量误差: 设备故障或环境因素。
  • 真正的异常: 真实但例外的数值,需要调查。

检测异常值至关重要,因为它们可以:

  • 扭曲您的统计数据: 异常值会极大地影响平均值和标准差。
  • 误导您的分析: 它们可能隐藏模式或制造虚假模式。
  • 需要调查: 了解异常值存在的原因可以揭示重要的见解。

2. Tukey 的 1.5×IQR 方法详解

Tukey 方法(也称为1.5×IQR 规则)是箱线图中最常用的异常值检测方法。它由 John Tukey 在 20 世纪 70 年代作为探索性数据分析的一部分开发。

工作原理

  1. 计算 Q1(第一四分位数)和 Q3(第三四分位数)
  2. 计算 IQR(四分位距)= Q3 - Q1
  3. 计算下围栏 = Q1 - 1.5 × IQR
  4. 计算上围栏 = Q3 + 1.5 × IQR
  5. 任何小于下围栏或大于上围栏的数据点都被视为异常值

示例

如果 Q1 = 20, Q3 = 40, 那么 IQR = 20

下围栏 = 20 - 1.5 × 20 = -10

上围栏 = 40 + 1.5 × 20 = 70

任何小于 -10 或大于 70 的值都是异常值。

优点和缺点

优点

  • 简单直观
  • 被广泛理解和接受
  • 对对称数据效果良好
  • 箱线图可视化的标准
  • 计算快速

局限性

  • 假设对称分布
  • 在偏态数据中可能标记过多点
  • 对极端异常值敏感
  • 可能遗漏偏态分布中的异常值

3. MAD (中位数绝对偏差) 方法详解

MAD (中位数绝对偏差) 是一种稳健的异常值检测方法,对于偏态或非对称数据,它的效果优于 Tukey 方法。它基于中位数而不是四分位数,这使得它对异常值更具抵抗力。

工作原理

  1. 计算数据的中位数
  2. 计算与中位数的绝对偏差:|值 - 中位数|
  3. 计算 MAD = 绝对偏差的中位数
  4. 使用 MAD 作为尺度计算修正 Z 分数 (Modified Z-scores)
  5. 任何 |修正 Z 分数| > 阈值(通常为 3.5)的点都是异常值

示例

如果 中位数 = 25, MAD = 5, 阈值 = 3.5

对于值 45:修正 Z 分数 = (45 - 25) / 5 = 4.0

因为 |4.0| > 3.5,这个值是异常值。

优点和缺点

优点

  • 对异常值稳健(使用中位数,而非平均值)
  • 对偏态数据效果良好
  • 对极端值不太敏感
  • 更适合非对称分布
  • 对非正态数据更准确

局限性

  • 不如 Tukey 方法知名
  • 解释起来稍微复杂一些
  • 需要选择阈值(通常为 3.5)
  • 对于某些应用可能过于保守

4. 并排比较

方面 Tukey (1.5×IQR) MAD
基础 四分位数 (Q1, Q3) 中位数和绝对偏差
最适合 对称、类正态分布 偏态、非对称分布
稳健性 中等 (使用四分位数) 高 (使用中位数)
复杂性 简单 (易于解释) 中等 (需要阈值)
流行度 非常普遍 (箱线图标准) 较少见 (使用在增长)
阈值 固定 (1.5 × IQR) 可配置 (通常为 3.5)

5. 何时使用每种方法

在以下情况使用 Tukey 方法:

  • 您的数据大致对称
  • 您正在创建标准箱线图
  • 您需要一种简单、广泛理解的方法
  • 您的受众期望传统的箱线图
  • 您正在处理正态分布的数据
  • 您希望与标准实践保持一致

在以下情况使用 MAD 方法:

  • 您的数据是偏态或不对称的
  • 您有很多可能影响四分位数的异常值
  • 您需要一种更稳健的方法
  • 您正在处理非正态分布
  • 您希望对偏态数据有更好的准确性
  • 您正在分析可能受到污染的数据

6. 实际示例

示例 1:对称数据(首选 Tukey)

场景: 精心设计的考试成绩(近似正态分布)。

数据:

75, 78, 80, 82, 85, 87, 90, 92, 95, 98

结果: 两种方法都很好用,但在这种情况下,Tukey 方法更简单且更标准。

→ 在异常值计算器中尝试此示例(切换方法)→

示例 2:偏态数据(首选 MAD)

场景: 收入数据(右偏分布,有少数高收入者)。

数据:

30, 35, 40, 45, 50, 55, 60, 65, 70, 200

结果: MAD 方法在这里更稳健。Tukey 方法可能会将 200 标记为异常值,而 MAD 能更好地考虑整体分布。

→ 在异常值计算器中尝试此示例(比较方法)→

示例 3:包含许多异常值的数据

场景: 可能存在测量误差的传感器读数。

数据:

12.1, 12.3, 12.5, 12.7, 12.9, 13.1, 13.3, 50.0, 55.0, 60.0

结果: MAD 方法更稳健,因为它使用中位数,受异常值影响较小。这使得它更擅长检测受污染数据中的真实异常值。

→ 在异常值计算器中尝试此示例(测试两种方法)→

7. 常见问题 (FAQ)

Q: 哪种方法更准确?

A: 没有一种方法在所有情况下都更准确。Tukey 方法对于对称、类正态分布更好,而MAD 方法对于偏态或非对称数据更好。“最好”的方法取决于您数据的分布。

Q: 我可以在 PlotNerd 中使用这两种方法吗?

A: 是的!PlotNerd 的异常值计算器 允许您实时在 Tukey 和 MAD 方法之间切换。只需在结果面板中选择您喜欢的方法,图表就会立即更新。这让您可以比较每种方法如何识别数据中的异常值。

Q: PlotNerd 中的 MAD 阈值是多少?

A: PlotNerd 使用默认阈值 3.5 进行 MAD 异常值检测,这是统计文献中的标准。这意味着任何绝对值大于 3.5 的修正 Z 分数的数据点都被视为异常值。

8. 结论

在 Tukey 的 1.5×IQR 和 MAD 异常值检测方法之间进行选择取决于您数据的特征:

  • 使用 Tukey 方法用于对称、类正态分布和标准箱线图
  • 使用 MAD 方法用于偏态、非对称数据或当您需要更稳健的异常值检测时

使用 PlotNerd,您可以轻松地实时比较这两种方法,查看每种方法如何识别您特定数据集中的异常值。这有助于您为分析选择最合适的方法。

准备好测试这两种方法了吗?

尝试 PlotNerd 的异常值检测计算器,看看 Tukey 和 MAD 方法在您的数据上如何进行比较。

启动异常值计算器

相关文章

相关工具

另请参阅