MAD vs Tukey: 选择正确的异常值检测方法

Name: PlotNerd
Availability: InStock
Author: PlotNerd

1. 什么是异常值及为何它们很重要？

异常值是与数据集中其他数据点显著偏离的数据点。它们可能代表：

数据输入错误： 拼写错误、小数点位置错误或测量错误。
罕见事件： 合法但不寻常的观察结果（例如，学生在困难考试中获得 100%）。
测量误差： 设备故障或环境因素。
真正的异常： 真实但例外的数值，需要调查。

检测异常值至关重要，因为它们可以：

扭曲您的统计数据： 异常值会极大地影响平均值和标准差。
误导您的分析： 它们可能隐藏模式或制造虚假模式。
需要调查： 了解异常值存在的原因可以揭示重要的见解。

2. Tukey 的 1.5×IQR 方法详解

Tukey 方法（也称为1.5×IQR 规则）是箱线图中最常用的异常值检测方法。它由 John Tukey 在 20 世纪 70 年代作为探索性数据分析的一部分开发。

工作原理

计算 Q1（第一四分位数）和 Q3（第三四分位数）
计算 IQR（四分位距）= Q3 - Q1
计算下围栏 = Q1 - 1.5 × IQR
计算上围栏 = Q3 + 1.5 × IQR
任何小于下围栏或大于上围栏的数据点都被视为异常值

示例

如果 Q1 = 20, Q3 = 40, 那么 IQR = 20

下围栏 = 20 - 1.5 × 20 = -10

上围栏 = 40 + 1.5 × 20 = 70

任何小于 -10 或大于 70 的值都是异常值。

优点和缺点

优点

简单直观
被广泛理解和接受
对对称数据效果良好
箱线图可视化的标准
计算快速

局限性

假设对称分布
在偏态数据中可能标记过多点
对极端异常值敏感
可能遗漏偏态分布中的异常值

3. MAD (中位数绝对偏差) 方法详解

MAD (中位数绝对偏差) 是一种稳健的异常值检测方法，对于偏态或非对称数据，它的效果优于 Tukey 方法。它基于中位数而不是四分位数，这使得它对异常值更具抵抗力。

工作原理

计算数据的中位数
计算与中位数的绝对偏差：|值 - 中位数|
计算 MAD = 绝对偏差的中位数
使用 MAD 作为尺度计算修正 Z 分数 (Modified Z-scores)
任何 |修正 Z 分数| > 阈值（通常为 3.5）的点都是异常值

示例

如果中位数 = 25, MAD = 5, 阈值 = 3.5

对于值 45：修正 Z 分数 = (45 - 25) / 5 = 4.0

因为 |4.0| > 3.5，这个值是异常值。

优点和缺点

优点

对异常值稳健（使用中位数，而非平均值）
对偏态数据效果良好
对极端值不太敏感
更适合非对称分布
对非正态数据更准确

局限性

不如 Tukey 方法知名
解释起来稍微复杂一些
需要选择阈值（通常为 3.5）
对于某些应用可能过于保守

4. 并排比较

方面	Tukey (1.5×IQR)	MAD
基础	四分位数 (Q1, Q3)	中位数和绝对偏差
最适合	对称、类正态分布	偏态、非对称分布
稳健性	中等 (使用四分位数)	高 (使用中位数)
复杂性	简单 (易于解释)	中等 (需要阈值)
流行度	非常普遍 (箱线图标准)	较少见 (使用在增长)
阈值	固定 (1.5 × IQR)	可配置 (通常为 3.5)

5. 何时使用每种方法

在以下情况使用 Tukey 方法：

您的数据大致对称
您正在创建标准箱线图
您需要一种简单、广泛理解的方法
您的受众期望传统的箱线图
您正在处理正态分布的数据
您希望与标准实践保持一致

在以下情况使用 MAD 方法：

您的数据是偏态或不对称的
您有很多可能影响四分位数的异常值
您需要一种更稳健的方法
您正在处理非正态分布
您希望对偏态数据有更好的准确性
您正在分析可能受到污染的数据

6. 实际示例

示例 1：对称数据（首选 Tukey）

场景： 精心设计的考试成绩（近似正态分布）。

数据：

75, 78, 80, 82, 85, 87, 90, 92, 95, 98

结果： 两种方法都很好用，但在这种情况下，Tukey 方法更简单且更标准。

→ 在异常值计算器中尝试此示例（切换方法）→

示例 2：偏态数据（首选 MAD）

场景： 收入数据（右偏分布，有少数高收入者）。

数据：

30, 35, 40, 45, 50, 55, 60, 65, 70, 200

结果： MAD 方法在这里更稳健。Tukey 方法可能会将 200 标记为异常值，而 MAD 能更好地考虑整体分布。

→ 在异常值计算器中尝试此示例（比较方法）→

示例 3：包含许多异常值的数据

场景： 可能存在测量误差的传感器读数。

数据：

12.1, 12.3, 12.5, 12.7, 12.9, 13.1, 13.3, 50.0, 55.0, 60.0

结果： MAD 方法更稳健，因为它使用中位数，受异常值影响较小。这使得它更擅长检测受污染数据中的真实异常值。

→ 在异常值计算器中尝试此示例（测试两种方法）→

7. 常见问题 (FAQ)

Q: 哪种方法更准确？

A: 没有一种方法在所有情况下都更准确。Tukey 方法对于对称、类正态分布更好，而MAD 方法对于偏态或非对称数据更好。“最好”的方法取决于您数据的分布。

Q: 我可以在 PlotNerd 中使用这两种方法吗？

A: 是的！PlotNerd 的异常值计算器允许您实时在 Tukey 和 MAD 方法之间切换。只需在结果面板中选择您喜欢的方法，图表就会立即更新。这让您可以比较每种方法如何识别数据中的异常值。

Q: PlotNerd 中的 MAD 阈值是多少？

A: PlotNerd 使用默认阈值 3.5 进行 MAD 异常值检测，这是统计文献中的标准。这意味着任何绝对值大于 3.5 的修正 Z 分数的数据点都被视为异常值。

8. 结论

在 Tukey 的 1.5×IQR 和 MAD 异常值检测方法之间进行选择取决于您数据的特征：

使用 Tukey 方法用于对称、类正态分布和标准箱线图
使用 MAD 方法用于偏态、非对称数据或当您需要更稳健的异常值检测时

使用 PlotNerd，您可以轻松地实时比较这两种方法，查看每种方法如何识别您特定数据集中的异常值。这有助于您为分析选择最合适的方法。

准备好测试这两种方法了吗？

尝试 PlotNerd 的异常值检测计算器，看看 Tukey 和 MAD 方法在您的数据上如何进行比较。

启动异常值计算器

MAD vs Tukey：
选择正确的异常值检测方法

1. 什么是异常值及为何它们很重要？

2. Tukey 的 1.5×IQR 方法详解

工作原理

优点和缺点

优点

局限性

3. MAD (中位数绝对偏差) 方法详解

工作原理

优点和缺点

优点

局限性

4. 并排比较

5. 何时使用每种方法

在以下情况使用 Tukey 方法：

在以下情况使用 MAD 方法：

6. 实际示例

示例 1：对称数据（首选 Tukey）

示例 2：偏态数据（首选 MAD）

示例 3：包含许多异常值的数据

7. 常见问题 (FAQ)

Q: 哪种方法更准确？

Q: 我可以在 PlotNerd 中使用这两种方法吗？

Q: PlotNerd 中的 MAD 阈值是多少？

8. 结论

准备好测试这两种方法了吗？

相关文章

相关工具

另请参阅

推荐工具

深度阅读