⚖️ 统计方法

IQR 与标准差:
哪种方法更能找到异常值?

两种最常用的异常值检测方法往往会给出不同的结果。以下是如何为您的数据选择正确方法的指南。

发布于:2025年12月4日
更新于:2026年2月3日
深度分析

一览对比表

特征 IQR 方法 (Tukey) 标准差 (Z-Score)
最适用于 偏态或正态数据 严格的正态数据
稳健性 高(不受异常值影响) 低(受异常值影响)
定义 超出四分位数 1.5 × IQR 离均值 2 或 3 个标准差
常见用途 箱线图、探索性数据分析 质量控制、物理学

IQR 方法(推荐)

四分位距 (IQR) 方法,也称为 Tukey 围栏法,使用数据的中间 50% 来定义什么是"正常"。

为什么它更胜一筹:

IQR 方法是 稳健的。这意味着异常值本身不会影响边界的计算。即使您的数据集中有一个巨大的异常值(例如在 1-10 的数据集中出现 1,000,000),中位数和四分位数仍然保持稳定。

这是 箱线图 中使用的标准方法。如果您正在进行探索性数据分析或处理现实世界的数据(很少是完美的正态分布),请坚持使用 IQR。

标准差方法 (Z-Score)

此方法将异常值定义为距离均值超过 2 或 3 个标准差的数据点。

问题(掩蔽效应):

均值和标准差对异常值 敏感。一个极端值会将均值拉向它本身,并使标准差膨胀。这会扩大"正常"范围,可能会隐藏(掩蔽)您正在尝试查找的异常值!

仅当您确定数据遵循 正态分布(钟形曲线)并且您正在检测受控过程(如制造公差)中的异常时,才使用此方法。

结论

何时使用 IQR:

  • 您的数据是偏态的(例如,收入、房价)。
  • 您的数据集很小。
  • 您想创建箱线图。
  • 您不确定数据的分布。

何时使用标准差:

  • 您的数据严格遵循正态分布(高斯分布)。
  • 您正在进行质量控制(六西格玛)。
  • 您之后需要进行参数统计检验。

PlotNerd 默认使用稳健的 IQR 方法,但也支持 MAD(更加稳健)。

试用 IQR 计算器