IQR 异常值 检测器

使用 Tukey 1.5×IQRMAD 方法 快速识别并可视化数据中的异常值

🔍 异常值检测方法

Tukey 方法 (1.5×IQR)

  • • 下界:Q1 - 1.5 × IQR
  • • 上界:Q3 + 1.5 × IQR
  • • 经典方法,广泛使用
  • • 与箱线图一致

MAD 方法

  • • 基于中位数绝对偏差
  • • 对极端值更稳健
  • • 适合偏斜分布
  • • 默认阈值:3 × MAD
等待数据输入...
🔒 100% 本地计算,数据绝不离开您的浏览器

支持的数据格式:

  • 逗号分隔:1.5, 2.8, 9.1, 16.2
  • 空格分隔:1.5 2.8 9.1 16.2
  • 换行分隔:每行一个数字
  • 科学计数法:1.23e-4, 5.67E+8
  • 多序列模式:使用「组名: 数值1, 数值2, 数值3」格式,每行一组
  • 自动忽略文本和特殊字符

Universal Standard (R, Python, Google Sheets)

Linear interpolation method, default standard for modern data science software

R (type=7) Python NumPy Google Sheets QUARTILE.EXC
Interpolated Values
Medium Complexity

计算结果和箱线图将在这里实时展示

请在上方输入至少 4 个数字开始计算

什么是异常值?

异常值(Outlier)是指与数据集中其他观测值显著不同的数据点。 它们可能由测量误差、数据录入错误或真实的极端情况产生。 正确识别异常值对于数据清洗和统计分析至关重要。

Tukey 1.5×IQR 规则

这是最广泛使用的异常值检测方法,由 John Tukey 提出:

  1. 计算第一四分位数 (Q1) 和第三四分位数 (Q3)
  2. 计算四分位距 IQR = Q3 - Q1
  3. 下边界 = Q1 - 1.5 × IQR
  4. 上边界 = Q3 + 1.5 × IQR
  5. 任何超出这些边界的值都是潜在异常值

MAD(中位数绝对偏差)方法

MAD 是一种更稳健的方法,特别适合偏斜分布:

  • 计算数据的中位数
  • 计算每个数据点与中位数的绝对差值
  • MAD = 这些差值的中位数
  • 修正 MAD = 1.4826 × MAD(用于正态分布)
  • 异常值:偏离中位数超过 3 × 修正 MAD

何时使用哪种方法?

场景 推荐方法
对称分布数据 两种方法均可
偏斜分布数据 MAD 更稳健
需要与箱线图配合 Tukey 方法
数据中可能有多个异常值 MAD 更可靠

常见问题

为什么用 1.5 作为乘数?

1.5 是 Tukey 基于经验和理论推导选择的值。对于正态分布, 这会将约 0.7% 的数据标记为异常值。使用 3.0 可以检测更极端的异常值("远离群点")。

检测到异常值后怎么办?

首先调查异常值的原因。如果是数据错误,应该更正或删除。 如果是真实的极端值,根据分析目的决定是保留还是单独处理。

我的数据安全吗?

完全安全。所有计算都在您的浏览器中进行,数据永远不会发送到服务器。