等待数据输入...
🔒 100% 本地计算,数据绝不离开您的浏览器
支持的数据格式:
- 逗号分隔:1.5, 2.8, 9.1, 16.2
- 空格分隔:1.5 2.8 9.1 16.2
- 换行分隔:每行一个数字
- 科学计数法:1.23e-4, 5.67E+8
- 多序列模式:使用「组名: 数值1, 数值2, 数值3」格式,每行一组
- 自动忽略文本和特殊字符
Universal Standard (R, Python, Google Sheets)
Linear interpolation method, default standard for modern data science software
R (type=7) Python NumPy Google Sheets QUARTILE.EXC
Interpolated Values
Medium Complexity
计算结果和箱线图将在这里实时展示
请在上方输入至少 4 个数字开始计算
计算中...
计算结果
基本统计量
数据个数: -
总和: -
最小值: -
最大值: -
全距: -
均值: -
四分位数
第一四分位数 (Q1): -
中位数 (Q2): -
第三四分位数 (Q3): -
四分位距 (IQR): -
五数概括
[-,-,-,-,-]
[最小值, Q1, 中位数, Q3, 最大值]
检测到异常值
以下数据点被 方法识别为异常值:
分组序列汇总
什么是异常值?
异常值(Outlier)是指与数据集中其他观测值显著不同的数据点。 它们可能由测量误差、数据录入错误或真实的极端情况产生。 正确识别异常值对于数据清洗和统计分析至关重要。
Tukey 1.5×IQR 规则
这是最广泛使用的异常值检测方法,由 John Tukey 提出:
- 计算第一四分位数 (Q1) 和第三四分位数 (Q3)
- 计算四分位距 IQR = Q3 - Q1
- 下边界 = Q1 - 1.5 × IQR
- 上边界 = Q3 + 1.5 × IQR
- 任何超出这些边界的值都是潜在异常值
MAD(中位数绝对偏差)方法
MAD 是一种更稳健的方法,特别适合偏斜分布:
- 计算数据的中位数
- 计算每个数据点与中位数的绝对差值
- MAD = 这些差值的中位数
- 修正 MAD = 1.4826 × MAD(用于正态分布)
- 异常值:偏离中位数超过 3 × 修正 MAD
何时使用哪种方法?
| 场景 | 推荐方法 |
|---|---|
| 对称分布数据 | 两种方法均可 |
| 偏斜分布数据 | MAD 更稳健 |
| 需要与箱线图配合 | Tukey 方法 |
| 数据中可能有多个异常值 | MAD 更可靠 |
常见问题
为什么用 1.5 作为乘数?
1.5 是 Tukey 基于经验和理论推导选择的值。对于正态分布, 这会将约 0.7% 的数据标记为异常值。使用 3.0 可以检测更极端的异常值("远离群点")。
检测到异常值后怎么办?
首先调查异常值的原因。如果是数据错误,应该更正或删除。 如果是真实的极端值,根据分析目的决定是保留还是单独处理。
我的数据安全吗?
完全安全。所有计算都在您的浏览器中进行,数据永远不会发送到服务器。