📈 可视化指南

何时以及为什么使用
缺口箱线图?

缺口箱线图在中位数周围添加置信区间,让你能够直观地评估组间差异是否具有统计显著性。学习如何阅读它们以及何时使用它们。

缺口箱线图在中位数周围添加置信区间,让你能够直观地评估组间差异是否具有统计显著性。学习如何阅读它们以及何时使用它们。

发布于:2025年9月5日
更新于:2026年2月3日
阅读时间:13 分钟
难度级别:中级

1. 什么是缺口箱线图?

缺口箱线图是标准箱线图的一种变体,带有一个额外的特性:中位数周围的缺口(或置信区间)。这个缺口可视化了中位数估计的不确定性,让你能够评估组间差异是否具有统计显著性。

缺口表现为箱体在中位数线周围的收窄。如果你在分组箱线图中比较多个组,缺口可以帮助你快速识别哪些组具有显著不同的中位数。

💡 关键见解

经验法则:如果两组的缺口不重叠,它们的中位数很可能是统计上显著不同的。如果缺口重叠,差异可能不具有统计显著性。

2. 缺口如何工作:背后的数学

缺口表示中位数的近似 95% 置信区间。它使用四分位距(IQR)和样本量来计算:

公式

标准误 = 1.57 × (IQR / √n)

其中 n 是样本量

缺口的范围是:

  • 下界:中位数 - 标准误
  • 上界:中位数 + 标准误

常数 1.57 的选择是为了在正态分布假设下近似中位数的 95% 置信区间。

📊 示例

如果中位数 = 80,IQR = 15,n = 20:

标准误 = 1.57 × (15 / √20) = 1.57 × 3.35 ≈ 5.26

缺口范围从 80 - 5.26 = 74.74 到 80 + 5.26 = 85.26

3. 解读缺口:读取统计显著性

解读缺口箱线图的关键是理解缺口重叠(或不重叠)意味着什么:

✅ 缺口不重叠 = 可能显著

如果两组的缺口不重叠,它们的中位数在大约 95% 的置信水平上很可能是统计上显著不同的。

示例:如果 A 组的缺口从 75-85 延伸,B 组的缺口从 90-100 延伸,它们没有重叠。这表明 B 组的中位数显著高于 A 组。

⚠️ 缺口重叠 = 可能不显著

如果两组的缺口重叠,它们中位数之间的差异可能不具有统计显著性。然而,这是一个视觉上的近似——仍然建议进行正式的统计检验。

示例:如果 A 组的缺口从 75-85 延伸,B 组的缺口从 80-90 延伸,它们重叠(80-85 范围)。这表明差异可能不显著,但你应该用正式检验来验证。

📊 多组比较

分组箱线图中比较多个组时,注意哪些组的缺口与其他组不重叠。这些组可能是显著不同的。

示例:在比较 5 个组时,如果 A、B、C 组的缺口重叠,但 D 组的缺口与任何组都不重叠,D 组很可能与其他组显著不同。

4. 何时使用缺口箱线图

✅ 非常适合:

  • 直观比较多个组
  • 快速评估统计显著性
  • 探索性数据分析
  • 视觉清晰度很重要的演示
  • 当样本量为中等到大(n ≥ 10)时
  • 当你想最初避免正式假设检验时

⚠️ 考虑替代方案:

  • 样本量非常小(n < 10)
  • 当你需要精确的 p 值时
  • 正式假设检验要求
  • 当缺口太宽(低精度)时
  • 当只比较两组时(t 检验可能更清晰)

💡 最佳实践

将缺口箱线图用作视觉筛选工具来识别潜在的显著差异。对于正式结论,请继续进行适当的统计检验(例如,ANOVA、Kruskal-Wallis 或 t 检验)。

5. 实际示例

示例 1:课堂考试分数

场景:比较三个班级的考试分数,看看是否存在显著差异。

数据:

A 班:85, 87, 88, 90, 92, 93, 95
B 班:75, 78, 80, 82, 85, 87, 90
C 班:70, 72, 74, 76, 78, 80, 82

带缺口的结果:A 班的缺口可能不会与 B 班或 C 班重叠,表明 A 班表现显著更好。B 班和 C 班可能有重叠的缺口,表明它们的差异可能不显著。

→ 在 PlotNerd 中试试这个示例(启用缺口)→

示例 2:A/B 测试结果

场景:比较三个网站变体的转化率。

数据:

对照组:2.1, 2.2, 2.3, 2.4, 2.5, 2.6
变体 A:3.0, 3.1, 3.2, 3.3, 3.4, 3.5
变体 B:2.5, 2.6, 2.7, 2.8, 2.9, 3.0

带缺口的结果:变体 A 的缺口可能不会与对照组重叠,表明有显著改进。变体 B 可能与两者都有重叠的缺口,表明它是中间水平。

→ 在 PlotNerd 中试试这个示例(用缺口比较)→

6. 限制和考虑因素

⚠️ 样本量很重要

缺口在中等到大样本量(n ≥ 10)时最可靠。对于非常小的样本,缺口可能非常宽,使其信息量较低。对于大样本,缺口变窄,使差异更容易检测。

⚠️ 近似而非精确检验

缺口箱线图提供统计显著性的视觉近似,而不是精确的假设检验。它们基于可能不适用于你数据的假设(例如,正态分布)。在得出结论时,始终用正式的统计检验来验证。

⚠️ 分布假设

缺口计算假设近似正态分布。对于高度偏斜或非正态数据,缺口可能不太可靠。对于偏斜数据,考虑使用 MAD 异常值检测 或数据转换。

7. 常见问题

问:缺口代表什么置信水平?

答:缺口代表中位数的近似 95% 置信区间。公式中的常数 1.57 被选择来在正态分布假设下近似这个置信水平。

问:我可以在分组比较中使用缺口箱线图吗?

答:可以!缺口箱线图与分组箱线图配合使用效果很好。在 PlotNerd 中,你可以为单个和分组箱线图启用缺口。只需在可视化面板中切换"显示缺口"选项。

问:如果缺口太宽或太窄怎么办?

答:宽缺口(小样本量)表示高不确定性——差异可能更难检测。窄缺口(大样本量)表示高精度——即使是小差异也可能是显著的。如果缺口超出箱体(Q1-Q3 范围),它们会自动裁剪到箱体边界以保持视觉清晰。

问:我应该总是使用缺口箱线图吗?

答:不一定。当你想直观评估统计显著性时使用缺口箱线图。对于简单描述或只比较两组时,标准箱线图或正式检验(t 检验)可能更清晰。缺口箱线图在多组探索性分析中最有价值。

问:缺口箱线图能替代正式的统计检验吗?

答:不能。缺口箱线图是一种视觉筛选工具,不能替代正式的假设检验。它们帮助你识别潜在的显著差异,但你应该用适当的统计检验(例如,ANOVA、Kruskal-Wallis)来做正式结论,特别是在研究或发表的场景中。

8. 结论

缺口箱线图是直观评估组间统计显著性的强大工具。通过显示中位数周围的置信区间,它们帮助你快速识别哪些组可能是显著不同的,而无需进行正式的假设检验。

关键要点:

  • 不重叠的缺口表明统计上显著的差异
  • 重叠的缺口表明差异可能不显著
  • 将缺口用作视觉筛选工具,而非正式检验的替代
  • 中等到大样本量(n ≥ 10)时效果最佳

使用 PlotNerd,你可以轻松在箱线图中启用缺口,无论是比较单个组还是分组可视化中的多个组。结合缺口与稳健的异常值检测方法进行全面的统计分析。

准备好可视化统计显著性了吗?

尝试 PlotNerd 的缺口箱线图功能,看看置信区间的实际效果。

立即创建缺口箱线图

📖 相关文章

想创建缺口箱线图吗?

使用我们的免费工具即时可视化显著性。

立即创建