箱线图中的缺口是什么意思？

缺口代表中位数周围的 95% 置信区间。它们提供统计显著性的视觉检验：如果组间的缺口不重叠，它们的中位数很可能是显著不同的。

我应该什么时候使用缺口箱线图？

当比较多个组并希望快速直观评估统计显著性时使用缺口箱线图。它们非常适合在正式假设检验之前进行探索性分析。

缺口是如何计算的？

缺口延伸至中位数 ± 1.57 × (IQR / √n)，其中 IQR 是四分位距，n 是样本量。这在正态分布假设下近似中位数的 95% 置信区间。

📈 可视化指南

何时以及为什么使用
缺口箱线图？

Name: PlotNerd
Availability: InStock
Author: PlotNerd

缺口箱线图在中位数周围添加置信区间，让你能够直观地评估组间差异是否具有统计显著性。学习如何阅读它们以及何时使用它们。

🚀 创建缺口箱线图（免费工具）

发布于：2025年9月5日

更新于：2026年2月3日

阅读时间：13 分钟

难度级别：中级

1. 什么是缺口箱线图？

缺口箱线图是标准箱线图的一种变体，带有一个额外的特性：中位数周围的缺口（或置信区间）。这个缺口可视化了中位数估计的不确定性，让你能够评估组间差异是否具有统计显著性。

缺口表现为箱体在中位数线周围的收窄。如果你在分组箱线图中比较多个组，缺口可以帮助你快速识别哪些组具有显著不同的中位数。

💡 关键见解

经验法则：如果两组的缺口不重叠，它们的中位数很可能是统计上显著不同的。如果缺口重叠，差异可能不具有统计显著性。

2. 缺口如何工作：背后的数学

缺口表示中位数的近似 95% 置信区间。它使用四分位距（IQR）和样本量来计算：

公式

标准误 = 1.57 × (IQR / √n)

其中 n 是样本量

缺口的范围是：

下界：中位数 - 标准误
上界：中位数 + 标准误

常数 1.57 的选择是为了在正态分布假设下近似中位数的 95% 置信区间。

📊 示例

如果中位数 = 80，IQR = 15，n = 20：

标准误 = 1.57 × (15 / √20) = 1.57 × 3.35 ≈ 5.26

缺口范围从 80 - 5.26 = 74.74 到 80 + 5.26 = 85.26

3. 解读缺口：读取统计显著性

解读缺口箱线图的关键是理解缺口重叠（或不重叠）意味着什么：

✅ 缺口不重叠 = 可能显著

如果两组的缺口不重叠，它们的中位数在大约 95% 的置信水平上很可能是统计上显著不同的。

示例：如果 A 组的缺口从 75-85 延伸，B 组的缺口从 90-100 延伸，它们没有重叠。这表明 B 组的中位数显著高于 A 组。

⚠️ 缺口重叠 = 可能不显著

如果两组的缺口重叠，它们中位数之间的差异可能不具有统计显著性。然而，这是一个视觉上的近似——仍然建议进行正式的统计检验。

示例：如果 A 组的缺口从 75-85 延伸，B 组的缺口从 80-90 延伸，它们重叠（80-85 范围）。这表明差异可能不显著，但你应该用正式检验来验证。

📊 多组比较

在分组箱线图中比较多个组时，注意哪些组的缺口与其他组不重叠。这些组可能是显著不同的。

示例：在比较 5 个组时，如果 A、B、C 组的缺口重叠，但 D 组的缺口与任何组都不重叠，D 组很可能与其他组显著不同。

4. 何时使用缺口箱线图

✅ 非常适合：

直观比较多个组
快速评估统计显著性
探索性数据分析
视觉清晰度很重要的演示
当样本量为中等到大（n ≥ 10）时
当你想最初避免正式假设检验时

⚠️ 考虑替代方案：

样本量非常小（n < 10）
当你需要精确的 p 值时
正式假设检验要求
当缺口太宽（低精度）时
当只比较两组时（t 检验可能更清晰）

💡 最佳实践

将缺口箱线图用作视觉筛选工具来识别潜在的显著差异。对于正式结论，请继续进行适当的统计检验（例如，ANOVA、Kruskal-Wallis 或 t 检验）。

5. 实际示例

示例 1：课堂考试分数

场景：比较三个班级的考试分数，看看是否存在显著差异。

数据：

A 班：85, 87, 88, 90, 92, 93, 95
B 班：75, 78, 80, 82, 85, 87, 90
C 班：70, 72, 74, 76, 78, 80, 82

带缺口的结果：A 班的缺口可能不会与 B 班或 C 班重叠，表明 A 班表现显著更好。B 班和 C 班可能有重叠的缺口，表明它们的差异可能不显著。

→ 在 PlotNerd 中试试这个示例（启用缺口）→

示例 2：A/B 测试结果

场景：比较三个网站变体的转化率。

数据：

对照组：2.1, 2.2, 2.3, 2.4, 2.5, 2.6
变体 A：3.0, 3.1, 3.2, 3.3, 3.4, 3.5
变体 B：2.5, 2.6, 2.7, 2.8, 2.9, 3.0

带缺口的结果：变体 A 的缺口可能不会与对照组重叠，表明有显著改进。变体 B 可能与两者都有重叠的缺口，表明它是中间水平。

→ 在 PlotNerd 中试试这个示例（用缺口比较）→

6. 限制和考虑因素

⚠️ 样本量很重要

缺口在中等到大样本量（n ≥ 10）时最可靠。对于非常小的样本，缺口可能非常宽，使其信息量较低。对于大样本，缺口变窄，使差异更容易检测。

⚠️ 近似而非精确检验

缺口箱线图提供统计显著性的视觉近似，而不是精确的假设检验。它们基于可能不适用于你数据的假设（例如，正态分布）。在得出结论时，始终用正式的统计检验来验证。

⚠️ 分布假设

缺口计算假设近似正态分布。对于高度偏斜或非正态数据，缺口可能不太可靠。对于偏斜数据，考虑使用 MAD 异常值检测或数据转换。

7. 常见问题

问：缺口代表什么置信水平？

答：缺口代表中位数的近似 95% 置信区间。公式中的常数 1.57 被选择来在正态分布假设下近似这个置信水平。

问：我可以在分组比较中使用缺口箱线图吗？

答：可以！缺口箱线图与分组箱线图配合使用效果很好。在 PlotNerd 中，你可以为单个和分组箱线图启用缺口。只需在可视化面板中切换"显示缺口"选项。

问：如果缺口太宽或太窄怎么办？

答：宽缺口（小样本量）表示高不确定性——差异可能更难检测。窄缺口（大样本量）表示高精度——即使是小差异也可能是显著的。如果缺口超出箱体（Q1-Q3 范围），它们会自动裁剪到箱体边界以保持视觉清晰。

问：我应该总是使用缺口箱线图吗？

答：不一定。当你想直观评估统计显著性时使用缺口箱线图。对于简单描述或只比较两组时，标准箱线图或正式检验（t 检验）可能更清晰。缺口箱线图在多组探索性分析中最有价值。

问：缺口箱线图能替代正式的统计检验吗？

答：不能。缺口箱线图是一种视觉筛选工具，不能替代正式的假设检验。它们帮助你识别潜在的显著差异，但你应该用适当的统计检验（例如，ANOVA、Kruskal-Wallis）来做正式结论，特别是在研究或发表的场景中。

8. 结论

缺口箱线图是直观评估组间统计显著性的强大工具。通过显示中位数周围的置信区间，它们帮助你快速识别哪些组可能是显著不同的，而无需进行正式的假设检验。

关键要点：

不重叠的缺口表明统计上显著的差异
重叠的缺口表明差异可能不显著
将缺口用作视觉筛选工具，而非正式检验的替代
在中等到大样本量（n ≥ 10）时效果最佳

使用 PlotNerd，你可以轻松在箱线图中启用缺口，无论是比较单个组还是分组可视化中的多个组。结合缺口与稳健的异常值检测方法进行全面的统计分析。

准备好可视化统计显著性了吗？

尝试 PlotNerd 的缺口箱线图功能，看看置信区间的实际效果。

立即创建缺口箱线图