如何通过并排箱线图
比较多组数据
在单个图表中并排比较多组数据。 非常适合课堂比较、A/B 测试、实验分析和业务报告。 通过真实示例学习分步过程。
1. 什么是分组箱线图?
分组箱线图(也称为多系列箱线图或并排箱线图) 在同一图表上显示多个箱线图,使您可以同时比较不同组的分布。 您无需为每组创建单独的图表,一目了然地看到所有比较结果。
分组图表中的每个箱线图代表一个数据系列(例如,“A 班”、“B 班”、“对照组”、“治疗组”)。 它们共享相同的 Y 轴刻度,便于比较各组的中位数、四分位数和异常值。
💡 核心优势
分组箱线图揭示了在单独图表中不可见的模式:哪一组的中位数最高?哪一组的变异性最大? 特定组中是否存在异常值?所有这些都可以一眼看清。
2. 何时使用分组箱线图
分组箱线图非常适合比较多个类别或实验条件:
✅ 完美适用于:
- 比较多个班级的考试成绩
- A/B 测试结果(对照组 vs. 变体 A vs. 变体 B)
- 实验组(安慰剂 vs. 治疗 1 vs. 治疗 2)
- 不同地区的销售业绩
- 各客户群体的产品指标
- 多个时间点的比较(前/后)
⚠️ 考虑替代方案的情况:
- 超过 10-12 组(图表会变得杂乱)
- 时间序列数据(改用折线图)
- 非常不同的刻度范围(考虑分开制图)
- 当您需要详细的分布形状时(直方图可能更好)
3. 并排箱线图:Excel vs. PlotNerd
许多用户尝试在 Excel 中创建并排箱线图。虽然可行,但这可能很棘手。这是一个快速对比:
| 功能 | Excel | PlotNerd |
|---|---|---|
| 设置时间 | 5-10 分钟(需要数据格式化) | 几秒钟(复制粘贴即用) |
| 异常值检测 | 标准(通常隐藏) | Tukey 或 MAD(可配置) |
| 样式 | 需要手动调整 | 自动样式,专业美观 |
| 统计显著性 | 无内置视觉测试 | 支持缺口箱线图 |
在 Excel 中: 您通常需要将数据排列在列中,选择所有列,转到 插入 > 统计图表 > 箱形图。如果您的数据结构不完美,通常需要大量的重新格式化。
在 PlotNerd 中: 只需粘贴您的数据(例如,“A 组: 1, 2, 3”)并点击计算。
4. 分步操作:创建您的第一个分组箱线图
使用 PlotNerd 创建分组箱线图非常简单。请按照以下步骤操作:
步骤 1: 启用系列模式
点击 PlotNerd 计算器 中的 "Series Mode: Off" 按钮以切换到分组输入模式。按钮将变为蓝色并显示 "Series Mode: On"。
步骤 2: 输入您的数据
使用以下格式在单独的行中输入每组数据:组名: 值1, 值2, 值3
示例:
Class A: 78, 82, 85, 90, 93, 95 Class B: 70, 75, 80, 82, 88, 91 Class C: 65, 68, 72, 74, 79, 83
提示: 每组至少需要 4 个数据点。使用描述性名称(例如,“对照组”而不是“第 1 组”)以使图表更清晰。
步骤 3: 计算并可视化
点击 "Calculate" 以生成您的分组箱线图。PlotNerd 将:
- 独立计算每组的四分位数
- 在同一图表上并排显示所有组
- 使用不同的颜色区分组
- 显示每组的单独统计卡片
5. 解读分组箱线图结果
在比较多个组时,关注以下关键方面:
📊 中位数比较
中位线(每个框内的线)显示每个分布的中心。比较中位数以查看哪一组具有更高/更低的集中趋势。
示例: 如果 A 班的中位数在 90,而 B 班在 80,则 A 班通常表现更好。
📏 变异性比较
箱子高度 (IQR) 显示变异性。更高的箱子 = 更大的分散。比较箱子高度以查看哪些组更一致。
示例: A 班的窄箱子意味着分数紧密聚集,而 B 班的宽箱子表示变化更大。
🔴 异常值检测
异常值(须线之外的点)显示为单独的点。比较各组的异常值数量和位置。
示例: 如果只有 C 班有高异常值,这可能表明有特殊的学生或数据录入错误。
📈 范围比较
须线长度显示数据范围。比较须线位置以查看整体分布差异。
示例: 如果 A 班的须线从 70 延伸到 100,而 B 班从 60 到 95,则 A 班的整体范围更广。
6. 真实世界示例
示例 1:课堂考试成绩
场景: 比较三个数学班级的期末考试成绩。
数据格式:
Period 1: 78, 82, 85, 90, 93, 95, 88, 87 Period 2: 70, 75, 80, 82, 88, 91, 79, 84 Period 3: 65, 68, 72, 74, 79, 83, 71, 76
洞察: 第 1 节课的中位数最高 (90) 且变异性最小。第 3 节课的中位数最低 (74) 但分布范围相似。这表明第 1 节课的教学方法可能更有效。
→ 在 PlotNerd 中尝试此示例 →示例 2:A/B 测试结果
场景: 比较三个网站变体的转化率。
数据格式:
Control: 2.1, 2.3, 2.0, 2.2, 2.4, 2.1 Variante A: 2.8, 3.0, 2.9, 3.1, 2.7, 3.2 Variante B: 2.5, 2.6, 2.4, 2.7, 2.5, 2.6
洞察: 变体 A 显示出比对照组 (~2.2%) 显著更高的转化率 (中位数 ~2.95%)。变体 B 略好于对照组,但不及变体 A。
→ 在 PlotNerd 中尝试此示例 →7. 最佳实践与提示
✅ 应该做:
- 使用描述性的组名(例如,“治疗组”而不是“第 1 组”)
- 限制在 10-12 组以内以保证可读性(如果您超过此数量,PlotNerd 会发出警告)
- 确保每组至少有 4 个数据点
- 在各组之间使用一致的数据收集方法
- 在报告结果时包含样本量 (n)
⚠️ 避免:
- 在没有注释的情况下比较样本量差异巨大的组
- 创建包含太多组的图表(会变得杂乱)
- 在不调查原因的情况下忽略异常值
- 在没有统计检验的情况下得出结论(考虑使用 缺口箱线图进行显著性判断)
8. 常见问题 (FAQ)
Q: 我可以一次比较多少组?
A: PlotNerd 支持任意数量的组,但为了获得最佳视觉可读性,我们建议 ≤10 组。如果您有超过 10 个组,PlotNerd 会显示警告,建议您分组合并。图表仍会渲染,但单个箱线图可能会显得很窄。
Q: 我可以为分组图使用不同的异常值检测方法吗?
A: 是的!PlotNerd 支持 Tukey (1.5×IQR) 和 MAD 方法 进行异常值检测。您可以在结果面板中切换方法,所有组将使用相同的方法以保持一致性。
Q: 我怎么知道各组之间的差异是否在统计上显著?
A: 对于视觉显著性测试,请在 PlotNerd 中启用 缺口箱线图。如果两组的缺口(置信区间)不重叠,则它们的中位数可能存在显著差异。如需正式测试,请使用 ANOVA 或 Kruskal-Wallis 等统计检验。
Q: 我可以导出分组箱线图吗?
A: 是的!PlotNerd 支持将分组箱线图导出为 PNG 或 SVG,非常适合演示文稿和报告。导出包含所有组及其标签和颜色。
Q: 如果我的组样本量不同怎么办?
A: 不同的样本量没问题!每组的统计数据是独立计算的。但是,解读结果时要小心——样本量越大,中位数往往越稳定。PlotNerd 在结果卡中显示每组的样本量 (n)。
9. 结论
分组箱线图是同时比较多个数据组的强大工具。无论您是比较课堂成绩、A/B 测试结果还是实验条件,它们都能为您提供有关分布差异的清晰视觉洞察。
使用 PlotNerd 的多系列箱线图生成器,您可以在几秒钟内创建专业的分组可视化,并支持诸如 MAD 异常值检测 和用于统计显著性测试的 缺口箱线图 等高级功能。