📚 统计历史与方法

为什么有这么多四分位数方法?
深入探讨 Tukey's Hinges

你可能已经注意到 Excel、R、Python 和你的统计学教科书计算四分位数的方式都不同。这不是错误——这是统计学发展的特点。加入我们,一起探索四分位数方法背后的迷人历史,特别关注 Tukey's Hinges 以及为什么它仍然是探索性数据分析的黄金标准。

发布于:2025年9月26日
更新于:2026年2月3日
阅读时间:15 分钟
难度级别:中级

1. 问题:为什么有这么多方法?

如果你曾在 Excel 中计算四分位数,然后在 R 或 Python 中检查相同的数据,你可能会发现一个令人沮丧的结果:数字不匹配。这不是因为某个软件出错了——而是因为至少有 九种不同的方法 来计算四分位数,每种都有其自己的数学依据。

根本的挑战是:四分位数是百分位数(第 25、50、75 百分位),但当你的数据集大小不能均匀分割时,你需要一个规则来确定什么值代表第 25 百分位。它应该是实际的数据点吗?应该在两个点之间插值吗?如果是,如何插值?

💡 关键见解

多种四分位数方法的存在反映了统计学的不同哲学方法:抵抗方法(如 Tukey 的)优先考虑稳健性和可解释性,而 插值方法(如 R-7)优先考虑平滑性和计算一致性。

2. Tukey's Hinges 的诞生:历史视角

John Tukey(1915-2000)是 20 世纪最具影响力的统计学家之一。作为普林斯顿大学和贝尔实验室的数学家,Tukey 通过引入我们现在习以为常的概念革新了数据分析:探索性数据分析(EDA)箱线图五数概括

在他 1977 年的著作《Exploratory Data Analysis》中,Tukey 引入了他所称的 "hinges"——将数据分成四等份的值。与插值方法不同,Tukey's hinges 总是产生原始数据集中存在的值(或是子集的中位数)。这使它们:

  • 可解释:你可以指向代表 Q1 或 Q3 的确切数据点
  • 抗干扰:对异常值的敏感度低于基于均值的方法
  • 教学友好:易于解释和手工验证

Tukey 的方法成为统计教育的标准,因为它与人类自然思考如何划分数据的方式一致:找到中间,然后找到每一半的中间

3. Tukey's Hinges 详解:工作原理

Tukey 的方法非常优雅简单:

  1. 排序数据 从小到大
  2. 找到中位数(Q2)整个数据集的
  3. 在中位数处分割数据
    • 如果 n 是偶数:下半部分 = 前 n/2 个值,上半部分 = 后 n/2 个值
    • 如果 n 是奇数:下半部分包含中位数,上半部分包含中位数
  4. Q1 = 下半部分的中位数
  5. Q3 = 上半部分的中位数

让我们用一个具体的例子来看看这个过程:

示例:计算 Tukey's Hinges

数据:[12, 15, 18, 20, 22, 25, 28, 30, 35, 40]

  1. 已排序:已经排序 ✓
  2. 中位数(Q2):(22 + 25) / 2 = 23.5
  3. 下半部分:[12, 15, 18, 20, 22] → Q1 = 18
  4. 上半部分:[25, 28, 30, 35, 40] → Q3 = 30

自己试试:使用 PlotNerd 的 Box Plot 创建器 输入这些数据,并选择"教科书方法(Tukey's Hinges)"来验证这些结果。

4. 四分位数方法概览:R-7、Excel、WolframAlpha 等

虽然 Tukey's Hinges 仍然是教育标准,但不同的软件包出于实际原因采用了不同的方法:

方法 使用者 关键特征 何时使用
Tukey's Hinges 统计学教科书、AP Statistics、SPSS(Tukey 选项) 始终产生实际数据值 教学、探索性分析、当可解释性重要时
R-7(线性插值) R(默认)、Python NumPy(默认)、Google Sheets QUARTILE.EXC 平滑插值:h = (n-1) × p + 1 数据科学工作流、可重复研究
Excel QUARTILE.INC Microsoft Excel、LibreOffice Calc 包含性方法:h = (n+1) × p 商业报告、基于 Excel 的工作流
WolframAlpha (R-5) WolframAlpha、Mathematica 水文方法:h = n × p + 0.5 数学验证、学术研究

方法的增多不是混乱——而是进化。每种方法都是为了解决特定问题而出现的:

  • R-7 成为数据科学标准,因为它计算效率高且产生平滑、连续的结果
  • Excel 的方法 优先考虑与期望包含性百分位的商业用户的兼容性
  • WolframAlpha 的 R-5 与优先考虑精确度的数学软件一致
  • Tukey's Hinges 仍然是教学标准,因为它们直观且可验证

5. 何时使用 Tukey's Hinges:实际应用

Tukey's Hinges 在特定场景中表现优异,当可解释性和对异常值的抵抗比计算平滑性更重要时:

✅ 使用 Tukey's Hinges 当:

  • 教授统计学或数据分析
  • 探索性数据分析(EDA)
  • 中小型数据集,每个数据点都很重要
  • 当你需要向非技术利益相关者解释结果时
  • 当异常值是一个问题并且你想要抗干扰的统计量时
  • 当你需要手工验证计算时

⚠️ 考虑其他方法当:

  • 处理非常大的数据集(n > 10,000)
  • 与 R/Python 数据科学管道集成
  • 当需要平滑、连续的四分位数值时
  • 当与 Excel 的兼容性至关重要时
  • 当你需要匹配特定软件的结果时

6. 实际示例:看看差异

让我们看看不同方法如何对同一数据集产生不同的结果:

示例数据集:学生考试分数

数据:[65, 72, 75, 78, 80, 82, 85, 88, 90, 95, 100] (n=11)

方法 Q1 Q2(中位数) Q3
Tukey's Hinges 75 82 90
R-7(线性) 74.5 82 90.5
Excel QUARTILE.INC 75.5 82 90.5
WolframAlpha (R-5) 74.25 82 90.75

注意:所有方法在中位数(82)上一致,但 Q1 和 Q3 不同。Tukey's Hinges 产生整数值(75、90),这些是实际的数据点,而插值方法产生小数值。

自己试试:将这些数据复制到 PlotNerd 的 Box Plot 创建器 中,在不同算法之间切换,实时查看差异。

7. 使用 PlotNerd 比较方法

拥有多种四分位数方法的挑战之一是确保你的团队使用相同的方法以保持一致性。PlotNerd 通过在一个地方支持所有主要的四分位数算法来解决这个问题,允许你:

  • 即时比较结果 不同方法之间
  • 验证计算 与 Excel、R、Python 或 WolframAlpha 对比
  • 分享永久链接 保留你的数据和选择的算法
  • 导出结果 带有方法水印用于文档

🎯 准备探索四分位数方法了吗?

现在你了解了为什么有这么多四分位数方法以及 Tukey's Hinges 背后的历史,为什么不把这些知识付诸实践呢?

8. 常见问题

问:哪种四分位数方法是"正确的"?

答:所有方法在数学上都是有效的——它们只是对如何处理数据点之间的值做出不同的假设。"正确的"方法取决于你的上下文:用 Tukey's Hinges 进行教学和 EDA,用 R-7 进行数据科学,用 Excel 的方法进行商业报告等。

问:为什么 Tukey 的方法总是产生整数值?

答:Tukey's Hinges 总是产生数据集中存在的值(或是子集的中位数)。这是设计使然——它使方法更具可解释性和抗干扰性,但比插值方法不那么"平滑"。

问:我应该在研究论文中使用 Tukey's Hinges 吗?

答:这取决于你的领域和受众。在统计教育和探索性数据分析中,Tukey's Hinges 是标准。在数据科学和计算领域,R-7 更常见。始终在方法论部分说明你使用了哪种方法。

问:我可以在 PlotNerd 中切换方法吗?

答:是的!PlotNerd 支持所有五种主要方法(含 Excel QUARTILE.INC/EXC),并提供 R/Python(Type 7)、Tukey Hinges 与 WolframAlpha(R-5)。你可以即时切换以比较结果并验证不同软件的计算。

问:为什么 John Tukey 创建了这种方法?

答:Tukey 专注于使统计学变得易于理解和可解释。他的 hinges 方法与人类自然思考如何划分数据的方式一致——找到中间,然后找到每一半的中间。这使它非常适合教学和探索性分析。

9. 结论:选择正确的工具

多种四分位数方法的存在不是统计学的缺陷——而是一个特性。每种方法都是为了解决特定问题而出现的:

  • Tukey's Hinges 优先考虑可解释性和对异常值的抵抗
  • R-7 插值 优先考虑计算平滑性和数据科学兼容性
  • Excel 的方法 优先考虑商业用户的期望
  • WolframAlpha 的 R-5 优先考虑数学精确度

理解这些方法为什么存在以及何时使用每一种,可以将四分位数计算从一个混乱的来源转变为数据分析的有力工具。特别是 Tukey's Hinges,仍然是探索性数据分析的黄金标准,因为它平衡了数学严谨性和人类直觉。

📚 关键要点

最佳的四分位数方法是与你的上下文匹配的方法:当可解释性和教学重要时使用 Tukey's Hinges,当与数据科学工作流集成时使用 R-7,并始终记录你选择了哪种方法以及原因。

准备掌握四分位数方法了吗?

现在你了解了 Tukey's Hinges 的历史和应用,用 PlotNerd 的综合四分位数计算器将你的知识付诸实践。

使用 PlotNerd 创建你的 Box Plot

🔬 交互式探索所有方法

我们的四分位数计算差异交互式指南让你可以用自己的数据比较所有五种方法(含 Excel INC/EXC),显示逐步计算和可视化比较。

打开交互式指南 →

📖 相关文章

🔗 另请参阅