终极指南

四分位数完全指南:
你需要知道的一切

通过这份综合指南掌握四分位数。学习计算方法、现实世界应用、常见错误以及统计分析的专家建议。

发布于:2025年11月21日
更新于:2026年2月3日
阅读时间: 15 分钟
难度: 初级到中级

1. 什么是四分位数?

四分位数是将有序数据集分成四个相等部分的统计值, 每个部分包含 25% 的数据点。把它们想象成自然的断点, 可以帮助你理解数据的分布情况。

三个四分位数的值分别是:

  • Q1 (第一四分位数):第 25 百分位数 - 25% 的数据低于此值
  • Q2 (第二四分位数):第 50 百分位数,也被称为 中位数
  • Q3 (第三四分位数):第 75 百分位数 - 75% 的数据低于此值

五数概括 (5-Number Summary)

当与最小值最大值结合时, 四分位数构成了五数概括,它提供了数据分布的完整快照。

历史背景

四分位数的概念由统计学家 John Tukey 在他 1977 年的开创性著作《探索性数据分析》中普及。Tukey 还发明了基于四分位数的 箱线图(盒须图)。

四分位数与箱线图的联系

每个箱线图都是四分位数的直观表示:

  • The 箱体 从 Q1 延伸到 Q3 (即 IQR)
  • 箱体内的一条线标记了中位数 (Q2)
  • 须线延伸到最小值和最大值
  • 异常值被绘制为须线之外的单个点

2. 为什么四分位数很重要

四分位数远不止是学术练习——它们是现实世界数据分析的强大工具。

对异常值的鲁棒性

平均值标准差不同,四分位数对 异常值具有抵抗力

数据集: [10, 12, 15, 18, 20, 22, 25, 1000]

  • 平均值: 140.25 (被异常值严重扭曲)
  • 中位数 (Q2): 19 (稳定且具代表性)
  • Q1: 13.5, Q3: 23.5 (稳健的边界)

这使得四分位数非常适合分析:

  • 收入数据(亿万富翁不会扭曲你的分析)
  • 房地产价格(忽略豪华顶层公寓)
  • 考试成绩(处理异常优异或差劲的分数)

直观的解释

四分位数直接回答实际问题:

  • “前 25% 的工人薪水是多少?” → Q3 及以上
  • “血压的正常范围是多少?” → Q1 和 Q3 之间
  • “我的数据有多分散?” → IQR (Q3 - Q1)

行业应用

教育

大学使用四分位数来报告 SAT/ACT 分数分布

金融

投资组合经理按四分位数跟踪资产回报

医疗

医学参考范围通常由 Q1-Q3 定义

商业

销售团队分析业绩四分位数以识别表现最好的人

3. 如何计算四分位数(逐步)

让我们使用Tukey Hinges方法(最常见的教科书方法)来完成一个完整的示例。

示例数据集

SAT 数学分数: [480, 510, 530, 560, 600, 620, 650, 680, 710, 750]

步骤 1: 排序数据

已排序:

步骤 2: 找到中位数 (Q2)

有 10 个值,中位数是第 5 和第 6 个值的平均值:

Q2 = (600 + 620) / 2 = 610

步骤 3: 找到 Q1 (下半部分的中位数)

下半部分: [480, 510, 530, 560, 600]

Q1 = 530 (中间值)

步骤 4: 找到 Q3 (上半部分的中位数)

上半部分: [620, 650, 680, 710, 750]

Q3 = 680 (中间值)

步骤 5: 计算 IQR

IQR = Q3 - Q1 = 680 - 530 = 150 分

解释

  • 25% 的学生得分低于 530
  • 50% 的学生得分低于 610 (中位数)
  • 75% 的学生得分低于 680
  • 中间 50% 的分数据跨度为 150 分

🎯 亲自尝试

使用我们的 Tukey Hinges 计算器验证这些结果并探索不同的计算方法。

打开 Tukey 计算器

4. 四分位数计算方法比较

多种计算四分位数的方法,不同的软件使用不同的方法。 这是 Hyndman-Fan 分类,它定义了 9 种类型。

三大方法

方法 类型 使用方 何时使用
Tukey Hinges Type 6 教科书, 教育 作业, 手工计算
R/Python 默认 Type 7 R, Julia, NumPy 数据科学, 研究
Excel QUARTILE.INC Type 8 Excel, Google Sheets 商业分析

相同的数据,不同的结果

使用数据集 [1, 3, 5, 7, 9, 11, 13]:

方法 Q1 Q2 Q3
Type 6 (Tukey)3711
Type 7 (R/Python)4710
Type 8 (Excel)3.5710.5

注意: 这些差异在小数据集 (N < 20) 中更为明显。 对于大数据集,所有方法都会收敛到相似的值。

你应该使用哪种方法?

Type 6 (Tukey)

  • 统计学作业
  • 教科书示例
  • 手工计算
  • 追求简单

Type 7 (R/Python)

  • 数据科学代码
  • 发表研究
  • 最高精度
  • 现代标准

Type 8 (Excel)

  • 商业报告
  • Excel/Google Sheets
  • 非技术团队
  • 行业标准

5. 四分位数 vs 百分位数 vs 十分位数

这些术语经常让初学者感到困惑,但一旦理解了它们的关系,就很简单了:

层级结构

分位数 (Quantiles) (总称)

├── 四分位数 (Quartiles) (4 部分)

├── 十分位数 (Deciles) (10 部分)

├── 百分位数 (Percentiles) (100 部分)

└── 三分位数、五分位数等

转换表

四分位数 百分位数 十分位数
Q125th 分位数2.5th 十分位数
Q2 (中位数)50th 分位数5th 十分位数
Q375th 分位数7.5th 十分位数

6. 现实世界应用

案例研究 1: SAT 成绩分析

大学招生办公室使用四分位数来设定标准:

某大学 SAT 数学成绩假设:

  • 最小值: 450
  • Q1: 580
  • 中位数 (Q2): 650
  • Q3: 710
  • 最大值: 800

有竞争力的申请者: 高于 Q3 (710+) | 平均录取范围: Q1 到 Q3 (580-710)

案例研究 2: 收入分布

2025年美国受家庭收入 (假设):

  • Q1: $45,000
  • 中位数: $75,000
  • Q3: $120,000

平均值会被亿万富翁拉高。四分位数显示了不同收入群体的真实体验

案例研究 3: 质量控制

制造螺栓长度 (mm):

  • 目标: 50mm | Q1: 49.7mm | Q2: 50.0mm | Q3: 50.3mm | IQR: 0.6mm

如果 IQR 超过 1mm,流程将被标记为需审查。 四分位数在缺陷发生前检测生产偏差。

7. 需要避免的常见错误

错误 1: 混淆四分位数和四分之一

错误: "Q1 是我数据的前 25%"

正确: "Q1 是 25% 的数据低于该值的值"

错误 2: 使用太小的样本

N < 4 个数据点的四分位数是未定义的。建议: 当 N ≥ 10 时使用四分位数。

错误 3: 忽略使用的计算方法

场景: 你的 Python 脚本给出 Q1 = 4.5,但你的 Excel 同事得到 Q1 = 4.0。

解决方案: 始终记录你使用的方法,或使用通用计算器

错误 4: 假设四分位数意味着正态分布

四分位数适用于任何分布:偏斜、 双峰、离散、非参数。与平均值/标准差不同,四分位数 不需要关于分布形状的假设。

8. 高级主题

加权四分位数

当数据点具有不同重要性(权重)时,例如课程学分不同的 GPA 计算。 需要专门的软件或自定义编码。

分组数据的四分位数

当你只有频率表(在普查数据中很常见)时,使用插值法 来估计四分位数。

9. 工具与资源

10. 常见问题解答

四分位数和百分位数是一样的吗?

是的,四分位数是特定的百分位数。Q1 = P25, Q2 = P50, Q3 = P75。

如何找到四分位距?

从第三四分位数中减去第一四分位数:IQR = Q3 - Q1

相关文章