四分位数完全指南:
你需要知道的一切
通过这份综合指南掌握四分位数。学习计算方法、现实世界应用、常见错误以及统计分析的专家建议。
1. 什么是四分位数?
四分位数是将有序数据集分成四个相等部分的统计值, 每个部分包含 25% 的数据点。把它们想象成自然的断点, 可以帮助你理解数据的分布情况。
三个四分位数的值分别是:
- Q1 (第一四分位数):第 25 百分位数 - 25% 的数据低于此值
- Q2 (第二四分位数):第 50 百分位数,也被称为 中位数
- Q3 (第三四分位数):第 75 百分位数 - 75% 的数据低于此值
五数概括 (5-Number Summary)
当与最小值和最大值结合时, 四分位数构成了五数概括,它提供了数据分布的完整快照。
历史背景
四分位数的概念由统计学家 John Tukey 在他 1977 年的开创性著作《探索性数据分析》中普及。Tukey 还发明了基于四分位数的 箱线图(盒须图)。
四分位数与箱线图的联系
每个箱线图都是四分位数的直观表示:
- The 箱体 从 Q1 延伸到 Q3 (即 IQR)
- 箱体内的一条线标记了中位数 (Q2)
- 须线延伸到最小值和最大值
- 异常值被绘制为须线之外的单个点
2. 为什么四分位数很重要
四分位数远不止是学术练习——它们是现实世界数据分析的强大工具。
对异常值的鲁棒性
与平均值和标准差不同,四分位数对 异常值具有抵抗力:
数据集: [10, 12, 15, 18, 20, 22, 25, 1000]
- 平均值: 140.25 (被异常值严重扭曲)
- 中位数 (Q2): 19 (稳定且具代表性)
- Q1: 13.5, Q3: 23.5 (稳健的边界)
这使得四分位数非常适合分析:
- 收入数据(亿万富翁不会扭曲你的分析)
- 房地产价格(忽略豪华顶层公寓)
- 考试成绩(处理异常优异或差劲的分数)
直观的解释
四分位数直接回答实际问题:
- “前 25% 的工人薪水是多少?” → Q3 及以上
- “血压的正常范围是多少?” → Q1 和 Q3 之间
- “我的数据有多分散?” → IQR (Q3 - Q1)
行业应用
教育
大学使用四分位数来报告 SAT/ACT 分数分布
金融
投资组合经理按四分位数跟踪资产回报
医疗
医学参考范围通常由 Q1-Q3 定义
商业
销售团队分析业绩四分位数以识别表现最好的人
3. 如何计算四分位数(逐步)
让我们使用Tukey Hinges方法(最常见的教科书方法)来完成一个完整的示例。
示例数据集
SAT 数学分数: [480, 510, 530, 560, 600, 620, 650, 680, 710, 750]
步骤 1: 排序数据
已排序:
步骤 2: 找到中位数 (Q2)
有 10 个值,中位数是第 5 和第 6 个值的平均值:
Q2 = (600 + 620) / 2 = 610
步骤 3: 找到 Q1 (下半部分的中位数)
下半部分: [480, 510, 530, 560, 600]
Q1 = 530 (中间值)
步骤 4: 找到 Q3 (上半部分的中位数)
上半部分: [620, 650, 680, 710, 750]
Q3 = 680 (中间值)
步骤 5: 计算 IQR
IQR = Q3 - Q1 = 680 - 530 = 150 分
解释
- 25% 的学生得分低于 530
- 50% 的学生得分低于 610 (中位数)
- 75% 的学生得分低于 680
- 中间 50% 的分数据跨度为 150 分
4. 四分位数计算方法比较
有多种计算四分位数的方法,不同的软件使用不同的方法。 这是 Hyndman-Fan 分类,它定义了 9 种类型。
三大方法
| 方法 | 类型 | 使用方 | 何时使用 |
|---|---|---|---|
| Tukey Hinges | Type 6 | 教科书, 教育 | 作业, 手工计算 |
| R/Python 默认 | Type 7 | R, Julia, NumPy | 数据科学, 研究 |
| Excel QUARTILE.INC | Type 8 | Excel, Google Sheets | 商业分析 |
相同的数据,不同的结果
使用数据集 [1, 3, 5, 7, 9, 11, 13]:
| 方法 | Q1 | Q2 | Q3 |
|---|---|---|---|
| Type 6 (Tukey) | 3 | 7 | 11 |
| Type 7 (R/Python) | 4 | 7 | 10 |
| Type 8 (Excel) | 3.5 | 7 | 10.5 |
注意: 这些差异在小数据集 (N < 20) 中更为明显。 对于大数据集,所有方法都会收敛到相似的值。
你应该使用哪种方法?
Type 6 (Tukey)
- 统计学作业
- 教科书示例
- 手工计算
- 追求简单
Type 7 (R/Python)
- 数据科学代码
- 发表研究
- 最高精度
- 现代标准
Type 8 (Excel)
- 商业报告
- Excel/Google Sheets
- 非技术团队
- 行业标准
5. 四分位数 vs 百分位数 vs 十分位数
这些术语经常让初学者感到困惑,但一旦理解了它们的关系,就很简单了:
层级结构
分位数 (Quantiles) (总称)
├── 四分位数 (Quartiles) (4 部分)
├── 十分位数 (Deciles) (10 部分)
├── 百分位数 (Percentiles) (100 部分)
└── 三分位数、五分位数等
转换表
| 四分位数 | 百分位数 | 十分位数 |
|---|---|---|
| Q1 | 25th 分位数 | 2.5th 十分位数 |
| Q2 (中位数) | 50th 分位数 | 5th 十分位数 |
| Q3 | 75th 分位数 | 7.5th 十分位数 |
6. 现实世界应用
案例研究 1: SAT 成绩分析
大学招生办公室使用四分位数来设定标准:
某大学 SAT 数学成绩假设:
- 最小值: 450
- Q1: 580
- 中位数 (Q2): 650
- Q3: 710
- 最大值: 800
有竞争力的申请者: 高于 Q3 (710+) | 平均录取范围: Q1 到 Q3 (580-710)
案例研究 2: 收入分布
2025年美国受家庭收入 (假设):
- Q1: $45,000
- 中位数: $75,000
- Q3: $120,000
平均值会被亿万富翁拉高。四分位数显示了不同收入群体的真实体验。
案例研究 3: 质量控制
制造螺栓长度 (mm):
- 目标: 50mm | Q1: 49.7mm | Q2: 50.0mm | Q3: 50.3mm | IQR: 0.6mm
如果 IQR 超过 1mm,流程将被标记为需审查。 四分位数在缺陷发生前检测生产偏差。
7. 需要避免的常见错误
错误 1: 混淆四分位数和四分之一
❌ 错误: "Q1 是我数据的前 25%"
✅ 正确: "Q1 是 25% 的数据低于该值的值"
错误 2: 使用太小的样本
N < 4 个数据点的四分位数是未定义的。建议: 当 N ≥ 10 时使用四分位数。
错误 4: 假设四分位数意味着正态分布
四分位数适用于任何分布:偏斜、 双峰、离散、非参数。与平均值/标准差不同,四分位数 不需要关于分布形状的假设。
8. 高级主题
加权四分位数
当数据点具有不同重要性(权重)时,例如课程学分不同的 GPA 计算。 需要专门的软件或自定义编码。
分组数据的四分位数
当你只有频率表(在普查数据中很常见)时,使用插值法 来估计四分位数。
9. 工具与资源
10. 常见问题解答
四分位数和百分位数是一样的吗?
是的,四分位数是特定的百分位数。Q1 = P25, Q2 = P50, Q3 = P75。
如何找到四分位距?
从第三四分位数中减去第一四分位数:IQR = Q3 - Q1。