什么是四分位数?
完整入门指南
从零开始学习四分位数的概念、计算方法和实际应用。通过真实示例,逐步了解 Q1、Q2、Q3、IQR 以及如何计算四分位数。
1. 什么是四分位数?
四分位数是将数据集分成四等份的数值。它们是统计学中最常用的度量之一,用于理解数据的分布和离散程度。
可以把四分位数想象成将你的数据分成四个部分:
- Q1(第一四分位数):25% 的数据低于此值
- Q2(第二四分位数):50% 的数据低于此值(也称为中位数)
- Q3(第三四分位数):75% 的数据低于此值
💡 关键见解
四分位数帮助你理解数据的分布情况。如果 Q1 和 Q3 靠得很近,说明你的数据集中在中间。如果它们相距很远,说明数据分布比较分散。
2. 四分位数定义:Q1、Q2、Q3
Q1(第一四分位数 / 下四分位数)
Q1 是将最低的 25% 数据与其余数据分开的值。它也被称为下四分位数。
示例:如果你有 100 个考试分数,Q1 就是 25 个学生低于该分数的那个值。
Q2(第二四分位数 / 中位数)
Q2 是将下 50% 的数据与上 50% 的数据分开的值。它与中位数相同。
示例:如果你有 100 个考试分数,Q2 就是 50 个学生低于该分数的那个值(中间分数)。
Q3(第三四分位数 / 上四分位数)
Q3 是将最低 75% 的数据与最高 25% 的数据分开的值。它也被称为上四分位数。
示例:如果你有 100 个考试分数,Q3 就是 75 个学生低于该分数的那个值。
3. 如何计算四分位数
计算四分位数有不同的方法。最常见的方法是 Tukey 方法(也称为 Tukey Hinges)。以下是逐步计算四分位数的方法:
逐步过程
- 对数据进行排序,从小到大
- 找到 Q2(中位数):数据集的中间值
- 找到 Q1:下半部分数据(Q2 以下的值)的中位数
- 找到 Q3:上半部分数据(Q2 以上的值)的中位数
📊 计算示例
数据:[12, 15, 18, 20, 22, 25, 28, 30, 35, 40]
步骤 1:数据已经排好序
步骤 2:Q2(中位数)= (22 + 25) / 2 = 23.5
步骤 3:Q1 = [12, 15, 18, 20, 22] 的中位数 = 18
步骤 4:Q3 = [25, 28, 30, 35, 40] 的中位数 = 30
⚠️ 重要提示
不同的软件(Excel、R、Python)可能使用略有不同的方法来计算四分位数,这可能导致不同的结果。了解更多关于不同软件的四分位数差异,以及如何选择适合你需求的方法。
4. 四分位距 (IQR)
四分位距 (IQR) 是 Q3 和 Q1 之间的差值。它衡量的是数据中间 50% 的离散程度。
公式
IQR = Q3 - Q1
示例:如果 Q1 = 18,Q3 = 30,则 IQR = 30 - 18 = 12
IQR 很有用,因为:
- 它对异常值有抵抗力(与极差不同)
- 它可以使用 1.5×IQR 规则来识别异常值
- 它在箱线图中用于定义箱体
🔍 异常值检测
低于 Q1 - 1.5 × IQR 或高于 Q3 + 1.5 × IQR 的值被视为异常值。了解更多关于异常值检测方法。
5. 实际示例
示例 1:考试分数
场景:计算考试分数的四分位数:[65, 70, 75, 80, 85, 90, 95]
计算:
- Q2(中位数)= 80
- Q1 = [65, 70, 75] 的中位数 = 70
- Q3 = [85, 90, 95] 的中位数 = 90
- IQR = 90 - 70 = 20
示例 2:月销售额
场景:计算月销售额的四分位数(单位:千):[12, 15, 18, 20, 22, 25, 28, 30]
计算:
- Q2(中位数)= (20 + 22) / 2 = 21
- Q1 = [12, 15, 18, 20] 的中位数 = (15 + 18) / 2 = 16.5
- Q3 = [22, 25, 28, 30] 的中位数 = (25 + 28) / 2 = 26.5
- IQR = 26.5 - 16.5 = 10
6. 四分位数的常见用途
📊 箱线图
四分位数是箱线图的基础。Q1 和 Q3 构成箱体的边缘,Q2(中位数)标记在箱体内部。了解如何阅读箱线图。
🔍 异常值检测
使用 IQR 方法来识别异常值。Q1 - 1.5×IQR 或 Q3 + 1.5×IQR 范围之外的值被视为异常值。与MAD 方法进行比较。
📈 数据分析
四分位数有助于理解数据分布、识别偏度以及比较不同的数据集。对于比较多个组和选择正确的集中趋势度量(均值 vs 中位数 vs 众数)很有用。
📚 教育
四分位数对于理解统计学至关重要,尤其是在描述性统计和探索性数据分析中。
7. 常见问题
问:四分位数和百分位数有什么区别?
答:四分位数是特定的百分位数:Q1 是第 25 百分位数,Q2 是第 50 百分位数(中位数),Q3 是第 75 百分位数。百分位数可以是 0 到 100 之间的任何值,而四分位数特指第 25、50 和 75 百分位数。
问:为什么不同的软件计算出的四分位数不同?
答:计算四分位数有多种方法(Tukey、R-7、Excel 等),不同的软件使用不同的方法。了解更多关于不同软件的四分位数差异以及如何选择正确的方法。
问:如何在 Excel 中计算四分位数?
答:Excel 有几个四分位数函数:QUARTILE.INC 和 QUARTILE.EXC。使用 QUARTILE.INC(数据, 1) 计算 Q1,QUARTILE.INC(数据, 2) 计算 Q2,QUARTILE.INC(数据, 3) 计算 Q3。请注意,Excel 的方法可能与其他软件不同。
问:IQR 的公式是什么?
答:IQR = Q3 - Q1。它只是第三四分位数和第一四分位数之间的差值,代表数据中间 50% 的离散程度。
问:我可以使用 PlotNerd 来计算四分位数吗?
答:可以!PlotNerd 支持多种四分位数计算方法(Tukey、R-7、Excel、WolframAlpha)。只需输入你的数据并选择你喜欢的方法。你还可以比较不同方法的结果。
8. 总结
四分位数是帮助你理解数据分布的基本统计度量。它们将数据分成四等份,使你能够轻松看到数据的集中位置和离散程度。
要点回顾:
- Q1、Q2、Q3 将数据分成四等份
- Q2 是中位数(第 50 百分位数)
- IQR = Q3 - Q1 衡量中间 50% 的离散程度
- IQR 用于异常值检测(1.5×IQR 规则)
- 不同的软件可能使用不同的方法来计算四分位数
准备好计算你的数据的四分位数了吗?试试 PlotNerd 的四分位数计算器,使用多种方法计算四分位数并用箱线图可视化你的数据。
🔬 用你的数据比较不同方法
使用我们的四分位数计算差异交互式指南,通过你自己的数据查看不同方法如何计算四分位数,包含逐步计算和可视化对比。
打开交互式指南 →