摘要
概率统计来源于人们的日常生活,其基本概念、结论通俗易懂,清晰简洁,与生活密切相关。从小学开始,数学课本就开始介绍有关概率统计的相关知识。初中数系的扩充,使概率统计所描述的对象更加丰富。高中数学中集合的引入以及函数等工具的进一步深入,使得对概率统计的描述更加严谨,也得以引入随机变量等重要的新概念,为以后进一步深入学习打好了基础。研究高中数学课程中的概率统计,有助于反思十几年数学教育对学生的成效,有利于总结概率统计学习的一般规律,并能帮助大学生有针对性地学习大学概率论与数理统计的内容,把握其脉络,帮助大学教师在高中已学过的知识基础上更好地开展教学工作。本文首先简单回顾了义务教育阶段中概率统计的内容,然后概括了高中数学课程的结构框架,分别考察了高中数学中概率论、统计的内容,最后进行总结。
一、义务教育阶段数学课程中概率统计内容的简单回顾
在义务教育课程标准中,“统计与概率”与“数与代数”、“图形与几何”的课程内容并列,可见其重要性与独立性。标准规定“统计与概率”的主要内容是:收集、整理和描述数据,包括简单抽样,整理调查数据,绘制统计图表等;处理数据,计算平均数、众数、中位数、方差等,从数据中提取信息,并进行简单的推断;简单随机事件及其发生的概率。这些内容相当丰富,早早引入了平均数、中位数、方差等重要数字特征,其概念和方法来源于生活,既易于理解、好入门,又蕴含着深刻的意义,广泛的共性,为后面深入的学习作了铺垫。
二、高中数学中必修及部分选修教材的结构框架
我们以广泛使用的人民教育出版社A版必修及选修2系列教材(以下简称“教材”)进行研究。这些教材内容基本涵盖了高考必考题目的要求,因此,对于已经通过高考的学生,应该能够较好地理解掌握这部分教材的全部内容。必修教材共五本,选修共三本。典型高中的教学安排大致为每学期学习两本,即高一上学期学习必修1、2,高一下学期学习必修3、4,高二上学期学习必修5、选修2-1,高二下学习学习选修2-2、2-3,在高三复习前的暑假到来之前结束全部新课的教授。八本教材每本都是三章左右,概率统计共占四章,其中两章位于必修3,另外两章位于选修2-3。
必修1共三章,分别为:“集合与函数的概念”,引入了集合的概念,并运用集合与映射的语言,进一步刻画了函数的概念,实现了数学的一大飞跃;“基本初等函数(I)”,介绍了基本而重要的指数函数、对数函数和幂函数;“函数的应用”介绍了函数与方程的关系以及函数模型解决问题的方法。必修2主要研究几何,共四章:“空间集合体”、“点、直线、平面之间的位置关系”研究欧氏立体几何;“直线与方程”、“圆与方程”引入了解析的方法来研究几何,又是一个“数学的重大进步”。必修3共三章,分别为:“算法初步”,研究计算科学的重要基础——算法;“统计”,介绍基本获取样本数据的方法,以及从样本数据中提取信息的统计方法,包括样本估计总体分布、数字特征和线性回归等内容;“概率”介绍了概率论的一些最基本的性质、古典概型、几何概型以及它们在实际中的应用等。必修4共三章:“三角函数”,深化三角函数的概念以及对周期性的理解;“平面向量”,引入了向量工具研究几何的强大方法;“三角恒等变换”,“只变其形不变其质”,加深了对三角函数的认识。必修5共三章:“解三角形”,研究了三角形的边角关系,解决一些测量和几何计算的实际问题;“数列”,引入了数列的概念,建立等差数列和等比数列等两种模型;“不等式”,介绍了不等式的基本性质和求解方法、线性规划问题以及基本不等式,体会不等式、方程及函数之间的联系。选修2-1共三章:“常用逻辑用语”,使我们更加正确理解数学概念,合理论证数学结论,准确表达数学内容;“圆锥曲线与方程”,介绍了几类圆锥曲线,运用坐标法研究其简单几何性质;“空间向量与立体几何”,介绍了用空间向量解决立体几何问题的方法。选修2-2:“导数及其应用”,学习导数和定积分的基本概念和思想方法;“推理和证明”,介绍了合情推理与演绎推理,直接证明和间接证明以及数学归纳法,系统化了数学逻辑体系:“数系的扩充和复数的引入”,介绍了复数的概念及其基本知识。必修2-3:“计数原理”,介绍了加法乘法原理、排列组合及二项式定理;“随机变量及其分布”,引入了离散型随机变量及其分布列、均值和方差,并简单介绍了二项分布和正态分布;“统计案例”,介绍了回归分析和独立性检验的基本思想和初步应用,认识统计方法在决策中的作用。
总结了高中数学的结构框架,我们能够以此为基础,认识分析高中数学概率论与统计的认知过程和知识体系。
三、高中数学中的概率论
在这套教材中,介绍概率论的章节共两章,分别为必修3中的“概率”与选修2-3中的“随机变量及其分布”,大体上介绍了概率论的基本概念,以及一维随机变量的分布及数字特征。下面详细讨论各章的安排,并注意与文献[1](盛骤,谢式千,潘承毅. 概率论与数理统计[M]. 北京:高等教育出版社)进行比较。
在概率论的基本概念部分,首先引入了随机事件的概念,并用随机事件的发生频率定义概率:对于给定的随机事件$A$,如果随着试验次数的增加,事件$A$发生的频率$f_n(A)$稳定在某个常数上,把这个常数记作$P(A)$,称为事件$A$的概率。随后介绍了概率的几个基本性质,如:$0\le P(A)\le 1$;必然事件$S$的概率$P(S)=1$;不可能事件$F$的概率$P(F)=0$;互斥事件$A,B$满足$P(A \cup B)=P(A)+P(B)$;对立事件$A,B$满足$P(A)=1-P(B)$。这些性质都利用上面概率的频率定义法进行了描述性的证明,使概率论建立在一个较为扎实的基础之上。虽然不如文献[1]的公理化定义严谨,但也足以解释概率的基本性质和后面古典概型、几何概型的计算方法。教材还介绍了“极大似然法”的重要统计思想,用实际例子说明这种推断决策方法,使学生在一开始就接触概率“偶然中的必然”的方法论,对从确定性数学过渡到随机数学有重要意义。
在讲述古典概型前,为了分析事件的构成,引入了基本事件的概念。由于没有公理化定义,教材中仅提到“基本事件有如下特点:(1)任何两个基本事件是互斥的 (2)任何事件都可以表示成基本事件的和”。这个描述比起文献[1]“一个样本点组成的单点集,称为基本事件”的定义要复杂,但也恰好能刻画出基本事件的性质。对古典概型描述如下:“(1)试验中所有可能出现的基本事件只有有限个 (2)每个基本事件出现的可能性相等”。这与文献[1]的描述大致相同。在介绍了上面频率近似估计概率和古典概型计算概率这两种方法后,为计算试验结果无穷多的情况,教材引入了几何概型,定义为“每个事件发生的概率只与构成该事件区域的长度(面积或体积)成比例的概率模型”,并给出了几何概型中概率的计算公式。这种定义方法也许不太严谨,但大大拓宽了我们所能求的概率的范围,有利于加深对概率的认识。
在上面课程里,计算机产生随机数模拟试验的方法贯穿其中,充分利用计算机高速度和大容量的特点,介绍了蒙特卡罗方法,使书中频率是概率的近似的定义和意义得到深化,并让我们初步认识了计算机在概率统计中的应用。
为了把随机试验的结果数量化,用数学工具来研究所感兴趣的随机现象,教材引入了随机变量相对文献[1],教材对随机变量的定义十分模糊:“随着试验结果变化而变化的变量称为随机变量”。但教材还是通过一个思考题给出了“随机变量和函数类似的地方”:“随机变量和函数都是一种映射,随机变量把随机试验的结果映为实数,函数把实数映为实数”。这基本体现了随机变量准确定义中所蕴涵的思想。对于随机变量,教材主要研究“所有取值可以一一列出的随机变量”即离散型随机变量,并且明确指出“研究的离散型随机变量只取有限个值”。这与高中阶段微积分、级数工具尚未掌握有关。虽然在选修2-2中已介绍了导数及定积分,必修5中数列部分也或多或少提到了无穷级数的思想,但这对于学习一般的随机变量还远远不够,例如我们在习题中曾遇到一道“超纲”题目有关变量取值无穷的离散型随机变量,求解只需计算一个等比级数的和,这却仍然让部分同学陷入困难。
为了描述离散型随机变量,教材引入了“分布列(distribution series)”,即文献[1]中的“分布律”。为了查明哪一种说法更为通用,查阅网络发现“distribution series”并不常用,相反另一个词“概率质量函数(probability mass function, pmf)”更为常见,在 Wikipedia 中,“分布列”会重定向到“概率质量函数”的词条,而“分布律”词条并不存在。因此,在英文写作中应使用“概率质量函数”即“probability mass function”。
由于选修3-2的第一章计数原理介绍了加法、乘法原理,组合数排列数和二项式定理等,许多分布都有了工具得以引入和进行研究,包括两点分布、超几何分布和二项分布。在重点介绍二项分布之前,教材先引入了条件概率和事件相互独立的概念。教材通过古典概率的例子引入条件概率,并给出定义:$A,B$为两事件,且$P(A)\gt 0$, $P(B|A)=\frac{P(AB)}{P(A)} $为事件$A$发生条件下事件$B$发生的条件概率。这与文献[1]的描述、定义完全一致,并通过讲述条件概率的性质,如规范性、可加性等,说明了条件概率具有概率的性质。随后,教材引入了独立性的定义:若$P(AB)=P(A) \times P(B)$,则称$A,B$相互独立。这也与文献[1]完全一致,只是没有引入多个事件的相互独立。当时高中课堂上老师曾提出“两两独立”、“相互独立”的相关问题,也引发了同学们思想的混乱。可见,独立性一直是概率论基础部分有时和直观相违背而难以理解的一部分。在这些基础上,教材引入了独立重复试验的概念,并最终引入了二项分布。
接下来教材引入了随机变量的两个数字特征,期望和方差。由于只研究变量只取有限个值得离散型随机变量,不会遇到无穷级数和微积分的问题,期望和方差一定存在,也不存在条件收敛的问题,因此两大数字特征得以顺利引入。教材介绍了期望和分布的一些性质以及两点分布、二项分布的期望和方差,并利用这些数字特征研究了一些随机变量的性质和一些决策问题。
在概率论的最后部分,教材在此前完全没有提及连续性随机变量的情况下,通过高尔顿板试验直接引入了正态分布概率密度曲线$\varphi_{\mu,\sigma}(x)=\frac{1}{\sqrt{2\pi}\sigma}\mathrm{e}^{-\frac{(x-\mu)^2}{2\sigma^2}},x \in (-\infty,+\infty)$,并通过一个定积分:随机变量$X$落在区间$(a,b]$的概率为$P(a\lt X \le b)=\int_a^b\varphi_{\mu,\sigma}(x)\mathrm d x$与之前的概率论内容联系起来,并对正态分布定义如下:如果对于任意实数$a,b$,随机变量$X$满足$P(a\lt X \le b)=\int_a^b\varphi_{\mu,\sigma}(x)\mathrm d x$,则称$X$的分布为正态分布。教材的这种安排,为了引入正态分布,在几乎只讲离散型随机变量的情况下不加解释、有些突兀地出现了连续型随机变量及其概率密度函数,从侧面反映了正态分布在整个概率统计中的中心地位。随后教材简单介绍了正态曲线的性质、$3\sigma$原则以及正态分布在现实生活中的普遍性。
四、高中数学中的统计
教材中与统计有关的章节也是两章,同样位于必修3和选修2-3。由于我们当前在概率论与数理统计的课程中数理统计部分的学习还不够,因此对于高中数学中统计的部分内容只能进行粗略的总结。
教材以“随机抽样”开始介绍统计的相关知识。教材和文献[1]对简单随机抽样的定义有所不同:教材是无放回抽样,文献[1]为“观察”。即有放回抽样。对于这一点,文献[1]在其简单随机抽样定义下的注解比较清晰:现实中放回抽样往往不方便,当总体数比样本容量大很多时可以将不放回抽样近似为放回抽样。因此,高中时屡次出现的有关简单随机抽样是否放回的选择判断题是无意义的。随后,教材介绍了系统抽样和分层抽样等方法。
接下来教材介绍了用样本估计总体的方法,包括用样本的频率分布估计总体分布,用样本的数字特征估计总体的数字特征(众数、中位数、平均数、方差)。这部分结论基本与文献[1]一致,只是给出的方差$S^2=\frac 1 n \sum^n_{i=1}(x_i-\bar x)^2$并不是无偏估计,而文献[1]给出的$S^2=\frac 1 {n-1} \sum^n_{i=1}(x_i-\bar x)^2$是无偏估计。教材的这种讲法虽然略有偏差,但这种方差和此前小学初中学习的一致,更易理解,不影响“样本估计总体”的主题,但失去了一个说明样本数字特征并不一定是总体数字特征的无偏估计的契机。
随后教材提出了研究两个随机变量关系的问题,简单介绍了回归分析,直接引入了最小二乘法求回归直线的方法和相关系数的计算公式,并运用这些结论解决了一些现实问题。在选修2-3的“统计案例”一章中,进一步研究了回归分析的基本思想及其初步应用,用相比文献[1]更初等的方法求得了线性回归方程$\hat y=\hat a+\hat bx$中系数的估计值$\hat a,\hat b$,并直接给出了随机误差的方差$\sigma ^2$的估计量$\hat {\sigma ^2}=\frac 1 {n-2}Q(\hat a,\hat b)=\frac 1 {n-2}\sum_{i=1}^n(y_i-\hat a-\hat bx)^2$。教材通过这些数据和相关指数$R^2$来判断回归模型的好坏。
教材的最后介绍了假设检验中的独立性检验。对于教材中介绍的$2\times 2$列联表的情况,即为自由度为$1$的$\chi^2$检验。
五、结论
作者在重翻这套高中数学教材时,无数次感叹其优秀。教材深入浅出,从生活中的实例引入问题,通俗易懂,又给人以充分的独立思考空间,能沿着书中已有的概念进行更加深入的研究,让人领略到“数学是有用的”、“数学是自然的”、“数学是清楚的”。经过十几年特别是高中三年的训练,我们已能够将生活与数学联系起来,对于初等数学有了一个概括性的认识。
但这对于如今乃至以后的数学学习还远远不够。“高中课程标准中对统计概率不要求严格形式化的定义,而是结合具体问题进行描述性的说明。”从过去数学课本总是先统计后概率,到现在先概率后统计,使统计建立在严格的概率论基础之上,我们能发现要求的改变。再加之高中时往往以高考为纲,没有从概率统计的本质入手进行教学,导致大部分同学空会做题,抽象、归纳思维没有得到相应提高。对于如今的大学数学和概率统计,我们必须正确认识其抽象的本质,不断提高自己的形式化逻辑思维和概率统计的随机数学思维。“……在抽象的意义下,一切科学都是数学;在理性的基础上,所有的判断都是统计学。”C·R·劳在《统计与真理》一书中用这样的语言高度评价数学和统计的意义。让我们不忘初心,学好数学和概率统计,使之成为我们认识改造世界的强大工具和陪伴我们一生的宝贵精神财富。
参考
[1] 盛骤,谢式千,潘承毅. 概率论与数理统计[M]. 北京:高等教育出版社,2008.6(2017.3重印).
[2] Probability mass function - Wikipedia
[3] 高中数学新课程标准教材人教A、B版必修统计内容的比较研究
[5] 人民教育出版社等. 普通高中课程标准实验教科书 数学. 北京:人民教育出版社.
[6] (美)C·R·劳. 统计与真理:怎样运用偶然性. 北京:科学出版社.
《概率论与数理统计》期中作业