2019年
此时<2;
当x=6时,=×6-=,此时<2. 故所得的回归直线方程是理想的. 触类旁通
(1)正确理解计算,的公式和准确的计算是求线性回归方程的关键. (2)回归直线方程=x+必过样本点中心(,).
(3)在分析两个变量的相关关系时,可根据样本数据作出散点图来确定两个变量之间是否具有相关关系,若具有线性相关关系,则可通过线性回归方程来估计和预测.
【变式训练1】 PM2.5是指空气中直径小于或等于2.5微米的颗粒物(也称可入肺颗粒物).为了探究车流量与PM2.5的浓度是否相关,现采集到某城市周一至周五某一时间段车流量与PM2.5浓度的数据如下表:
时间 车流量x(万辆) PM2.5的浓度y(微克/立方米) 周一 100 78 0 02 84 二 108 88 周三 114 80 周四 1周周五 116 9(1)根据上表数据,用最小二乘法求出y关于x的线性回归方程=x+;
(2)若周六同一时间段车流量是200万辆,试根据(1)求出的线性回归方程预测,此时PM2.5的浓度为多少?
(
参考公式:=,=-;参考数据:xi=540,yi=420解 (1)由条件可知,
=xi==108,=yi==84,
)
x
5∑i=1 (xi-)(yi-)=(-8)×(-6)+(-6)×(-4)+0×0+6×4+8×6=144, 5∑i=1 (xi-)2=(-8)2+(-6)2+02+62+82=200. ^
b===0.72,
^
a=-=84-0.72×108=6.24,
故y关于x的线性回归方程为=0.72x+6.24.
(2)当x=200时,=0.72×200+6.24=150.24,所以可以预测此时PM2.5的浓度约为150.24微克/立方米.
考向 两个变量的相关性
2019年
命题角度1 相关关系的判断
例 2 对四组数据进行统计,获得如图所示的散点图,关于其相关系数的比较,
正确的是( )
A.r2 答案 A 解析 易知题中图(1)与图(3)是正相关,图(2)与图(4)是负相关,且图(1)与图 (2)中的样本点集中分布在一条直线附近,则r2 命题角度2 相关系数的意义 例 3 [2017·全国卷Ⅰ]为了监控某种零件的一条生产线的生产过程,检验员每隔30 min从该生产线上随机抽取一个零件,并测量其尺寸(单位:cm).下面是检 验员在一天内依次抽取的16个零件的尺寸: 经计算得=i=9.97,s= =≈0.212, ≈18.439,(xi-)(i-8.5)=-2.78,其 中xi为抽取的第i个零件的尺寸,i=1,2,…,16. (1)求(xi,i)(i=1,2,…,16)的相关系数r,并回答是否可以认为这一天生产的零件尺寸不随生产过程的进行而系统地变大或变小(若|r|<0.25,则可以认为零件 的尺寸不随生产过程的进行而系统地变大或变小); (2)一天内抽检零件中,如果出现了尺寸在(-3s,+3s)之外的零件,就认为这 条生产线在这一天的生产过程可能出现了异常情况,需对当天的生产过程进行检查. (ⅰ)从这一天抽检的结果看,是否需对当天的生产过程进行检查? (ⅱ)在(-3s,+3s)之外的数据称为离群值,试剔除离群值,估计这条生产线当 天生产的零件尺寸的均值与标准差.(精确到0.01) 附:样本(xi,yi)(i=1,2,…,n)的相关系数r=.≈0.09. 解 (1)由样本数据得(xi,i)(i=1,2,…,16)的相关系数 r=错误! ≈≈-0.18. 由于|r|<0.25,因此可以认为这一天生产的零件尺寸不随生产过程的进行而系 统地变大或变小. (2)(ⅰ)由于=9.97,s≈0.212,因此由样本数据可以看出抽取的第13个零件的 尺寸在(-3s,+3s)以外,因此需对当天的生产过程进行检查. (ⅱ)剔除离群值,即第13个数据,剩下数据的平均数为 2019年 (16×9.97-9.22)=10.02,15 这条生产线当天生产的零件尺寸的均值的估计值为10.02. 16 ≈16×0.2122+16×9.972≈1591.134,2ix? 1=i 1 剔除第13个数据,剩下数据的样本方差为 (1591.134-9.222-15×10.022)≈0.008,15 这条生产线当天生产的零件尺寸的标准差的估计值为≈0.09. 考向 独立性检验 1 例 4 [2017·全国卷Ⅱ]海水养殖场进行某水产品的新、旧网箱养殖方法的产量对比,收获时各随机抽取了100个网箱,测量各箱水产品的产量(单位:kg),其频 率分布直方图如下: 旧养殖法 新养殖法 (1)设两种养殖方法的箱产量相互独立,记A表示事件“旧养殖法的箱产量低于 50 kg,新养殖法的箱产量不低于50 kg”,估计A的概率; (2)填写下面列联表,并根据列联表判断是否有99%的把握认为箱产量与养殖方 法有关; 旧养殖法 新养殖法 箱产量<50 kg 箱产量≥50 kg (3)根据箱产量的频率分布直方图,求新养殖法箱产量的中位数的估计值(精确到0.01). K2=. 解 (1)记B表示事件“旧养殖法的箱产量低于50 kg”,C表示事件“新养殖法的箱产量不低于50 kg”. 由题意知P(A)=P(BC)=P(B)P(C). 旧养殖法的箱产量低于50 kg的频率为 (0.012+0.014+0.024+0.034+0.040)×5=0.62, 故P(B)的估计值为0.62. 新养殖法的箱产量不低于50 kg的频率为 2019年 (0.068+0.046+0.010+0.008)×5=0.66, 故P(C)的估计值为0.66. 因此,事件A的概率估计值为0.62×0.66=0.4092. (2)根据箱产量的频率分布直方图得列联表 旧养殖法 新养殖法 箱产量<50 kg 62 34 箱产量≥50 kg 38 66 K2=≈15.705. 由于15.705>6.635,故有99%的把握认为箱产量与养殖方法有关. (3)因为新养殖法的箱产量频率分布直方图中,箱产量低于50 kg的直方图面积为 (0.004+0.020+0.044)×5=0.34<0.5, 箱产量低于55 kg的直方图面积为 (0.004+0.020+0.044+0.068)×5=0.68>0.5, 故新养殖法产量的中位数的估计值为 50+≈52.35(kg). 触类旁通 利用统计量K2进行独立性检验的步骤 (1)根据数据列出2×2列联表; (2)根据公式计算K2找观测值k; (3)比较观测值k与临界值表中相应的检验水平,作出统计推断. 【变式训练2】 某校在高一年级学生中,对自然科学类、社会科学类校本选修课程的选课意向进行调查.现从高一年级学生中随机抽取180名学生,其中男生105 名;在这180名学生中选择社会科学类的男生、女生均为45名. (1)试问:从高一年级学生中随机抽取1人,抽到男生的概率约为多少?(2)根据抽取的180名学生的调查结果,完成下面2×2列联表.并判断能否在犯 错误的概率不超过0.025的前提下认为科类的选择与性别有关? 男生 女生 选择自然科学类 选择社会科学类 合计
相关推荐: