第1讲 统计与统计案例
高考定位 1.抽样方法、样本的数字特征、统计图表、回归分析与独立性检验主要以选择题、填空题形式命题,难度较小;2.注重知识的交汇渗透,统计与概率,回归分析与概率是近年命题的热点,2016年,2017年和2018年在解答题中均有考查.
真 题 感 悟
1.(2018·全国Ⅰ卷)某地区经过一年的新农村建设,农村的经济收入增加了一倍,实现翻番.为更好地了解该地区农村的经济收入变化情况,统计了该地区新农村建设前后农村的经济收入构成比例,得到如图所示的饼图:
则下面结论中不正确的是( ) A.新农村建设后,种植收入减少
B.新农村建设后,其他收入增加了一倍以上 C.新农村建设后,养殖收入增加了一倍
D.新农村建设后,养殖收入与第三产业收入的总和超过了经济收入的一半
解析 设新农村建设前经济收入为a,则新农村建设后经济收入为2a,则由饼图可得新农村建设前种植收入为0.6a,其他收入为0.04a,养殖收入为0.3a.新农村建设后种植收入为0.74a,其他收入为0.1a,养殖收入为0.6a,养殖收入与第三产业收入的总和为1.16a,所以新农村建设后,种植收入减少是错误的.故选A. 答案 A
2.(2018·全国Ⅲ卷)某公司有大量客户,且不同年龄段客户对其服务的评价有较大差异.为了解客户的评价,该公司准备进行抽样调查,可供选择的抽样方法有简单随机抽样、分层抽样和系统抽样,则最合适的抽样方法是________.
解析 因为不同年龄段的客户对公司的服务评价有较大差异,所以需按年龄进行分层抽样,才能了解到不同年龄段的客户对公司服务的客观评价. 答案 分层抽样
1
3.(2018·全国Ⅱ卷)下图是某地区2000年至2016年环境基础设施投资额y(单位:亿元)的折线图.
为了预测该地区2018年的环境基础设施投资额,建立了y与时间变量t的两个线性回归模型.根据2000年至2016年的数据(时间变量t的值依次为1,2,…,17)建立模型①:y=-30.4+13.5t;根据2010年至2016年的数据(时间变量t的值依次为1,2,…,7)建立模型②:y=99+17.5t.
(1)分别利用这两个模型,求该地区2018年的环境基础设施投资额的预测值; (2)你认为用哪个模型得到的预测值更可靠?并说明理由.
解 (1)利用模型①,该地区2018年的环境基础设施投资额的预测值为y=-30.4+13.5×19=226.1(亿元).
利用模型②,该地区2018年的环境基础设施投资额的预测值为
^
^
^
y=99+17.5×9=256.5(亿元).
(2)利用模型②得到的预测值更可靠. 理由如下:
从折线图可以看出,2000年至2016年的数据对应的点没有随机散布在直线y=
-30.4+13.5t上下,这说明利用2000年至2016年的数据建立的线性模型①不能很好地描述环境基础设施投资额的变化趋势.2010年相对2009年的环境基础设施投资额有明显增加,2010年至2016年的数据对应的点位于一条直线的附近,这说明从2010年开始环境基础设施投资额的变化规律呈线性增长趋势,利用2010年至2016年的数据建立的线性模型y=99+17.5t可以较好地描述2010年以后的环境基础设施投资额的变化趋势,因此利用模型②得到的预测值更可靠.
考 点 整 合
1.抽样方法
2
^
^
抽样方法包括简单随机抽样、系统抽样、分层抽样,三种抽样方法都是等概率抽样,体现了抽样的公平性,但又各有其特点和适用范围. 2.统计中的四个数据特征
(1)众数:在样本数据中,出现次数最多的那个数据.
(2)中位数:样本数据中,将数据按大小排列,位于最中间的数据.如果数据的个数为偶数,就取中间两个数据的平均数作为中位数.
1
(3)平均数:样本数据的算术平均数,即x=(x1+x2+…+xn).
-
n(4)方差与标准差.
s2=[(x1-x)2+(x2-x)2+…+(xn-x)2],
ns=
1
1
---
n[(x1-x)+(x2-x)+…+(xn-x)].
-
2
-
2
-
2
3.直方图的两个结论 (1)小长方形的面积=组距×
频率
=频率. 组距
(2)各小长方形的面积之和等于1. 4.回归分析与独立性检验
(1)回归直线y=bx+a经过样本点的中心点(x,y),若x取某一个值代入回归直线方程y=bx+a中,可求出y的估计值. (2)独立性检验
对于取值分别是{x1,x2}和{y1,y2}的分类变量X和Y,其样本频数列联表是:
^
^
^
^
-
-
^
^
x1 x2 总计 2
y1 a c a+c y2 b d b+d 总计 a+b c+d n n(ad-bc)2则K=(其中n=a+b+c+d为样本容量).
(a+b)(c+d)(a+c)(b+d)
热点一 抽样方法
【例1】 (1)(2018·合肥模拟)某校为了解学生学习的情况,采用分层抽样的方法从高一1 000人、高二1 200人、高三n人中抽取81人进行问卷调查,已知高二被抽取的人数为30,
3
那么n=( ) A.860 C.1 020
B.720 D.1 040
(2)(2018·长沙雅礼中学质检)在一次马拉松比赛中,35名运动员的成绩(单位:分钟)的茎叶图如图所示:
若将运动员按成绩由好到差编为1~35号,再用系统抽样方法从中抽取7人,则其中成绩在区间[139,151]上的运动员人数是________. 301解析 (1)依题意,分层抽样比为=.
1 200401
∴81=(1 000+1 200+n),解得n=1 040.
40
(2)依题意,可将编号为1~35号的35个数据分成7组,每组有5个数据.
在区间[139,151]上共有20个数据,分在4个小组内,每组抽取1人,共抽取4人. 答案 (1)D (2)4
探究提高 1.解决此类题目的关键是深刻理解各种抽样方法的特点和适用范围.但无论哪种抽样方法,每一个个体被抽到的概率都是相等的,都等于样本容量与总体容量的比值. 2.在系统抽样的过程中,要注意分段间隔,需要抽取n个个体,样本就需要分成n个组,则分段间隔即为(n为样本容量),首先确定在第一组中抽取的个体的号码数,再从后面的每组中按规则抽取每个个体.
【训练1】 (1)(2018·郑州模拟)为规范学校办学,某省教育厅督察组对某所高中进行了抽样调查.抽到的班级一共有52名学生,现将该班学生随机编号,用系统抽样的方法抽取一个容量为4的样本,已知7号、33号、46号同学在样本中,那么样本中还有一位同学的编号应是( ) A.13
B.19
C.20
D.51
Nn(2)某工厂生产甲、乙、丙、丁四种不同型号的产品,产量分别为200,400,300,100件,为检验产品的质量,现用分层抽样的方法从以上所有的产品中抽取60件进行检验,则应从丙种型号的产品中抽取________件.
4
解析 (1)由系统抽样的原理知,抽样的间隔为52÷4=13,故抽取的样本的编号分别为7,7+13,7+13×2,7+13×3,即7号,20号,33号,46号. ∴样本中还有一位同学的编号为20号.
(2)因为样本容量n=60,总体容量N=200+400+300+100=1 000,所以抽取比例为=3=. 50
3
因此应从丙种型号的产品中抽取300×=18(件).
50答案 (1)C (2)18 热点二 用样本估计总体 考法1 数字特征与茎叶图的应用
【例2-1】 (2018·北京东城区质检)某班男女生各10名同学最近一周平均每天的锻炼时间(单位:分钟)用茎叶图记录如下:
n60N1000
假设每名同学最近一周平均每天的锻炼时间是互相独立的. ①男生每天锻炼的时间差别小,女生每天锻炼的时间差别大; ②从平均值分析,男生每天锻炼的时间比女生多;
③男生平均每天锻炼时间的标准差大于女生平均每天锻炼时间的标准差;
④从10个男生中任选一人,平均每天的锻炼时间超过65分钟的概率比同样条件下女生锻炼时间超过65分钟的概率大.
其中符合茎叶图所给数据的结论是( ) A.①②③
B.②③④
C.①②④
D.①③④
解析 由茎叶图知,男生每天锻炼时间差别小,女生差别大,①正确.
51
男生平均每天锻炼时间超过65分钟的概率P1==,女生平均每天锻炼时间超过65分钟
10242
的概率P2==,P1>P2,因此④正确.
105
设男生、女生两组数据的平均数分别为x甲,x乙,标准差分别为s甲,s乙.
5
-
-
易求x甲=65.2,x乙=61.8,知x甲>x乙,②正确.
又根据茎叶图,男生锻炼时间较集中,女生锻炼时间较分散, ∴s甲
因此符合茎叶图所给数据的结论是①②④. 答案 C
考法2 用样本的频率分布估计总体分布
【例2-2】 (2017·北京卷)某大学艺术专业400名学生参加某次测评,根据男女学生人数比例,使用分层抽样的方法从中随机抽取了100名学生,记录他们的分数,将数据分成7组:[20,30),[30,40),…[80,90],并整理得到如下频率分布直方图:
----
(1)从总体的400名学生中随机抽取一人,估计其分数小于70的概率;
(2)已知样本中分数小于40的学生有5人,试估计总体中分数在区间[40,50)内的人数; (3)已知样本中有一半男生的分数不小于70,且样本中分数不小于70的男女生人数相等.试估计总体中男生和女生人数的比例.
解 (1)根据频率分布直方图可知,样本中分数不小于70的频率为(0.02+0.04)×10=0.6, 所以样本中分数小于70的频率为1-0.6=0.4.
所以从总体的400名学生中随机抽取一人,其分数小于70的概率估计为0.4. (2)根据题意,样本中分数不小于50的频率为 (0.01+0.02+0.04+0.02)×10=0.9,
分数在区间[40,50)内的人数为100-100×0.9-5=5. 所以总体中分数在区间[40,50)内的人数估计为400×(3)由题意可知,样本中分数不小于70的学生人数为 (0.02+0.04)×10×100=60,
1
所以样本中分数不小于70的男生人数为60×=30.
2
所以样本中的男生人数为30×2=60,女生人数为100-60=40,男生和女生人数的比例为60∶40=3∶2.
6
5
=20. 100
所以根据分层抽样原理,总体中男生和女生人数的比例估计为3∶2.
探究提高 1.平均数与方差都是重要的数字特征,是对数据的一种简明描述,它们所反映的情况有着重要的实际意义.平均数、中位数、众数描述数据的集中趋势,方差和标准差描述数据的波动大小.
2.在本例2-2中,抓住频率分布直方图各小长方形的面积之和为1,这是求解的关键;本题易混淆频率分布条形图和频率分布直方图,误把频率分布直方图纵轴的几何意义当成频率,导致样本数据的频率求错.
【训练2】 (1)如图所示的茎叶图记录了甲乙两组各5名工人某日的产量数据(单位:件).若这两组数据的中位数相等,且平均值也相等,则x和y的值分别为( ) A.3,5 C.3,7
B.5,5 D.5,7
解析 由茎叶图,可得甲组数据的中位数为65,从而乙组数据的中位数也是65,所以y=5.由乙组数据59,61,67,65,78,可得乙组数据的平均值为66,故甲组数据的平均值也56+62+65+74+70+x为66,从而有=66,解得x=3.
5答案 A
(2)我国是世界上严重缺水的国家,某市为了制定合理的节水方案,对居民用水情况进行了调查.通过抽样,获得了某年100位居民每人的月均用水量(单位:吨),将数据按照[0,0.5),[0.5,1),……,[4,4.5]分成9组,制成了如图所示的频率分布直方图.
①求直方图中a的值;
②设该市有30万居民,估计全市居民中月均用水量不低于3吨的人数,说明理由; ③估计居民月均用水量的中位数.
解 ①由频率分布直方图可知:月均用水量在[0,0.5)内的频率为0.08×0.5=0.04. 同理,在[0.5,1),[1.5,2),[2,2.5),[3,3.5),[3.5,4),[4,4.5]等组的频率分别为0.08,0.21,0.25,0.06,0.04,0.02.
7
由1-(0.04+0.08+0.21+0.25+0.06+0.04+0.02)=0.5×a+0.5×a, 解得a=0.30.
②由①知,该市100位居民中月均用水量不低于3吨的频率为0.06+0.04+0.02=0.12.由以上样本的频率分布,可以估计30万居民中月均用水量不低于3吨的人数为300 000×0.12=36 000. ③设中位数为x吨.
因为前5组的频率之和为0.04+0.08+0.15+0.21+0.25=0.73>0.5. 又前4组的频率之和为0.04+0.08+0.15+0.21=0.48<0.5. 所以2≤x<2.5.
由0.50×(x-2)=0.5-0.48,解得x=2.04. 故可估计居民月均用水量的中位数为2.04吨. 热点三 回归分析
【例3】 (2018·成都质检)某省的一个气象站观测点在连续4天里记录的AQI指数M与当天的空气水平可见度y(单位:cm)的情况如表1:
M y 900 0.5 700 3.5 300 6.5 100 9.5 该省某市2017年11月份AQI指数频数分布如表2:
M 频数(天) [0,200) 3 [200,400) 6 [400,600) 12 [600,800) 6 [800,1 000] 3 (1)设x=,若x与y之间是线性关系,试根据表1的数据求出y关于x的线性回归方程;
100(2)小李在该市开了一家洗车店,洗车店每天的平均收入与AQI指数存在相关关系如表3:
MM 日均收 [0,200) -2 000 [200,400) -1 000 [400,600) 2 000 [600,800) 6 000 [800,1 000] 8 000 入(元) 根据表3估计小李的洗车店2017年11月份每天的平均收入.
n∑xiyi-nx y附参考公式:y=bx+a,其中b=
^
^
^
^
--
^
-
^-
i=1
n2
∑xi-nxi=1
-
,a=y-bx
2
8
-1
解 (1)x=(9+7+3+1)=5,
4-
y=(0.5+3.5+6.5+9.5)=5,
4
14
∑xiyi=9×0.5+7×3.5+3×6.5+1×9.5=58,
i=1
4
∑xi=9+7+3+1=140.
i=1
^58-4×5×521^?-21?×5=41, ∴b==-,a=5-?20?2
140-4×5204??^2141∴y关于x的线性回归方程为y=-x+.
204
22222
(2)根据表3可知,该月30天中有3天每天亏损2 000元,有6天每天亏损1 000元,有12天每天收入2 000元,有6天每天收入6 000元,有3天每天收入8 000元. 1
估计小李洗车店2017年11月份每天的平均收入为×(-2 000×3-1 000×6+
302 000×12+6 000×6+8 000×3)=2 400(元). 探究提高 1.求回归直线方程的关键及实际应用 (1)关键:正确理解计算b,a的公式和准确地计算.
(2)实际应用:在分析实际中两个变量的相关关系时,可根据样本数据作出散点图来确定两个变量之间是否具有相关关系,若具有线性相关关系,则可通过线性回归方程估计和预测变量的值. 2.相关系数
(1)当r>0时,表明两个变量正相关;当r<0时,两变量负相关. (2)当|r|>0.75时,认为两个变量具有较强的线性相关.
【训练3】 (2016·全国Ⅲ卷)如图是我国2008年至2014年生活垃圾无害化处理量(单位:亿吨)的折线图.
^
^
注:年份代码1~7分别对应年份2008~2014.
(1)由折线图看出,可用线性回归模型拟合y与t的关系,请用相关系数加以说明;
9
(2)建立y关于t的回归方程(系数精确到0.01),预测2016年我国生活垃圾无害化处理量. 附注:
7
7
7
参考数据:∑yi=9.32,∑tiyi=40.17,i=1
i=1
n∑ (yi-y)=0.55,7≈2.646.
i=1
-
2
∑ (ti-t)(yi-y)
参考公式:相关系数r=
i=1n--
∑ (ti-t)∑ (yi-y)
i=1
i=1
^
^
^
-
n2
,
-
2
回归方程y=a+bt中斜率和截距的最小二乘估计公式分别为:
n∑ (ti-t)(yi-y)
--
b=
^
i=1
n∑ (ti-t)
i=1
-
,a=y-b t.
2
^-^-
解 (1)由折线图中数据和附注中参考数据得
-
7
t=4,∑ (ti-t)=28,
i=1
7
-
7
2
∑ (yi-y)=0.55.
i=17
-
2
∑ (ti-t)(yi-y)=∑tiyi-t∑yi=40.17-4×9.32=2.89, i=1
i=1
i=1
--7-
r≈
2.89
≈0.99.
2×2.646×0.55
因为y与t的相关系数近似为0.99,说明y与t的线性相关程度相当高,从而可以用线性回归模型拟合y与t的关系.
7
∑ (ti-t)(yi-y)^9.322.89i=1
(2)由y=≈1.331及(1)得b==≈0.103, 7
-7282
∑ (ti-t)
-
--
i=1
a=y-b t≈1.331-0.103×4≈0.92.
所以y关于t的回归方程为y=0.92+0.10t.
将2016年对应的t=9代入回归方程得y=0.92+0.10×9=1.82. 所以预测2016年我国生活垃圾无害化处理量将约为1.82亿吨. 热点四 独立性检验
10
^
^
^-^-
【例4】 (2018·全国Ⅲ卷)某工厂为提高生产效率,开展技术创新活动,提出了完成某项生产任务的两种新的生产方式.为比较两种生产方式的效率,选取40名工人,将他们随机分成两组,每组20人,第一组工人用第一种生产方式,第二组工人用第二种生产方式.根据工人完成生产任务的工作时间(单位:min)绘制了如图所示的茎叶图:
(1)根据茎叶图判断哪种生产方式的效率更高?并说明理由;
(2)求40名工人完成生产任务所需时间的中位数m,并将完成生产任务所需时间超过m和不超过m的工人数填入下面的列联表:
第一种生产方式 第二种生产方式 超过m 不超过m (3)根据(2)中的列联表,能否有99%的把握认为两种生产方式的效率有差异?
n(ad-bc)2附:K=,
(a+b)(c+d)(a+c)(b+d)
2
P(K2≥k0) k0 0.050 3.841 0.010 6.635 0.001 10.828 -
解 (1)第一种生产方式时间集中在区间[80,90],且平均工作时间x1=84. 第二种生产方式的时间集中在区间[70,80),且平均工作时间x2=74.7. ∴x1>x2,所以第一种生产方式完成任务的平均时间大于第二种, ∴第二种生产方式的效率更高. (2)由茎叶图数据得到m=80. 由此填写列联表如下:
-
-
-
第一种生产方式 第二种生产方式 总计 (3)根据(2)中的列联表计算.
超过m 15 5 20 不超过m 5 15 20 总计 20 20 40 11
2
n(ad-bc)240(15×15-5×5)
K===10>6.635,所以有99%的
(a+b)(c+d)(a+c)(b+d)20×20×20×202
把握认为两种生产方式的效率有差异. 探究提高 1.独立性检验的一般步骤 (1)根据样本数据制成2×2列联表;
n(ad-bc)22
(2)根据公式K=计算K的值;
(a+b)(c+d)(a+c)(b+d)
2
(3)查表比较K与临界值的大小关系,作统计判断.
2.K的观测值k越大,对应假设事件H0成立(两类变量相互独立)的概率越小,H0不成立的概率越大.
【训练4】 微信是腾讯公司推出的一种手机通讯软件,它支持发送语音短信、视频、图片和文字,一经推出便风靡全国,甚至涌现出一批在微信的朋友圈内销售商品的人(被称为微商).为了调查每天微信用户使用微信的时间,某经销化妆品的微商在一广场随机采访男性、女性用户各50名,将男性、女性使用微信的时间分成5组:(0,2],(2,4],(4,6],(6,8],(8,10]分别加以统计,得到如图所示的频率分布直方图.
2
2
(1)根据女性频率分布直方图估计女性使用微信的平均时间;
(2)若每天玩微信超过4小时的用户列为“微信控”,否则称其为“非微信控”,请你根据已知条件完成2×2的列联表,并判断是否有90%的把握认为“微信控”与“性别有关”? 解 (1)女性平均使用微信的时间为:
0.16×1+0.24×3+0.28×5+0.2×7+0.12×9=4.76(小时). (2)由已知得:2(0.04+a+0.14+2×0.12)=1,解得a=0.08. 由题设条件得列联表
男性 女性 微信控 38 30 非微信控 12 20 总计 50 50 12
总计 2
68 32 100 n(ad-bc)2∴K=
(a+b)(c+d)(a+c)(b+d)
100(38×20-30×12)=≈2.941>2.706.
50×50×68×32所以有90%的把握认为“微信控”与“性别”有关.
1.用样本估计总体是统计的基本思想.
用样本频率分布来估计总体分布的重点是频率分布表和频率分布直方图的绘制及用样本频率分布估计总体分布;难点是频率分布表和频率分布直方图的理解及应用.
2.(1)众数、中位数及平均数都是描述一组数据集中趋势的量,平均数是最重要的量,与每个样本数据有关,这是中位数、众数所不具有的性质.
(2)标准差、方差描述了一组数据围绕平均数波动的大小.标准差、方差越大,数据的离散程度就越大.
3.茎叶图、频率分布表和频率分布直方图都可直观描述样本数据的分布规律.
在频率分布直方图中,可分析样本数据的分布情况,大致判断平均数的范围,并利用数据的波动性大小反映方差(标准差)的大小.
频率
注意:频率分布直方图的纵轴刻度是,而不是频率,每个小直方图的面积才是相应区间
组距的频率.
4.回归分析是对具有相关关系的两个变量进行统计分析的方法,只有在散点图大致呈线性时,求出的线性回归方程才有实际意义,否则,求出的线性回归方程毫无意义.根据回归方程进行预报,仅是一个预报值,而不是真实发生的值.
一、选择题
1.(2017·全国Ⅰ卷)为评估一种农作物的种植效果,选了n块地作试验田.这n块地的亩产量(单位:kg)分别为x1,x2,…,xn,下面给出的指标中可以用来评估这种农作物亩产量稳定程度的是( )
A.x1,x2,…,xn的平均数 C.x1,x2,…,xn的最大值
B.x1,x2,…,xn的标准差 D.x1,x2,…,xn的中位数
2
解析 刻画评估这种农作物亩产量稳定程度的指标是标准差.
13
答案 B
2.采用系统抽样方法从960人中抽取32人做问卷调查,为此将他们随机编号为1,2,…,960,分组后在第一组采用简单随机抽样的方法抽到的号码为9.抽到的32人中,编号落入区间[1,450]的人做问卷A,编号落入区间[451,750]的人做问卷B,其余的人做问卷C.则抽到的人中,做问卷B的人数为( ) A.7
B.9
C.10
D.15
960750450
解析 抽取号码的间隔为=30,从而区间[451,750]包含的段数为-=10,则编
323030号落入区间[451,750]的人数为10人,即做问卷B的人数为10. 答案 C
3.(2017·全国Ⅲ卷)某城市为了解游客人数的变化规律,提高旅游服务质量,收集并整理了2014年1月至2016年12月期间月接待游客量(单位:万人)的数据,绘制了下面的折线图.
根据该折线图,下列结论错误的是( ) A.月接待游客量逐月增加 B.年接待游客量逐年增加
C.各年的月接待游客量高峰期大致在7,8月
D.各年1月至6月的月接待游客量相对于7月至12月,波动性更小,变化比较平稳 解析 由题图可知,2014年8月到9月的月接待游客量在减少,则A选项错误. 答案 A
4.(2018·北京燕博园质检)某超市从2017年甲、乙两种酸奶的日销售量(单位:箱)的数据中分别随机抽取100个,并按(0,10],(10,20],(20,30],(30,40],(40,50]分组,得到频率分布直方图如下:
14
记甲种酸奶与乙种酸奶的日销售量(单位:箱)的方差分别为s1,s2,则频率分布直方图(甲)中的a的值及s1与s2的大小关系分别是( ) A.a=0.015,s1 解析 由(0.020+0.010+0.030+a+0.025)×10=1,得a=0.015.根据频率分布直方图,乙中较稳定,则s1>s2. 答案 C 5.某省二线城市地铁正式开工建设,地铁时代的到来能否缓解该市的交通拥堵状况呢?某社团进行社会调查,得到的数据如下表: 2 2 2 2 2 2 2 2 2 2 2 2 2 2 认为能缓解交通拥堵 认为不能缓解交通拥堵 则下列结论正确的是( ) 男性市民 48 12 女性市民 30 20 n(ad-bc)2附:K= (a+b)(a+c)(b+d)(c+d) 2 P(K2≥k0) k0 0.05 3.841 0.010 6.635 0.005 7.879 0.001 10.828 A.有95%的把握认为“对能否缓解交通拥堵的认识与性别有关” B.有95%的把握认为“对能否缓解交通拥堵的认识与性别无关” C.有99%的把握认为“对能否缓解交通拥堵的认识与性别有关” D.有99%的把握认为“对能否缓解交通拥堵的认识与性别无关” 解析 由2×2列联表,可求K的观测值, (48+30+12+20)(20×48-12×30)k=≈5.288>3.841. (48+30)(48+12)(12+20)(30+20) 由统计表P(K≥3.841)=0.05,∴有95%的把握认为“能否缓解交通拥堵的认识与性别有 15 2 2 2 关”. 答案 A 二、填空题 6.(2018·泉州模拟)某厂在生产甲产品的过程中,产量x(吨)与生产能耗y(吨)的对应数据如表: x y ^ 30 25 40 35 ^ 50 40 60 45 根据最小二乘法求得回归方程为y=0.65x+a,当产量为80吨时,预计需要生产能耗为________吨. 解析 由题意,x=45,y=36.25,代入y=0.65x+a,可得a=7,∴当产量为80吨时,预计需要生产能耗为0.65×80+7=59. 答案 59 7.(2018·邯郸模拟)空气质量指数(Air Quality Index,简称AQI)是定量描述空气质量状况的指数,空气质量按照AQI大小分为六级,0~50为优;51~100为良;101~150为轻度污染;151~200为中度污染;201~300为重度污染;大于300为严重污染.从某地一环保人士某年的AQI记录数据中,随机抽取10个,用茎叶图记录如图.根据该统计数据,估计此地该年AQI大于100的天数约为________(该年为365天). 2解析 该样本中AQI大于100的频数是4,频率为, 52 由此估计该地全年AQI大于100的频率为, 52 估计此地该年AQI大于100的天数约为365×=146. 5答案 146 8.某高校调查了200名学生每周的自习时间(单位:小时),制成了如图所示的频率分布直方图,其中自习时间的范围是[17.5,30],样本数据分组为[17.5,20),[20,22.5),[22.5,25),[25,27.5),[27.5,30].根据直方图,这200名学生中每周的自习时间不少于22.5小时的人数是________. - - ^ ^ ^ 16 解析 设所求的人数为n,由频率分布直方图,自习时间不少于22.5小时的频率为(0.04+0.08+0.16)×2.5=0.7,∴n=0.7×200=140. 答案 140 三、解答题 9.(2018·全国Ⅰ卷)某家庭记录了未使用节水龙头50天的日用水量数据(单位:m)和使用了节水龙头50天的日用水量数据,得到频数分布表如下: 未使用节水龙头50天的日用水量频数分布表 [0.1,日用水量 [0,0.1) 0.2) 频数 1 3 0.3) 2 0.4) 4 0.5) 9 0.6) 26 0.7) 5 [0.2,[0.3,[0.4,[0.5,[0.6,3 使用了节水龙头50天的日用水量频数分布表 日用水量 频数 [0,0.1) [0.1,0.2) [0.2,0.3) [0.3,0.4) [0.4,0.5) [0.5,0.6) 1 5 13 10 16 5 (1)在下图中作出使用了节水龙头50天的日用水量数据的频率分布直方图: (2)估计该家庭使用节水龙头后,日用水量小于0.35(m)的概率; (3)估计该家庭使用节水龙头后,一年能节省多少水?(一年按365天计算,同一组中的数据以这组数据所在区间中点的值作代表). 解 (1)所求的频率分布直方图如下: 3 17 (2)由题可知用水量在[0.3,0.4]的频数为10,所以可估计在[0.3,0.35)的频数为5,故用243 水量小于0.35(m)的频数为1+5+13+5=24,其概率为P==0.48. 50(3)该家庭未使用节水龙头50天的日用水量的平均数为 - x1=(0.05×1+0.15×3+0.25×2+0.35×4+0.45×9+0.55×26+0.65×5)=0.48. 150 该家庭使用了节水龙头后50天的日用水量的平均数为 - x2=(0.05×1+0.15×5+0.25×13+0.35×10+0.45×16+0.55×5)=0.35. 3 150 估计使用节水龙头后,一年可节省水(0.48-0.35)×365=47.45(m). 10.某市春节期间7家超市的广告费支出xi(万元)和销售额yi(万元)数据如下: 超市 广告费支出xi 销售额yi A 1 19 B 2 32 C 4 40 D 6 44 E 11 52 F 13 53 G 19 54 (1)若用线性回归模型拟合y与x的关系,求y关于x的线性回归方程; (2)用对数回归模型拟合y与x的关系,可得回归方程y=12ln x+22,经计算得出线性回归模型和对数模型的R分别约为0.75和0.97,请用R说明选择哪个回归模型更合适,并用此模型预测A超市广告费支出为8万元时的销售额. n7 7 2 2 2 ^ ∑xiyi-n·x y^ -- ^ - ^ 参数数据及公式:x=8,y=42,∑xiyi=2 794,∑xi=708,b= i=1 i=1 -- i=1 n2 ∑xi-nxi=1 - ,a=y-b2 - x,ln 2≈0.7. - - 7 7 2 解 (1)∵x=8,y=42,∑xiyi=2 794,∑xi=708. i=1 i=1 18 n∑xiyi-n·x y∴b= ^ -- i=1 n2 ∑xi-nxi=1 -2 =2 794-7×8×42 =1.7, 2 708-7×8 因此a=y-bx=42-1.7×8=28.4. 所以,y关于x的线性回归方程是y=1.7x+28.4. (2)∵0.75<0.97, ∴对数回归模型更合适. 当x=8时,y=12ln 8+22=36ln 2+22=36×0.7+22=47.2(万元). ∴广告费支出8万元时,预测A超市销售额为47.2万元. 11.(2017·全国Ⅰ卷)为了监控某种零件的一条生产线的生产过程,检验员每隔30 min从该生产线上随机抽取一个零件,并测量其尺寸(单位:cm).下面是检验员在一天内依次抽取的16个零件的尺寸: 抽取次序 零件尺寸 抽取次序 零件尺寸 - ^ ^ ^-^- 1 9.95 9 10.26 16 2 10.12 10 9.91 3 9.96 11 10.13 16 4 9.96 12 10.02 5 10.01 13 9.22 6 9.92 14 10.04 16 7 9.98 15 10.05 8 10.04 16 9.95 1 经计算得x=∑xi=9.97,s= 16i=1 16 2 16 -12 ∑ (xi-x)=16i=1-122 (∑xi-16x)≈0.212,16i=1 ∑ (i-8.5)≈18.439,∑ (xi-x)(i-8.5)=-2.78,其中xi为抽取的第i个零件 i=1 i=1 - 的尺寸,i=1,2,…,16. (1)求(xi,i)(i=1,2,…,16)的相关系数r,并回答是否可以认为这一天生产的零件尺寸不随生产过程的进行而系统地变大或变小(若|r|<0.25,则可以认为零件的尺寸不随生产过程的进行而系统地变大或变小). (2)一天内抽检零件中,如果出现了尺寸在(x-3s,x+3s)之外的零件,就认为这条生产线在这一天的生产过程可能出现了异常情况,需对当天的生产过程进行检查. ①从这一天抽检的结果看,是否需对当天的生产过程进行检查? ②在(x-3s,x+3s)之外的数据称为离群值,试剔除离群值,估计这条生产线当天生产的零 19 - - - - 件尺寸的均值与标准差.(精确到0.01) n∑ (xi-x)(yi-y) 附:样本(xi,yi)(i=1,2,…,n)的相关系数r= i=1n-- ∑ (xi-x) i=1 - n2 ,0.008 - 2 ∑ (yi-y) i=1 ≈0.09. 解 (1)由样本数据得(xi,i)(i=1,2,…,16)的相关系数 16 ∑ (xi-x)(i-8.5) - r= i=116 ∑ (xi-x) i=1 - 16 2 ≈ 2 ∑ (i-8.5) i=1 ≈-0.18. 0.212×16×18.439 -2.78 由于|r|<0.25,因此可以认为这一天生产的零件尺寸不随生产过程的进行而系统地变大或变小. (2)①由于x=9.97,s≈0.212,由样本数据可以看出抽取的第13个零件的尺寸在(x-3s,x+3s)以外. 因此需对当天的生产过程进行检查. ②剔除离群值,即第13个数据,剩下数据的平均数为 1 (16×9.97-9.22)=10.02, 15 这条生产线当天生产的零件尺寸的均值的估计值为10.02. 16 - - - ∑xi≈16×0.212+16×9.97≈1 591.134, i=1 222 剔除第13个数据,剩下数据的样本方差为 122 (1 591.134-9.22-15×10.02)≈0.008, 15 这条生产线当天生产的零件尺寸的标准差的估计值为0.008≈0.09. 20
相关推荐: