一、数据分析六步曲: 1. 明确分析目的和内容 2. 数据收集 3. 数据处理 4. 数据分析
5. 数据展现:能用图说明问题的,就不用表格,能用表格说明问题的,就不用文 字。 6. 报告撰写
几个常用指标或术语:
1. 平均数:我们在日常生活中提到的平均数,一般是指算术平均数,就是一组数据的算术平均值,即全部数据累加后除以数据个数。它的特点是将总体内各单位的数量差异抽象化。 2. 绝对数与相对数:绝对数是反映客观现象总体在一定时间、地点条件下的总规模、总水平的综合性指标,也可以表现为在一定时间、地点条件下数量的增减变化。相对数是指由两个有联系的指标对比计算而得到的数值,它是用以反映客观现象之间数量联系程度的综合性指标。
相对数=比较数值(比数)/基础数值(基数)
分母是用做对比标准的指标数值,简称基数;分子是用做与基数对比的指标数值,简称比数。
3. 百分比与百分点:百分比是相对数中的一种,它表示一个数是另一个数的百分之几,也称百分率或百分数。百分点是指不同时期以百分数的形式表示的相对指标的变动幅度。
4. 频数与频率:频数是指一组数据中个别数据重复出现的次数。频率是每组类别次数与总次数的比值,它代表某类别在总体中出现的频繁程度,一般采用百分数表示,所有组的频率加总等于100%。所以频数是绝对数,频率是相对数。
5. 比例与比率:比例与比率都属于相对数。比例是指在总体中各部分的数值占全部数值的比重,通常反映总体的构成和结构。比率是指不同类别数值的对比,它反映的不是部分与整体之间的关系,而是一个整体中各部分之间的关系。
6. 倍数与番数:倍数与番数同样属于相对数,但使用时容易混淆。倍数是一个数除以另一个数所得的商。需要注意的是,倍数一般是表示数量的增长或上升幅度,而不适用于表示数量的减少或下降。番数是指原来数量的2的N次方倍。
7. 同比与环比:同比是指与历史同时期进行比较得到的数值,该指标主要反映的是事物发展的相对情况,例如2010年12月与2009年12月相比。环比是指与前一个统计期进行比较得到的数值,该指标主要反映的是事物逐期发展的情况,例如2010年12月与2010年11月相比。 二、
数据准备
2.1理解数据
2.1.1字段与记录
字段:字段是事物或现象的某种特征。比如成绩表中的“学号”“姓名”“总分”等都是字段,在统计学中称为变量。
记录:记录是事物或现象某种特征的具体表现。比如成绩表中的“性别”可以是男或女,“总分”可以是273或者230等,记录也称为数据或变量值。
2.1.2数据类型
在Excel中用单元格格式查看所有的数据类型,操作步骤如下:
选择Excel中的任意一个单元格,单击鼠标右键,在弹出的菜单中选择“设置单元格格式”,会出现“设置单元格格式”对话框,在这个对话框中,可以看到各种不同的数据类型,比如:数值、文本、日期、货币、会计专用、时间、百分比、分数、科学计数、特殊等。 Excel中虽然有这么多数据类型,但最终都可以归结为以下两大类。 字符型数据:字符型数据是不具计算能力的文字数据类型。
数值型数据:数值型数据是直接使用自然数或度量单位进行计量的数值数据。
2.1.3数据表
数据分析所需要的数据表(由字段、记录和数据类型构成),也是有一定要求的,具体如下: 序号 1 2 3
要求
数据表由标题行和数据部分组成
第一行是表的列标题(字段后),列标题不能重复
第二行起是数据部分,数据部分的每一行数据称为一个记录,并且数据部分不允许空白
行和空白列
4 5 6
数据表中不能有合并单元格存在
数据表与其他数据之间应该留出至少一个空白行和一个空白列
数据表需要以一维的形式存储,但是在实际操作中接触的数据往往是以二维表格的形式
存在的,此时应将二维表转化为一维表的形式储存数据
注:一维表的列标签是字段,二维表的列标签是数据,这里的“维”指的是分析数据的角度。 怎样操作才可以将二维表转化为一维表?介绍如何使用数据分析工具时会讲到。
2.1.4问卷录入
数值题:数值题一般要求被调查者填入相应的数值,或者打分。录入人员只需输入被调查者十几天入的数值即可。
单选题:单选题的特征就是答案只能有一个选项,所以编码时,只需要定义一个变量,即给该题留一列进行数据的录入。
多选题:多选题的特征是答案可以有多个选项,其中又分为项数不定多选和项数限定多选。多选题的录入有两种方式:二分法和多重分类法。
二分法:把每一个相应选项定义为一个变量,每一个变量值均做如下定义:“0”代表未选,“1”代表已选;
多重分类法:事先定义录入的数值,比如1、2、3、4、5、6、7分别代表选项A、B、C、D、E、F、G,并且根据限选的项数确定应录入的变量个数。例如示例问卷第25题限选3项,那么需要设立3个变量,被调查者在该题选ACF,则这3个变量的值分别为1、3、6。
相关推荐: