需要说明的是,以上提到的计算Sample Size的方法是基于固定效应模型(Fixed Effect Model),即我们选取几个代表性的点数据作为自变量的水平。如SOA为10ms,20ms,50ms,80ms,100ms,如使用药的计量5mg,10mg,20mg。这种模型逻辑就是以数据点来推算自变量对因变量的影响关系(一般的期望是线性关系)。而另外一种模型叫随机效应模型(Random Effect Model)。在这种模型中,自变量的水平是在某个区间范围内随机产生的。如在模糊字辨认实验中,图片呈现时间在2ms到30ms之间随机决定,每一张图片在出现之前都不知道它将呈现多久。在这个模型中就有了新的变异来源,即产生自变量水平的随机过程中出现的误差。但这部分误差其实也是实验处理的一部分。
发现没,误差项被算到实验处理变异里了!这也就是进一步的随机分配(random assignment),不但被试被随机分配到实验组中,而且会接受自变量随机产生水平的处理。在随机效应模型中,实验的Power被进一步提高了。但由于很多问题无法被设计为随机模型,目前的应用还需心理学家对设计改进的努力。
p levels Design,CR-p)是非常容易做到的一个实验设计。实验者不许在设计上花太多的功夫,定义好自变量因变量,设计好比较,抓一批人随机分配过来做就行了。实验设计和模型清晰明了,结果的解释直截了当,又给予误差极大的自由度。为什么给误差大的自由度好呢?因为F检验的分母是误差项的均方,误差自由度大可以使误差均方变小(当然这句话不一定对,后面会提到)。
然而CR-p一直有个问题就是Power上不去。好比说你用60个被试随机分四组,Effect Size达到了0.4(这已经是大了),然后显著水平设为0.05,这时候实际Power只有0.7左右,这什么概念呢?就是有30%的概率,虚无假设是错的,但你把它错误接受。一般来说Power起码要达到0.8,对于CR-p来说,那只能增大被试量了。
在同等的实验条件下,我们需要把被试量增大到76人,才能保证这个实验的说服力。那么问题来了:招被试是上下嘴皮子一碰的事么?“我说李华啊,你明天下午来我们实验室来做个实验吧。”我们得在短期内找到16个第二天下午没事干,心情好,又愿意跑过来做实验的李华。真正做过实验的人都知道这有多痛苦。而且为了保证相同的实验条件,这绝对是件非常非常费力且让人崩溃的事情。
为了提高Power,心理学家们想了很多办法。最开始想的是“体制内改革”。比如说用强有力的自变量和敏感性高的因变量,比如说更加严格的控制实验过程减小误差项,比如说尽量使用同质的被试(悲催的心理系大二学生),比如说用等被试组设计。等这些方法都用上了,面对效应量比较大的实验还好说,可效应量小的实验,还是动不动就要用一百多两百的被试。费时间,费钱,然后还经常因为伦理问题,IRB不给批通过。
后来心理学家就想到了重新做实验设计,于是就有了随机区组设计(Randomized Block Design, RB-p)。Block这个词貌似中文确实翻译够烂,也不好找更好的一个词。反正在英语里大致是指被四条路围在中间的一个区域地盘。在实验设计中用这个词比喻还是比较恰当的,一个Block里的东西同质性比较强,出了Block就是我们常说的“差出一条街”去。我们就暂且是说一个Block是一坨吧(有点儿恶心但好理解)。
做RB-p设计有两种方式。一种叫匹配(match)。就是对被试的某一个个体差异进行初测,然后根据初测结果来随机分配被试进入Block中。好比说心理学家想了解新东方不同GRE课程学生GRE成绩的影响。预期授课效果将受到学生智商的影响,那么先给150个学生测智商,分为100以下智商一般组,100~120智商良好组,以及120以上智商优异组。学生数量比为3:4:3。新东方有三种GRE课程,长线班,强化班,长假冲刺班。那么就把测过智商的这群学生,根据智商水平,随机分配到三个班中,随机的同时,确保每个班中三种智商水平的学生数量比为3:4:3。上课,参加GRE考试,再看不同班的学生的GRE成绩差异。
另一种方式叫重复测量(repeated measures)。顾名思义就是在一个被试身上施用自变量的不同水平,看因变量的变化。这个最简单的例子就是查视力,翻译成火星语就是“字母形状大小属性对字母朝向判断正确率的影响”。让被试往那一站,然后用探针挨个指,让被试判断E或者C的方向,以测量被试在该距离能够看清的的最小字号。说到这里想起一个题外话:有些护士查视力喜欢从上往下挨个指,有的护士喜欢从下往上指,也有的护士喜欢依照历史记录从历史记录的位置开始指,然而对于同一个人,这三种测量方式可能会得到不同的视力结果。具体来说从上往下测能够测到的视力水平会偏高,而从下往上测会偏低。
相关推荐: