层结构及马太效应,我们对第一作者省区与非第一作者省区在科学合作中的地位加以区分。此外,还有两种方法论方面的考虑。一种考虑是,构建跨省区科学合作的期望值矩阵,以便与观察值矩阵进行比较,并进一步得到观察值与期望值的比例矩阵,从而消除省区科学研究规模(size)的差异对计量两省区间科学合作倾向的影响。另一种考虑是,在分析地域接近对跨省区合作的影响时,用定量的方法考察省区间距离与省区合作强度的相关性,并选择省区接壤作为地域接近的典型进行分析。
省区间的距离和接壤关系可以从地图上直接获得。接下来的关键问题是如何构建期望值矩阵。科学计量学家在研究科学合作问题时曾创造了不同的计算期望值的方法,例如文献11与文献12中提到的方法。但是,这些方法都是不考虑第一作者与非第一作者顺序时使用的方法,因而并不适用于我们的案例分析。我们必须创造新的方法。
考虑到在跨省区合作的论文中,第一作者的位置是唯一的,因而第一作者省区也是唯一的。而当合作人数多于2人时,非第一作者省区却可能不唯一,从而可以得到不止一种第一作者省区与非第一作者省区的合作关系,前边已经给出过这方面的例子。第一作者省区的唯一性是我们所给出的计算期望值公式的基础。 令x[,i]是观察值矩阵A中第i行各元素之和,y[,j]是第j列元素之和。
实际上,x[,i]就是科学生产能力排序第i位的省区作为第一作者省区,与其他30省区分别作为非第一作者省区的总的合作频度。y[,j]是科学生产能力排序第j位的省区作为非第一作者省区与其他30省区分别作为第一作者省区的总的合作频度。
记与观察值矩阵A对应的期望值矩阵为B,B的元素为X[,ij],则 附图
公式(Ⅰ)中,附图表示的是,j省区作为非第一作者省区的合作频度占全国除i省区外非第一作者合作总频度的份额。之所以将i省区排除在外,是因为我们仅考察跨省区合作的期望值分布,故而,与观察值矩阵一样,期望值矩阵中对角线元素也是空的。附图在公式(Ⅰ)中起到x[,i]的分配系数作用。也就是说,将i省区作为第一作者省区的全部跨省区合作论文x[,i],按照其余各省区占全国(i省区除外)非第一作者省区总合作频度的份额重新进行匹配。因此由公式(Ⅰ)得到的X[,ij],是基于各省区在全国跨省区合作中作为第一作者省区的总体实力,和作为非第一作者省区的总体实力的重新匹配,是具有统计学意义的期望值。可以证明,期望值矩阵的总频度与观察值矩阵的总频度相等,也是9605。这表明我们计算期望值矩阵元素的公式(Ⅰ)是符合统计学原理的。
以期望值矩阵B为基础,用构建观察值矩阵A[*]的同样方法,可以构建期望值矩阵B[*]。在B[*]中,元素X[ij,*]和X[ji,*]关于对角线对称,省区间的合作没有第一作者省区与非第一作者省区之分。(因篇幅所限,矩阵B与B[*]略)
令r[ij,*]=x[ij,*]/X[ij,*],构建与矩阵A[*]、B[*]相关的观察值与期望值的比例矩阵,记为R[*]。比例矩阵R[*]是我们对矩阵A[*]中的观察值与矩阵B[*]中相应的期望值一一比较的结果。当观察值大于期望值时,r[ij,*]>1;当期望值大于观察值时,r[ij,*]<1。r[ij,*]越大,表示i省区与j省区的合作倾向越强,或说合作越密切。(因篇幅所限,矩阵R[*]略)矩阵R[*]在本文中主要用于考察省区接壤与省区合作密切程度的关系。
三、分析与结果 1.跨省区合作的频度分布
在表1中,我们将31省区依照科学产出能力分为3组。第一组包括科学产出能力最高的10个省区(后文简称高产省区),第二组包括科学产出能力居中的10个省区(中产省区),第三组为科学产出排序后列的11个省区(低产省区)。从表1中可以得到各省区科学产出与科学合作频度分布的一些特征。
总的看来,无论是省区内论文,还是省区间合作的第一作者论文,都相对集中于10个高产省区。高产省区的省区内论文高达40644篇,占31省区全部省区内论文的71.66%;其省区间合作的第一作者论文为8248篇,占31省区全部省区间合作论文的68.59%;10个高产省区的全部论文数为48892篇,占31省区全部论文的71.12%。
有两点值得注意的地方。
第一点,随着省区科学生产能力从第一组到第三组的逐步降低,跨省区合作的第一作者论文占该省区全部论文的比例反而逐步提高,从第一组的平均16.9%上升到第三组的平均25.3%,表明低产省区参与省区间合作的比例远远高于高产省区的相应比例。这一现象似乎反常,其实并不奇怪。A.Schubert和T.Braun在分析167个国家论文总数与跨国合作论文数之比的时候,已描述过类似现象。[10]T.Luukkonen等人在研究97国的科学生产能力与跨国合作比例时也揭示了类似规律。[13]按照Schubert和Braun的解释,导致这一现象的原因很简单:科学生产能力强的大国很容易从本国找到合作伙伴,而小国只好到国外寻找合作者了。这种解释应该说也适用于对我国跨省区科学合作发生原因的分析。但是,其他一些因素的影响也决不能忽略,诸如由科技发展的区域差异和科技资源配置的不均衡性所形成的科技人力、资金、信息、设备等“引力中心”对科研力量的吸引作用,和对科学合作的导向作用等。
第二点,当省区间第一作者合作论文占省区全部论文的比例从第一组到第三组逐步攀升时,作为第一作者省区的合作频度与作为非第一作者省区的合作频度之比反而下降了,从1.05下降到0.88。这一现象很少有文献提及,但分明是马太效应在起作用。本文将对这一现象作较深入的剖析。 2.省区科学生产能力与跨省区科学合作的关系——跨省区合作中是否存在马太效应
马太效应是一种优势累积效应,即成功产生成功的效应。马太效应是科学共同体内部运行机制的组成部分。与马太效应相关的另一种效应是波敦克效应。波敦克效应常用来解释科学家们在机构分层体系中的劣势。这种效应表明,在声望较低的机构或处于边远地区的机构任职,往往得不到应有的承认。[14]我们将通过分析省区科学生产能力与跨省区科学合作的关系,来判别中国跨省区合作中是否存在马太效应和波敦克效应。
首先,我们定义一个新概念——合作类型。我们将由高产、中产、低产三个组交叉形成的合作关系的总和称作合作类型。例如,高产省区与中产省区合作称为高产-中产合作类型,低产省区与低产省区合作称为低产-低产合作类型。
从矩阵A[*]、B[*]可以计算出当不考虑作者排名顺序时每种合作类型的观察值、期望值及观察值与期望值的比值。某种合作类型的观察值(期望值)等于该类型中各个合作关系的观察值(期望值)之和。表3列出每种合作类型的观察值、期望值及观察值与期望值的比值。观察值与期望值的比值表示的是具有不同科学生产能力的省区之间科学合作的倾向。比值大于1表示合作倾向较强,比值小于1表示合作倾向较弱。从表3中可以清晰地看到,中产省区和低产省区都倾向于与高产省区合作,观察值与期望值之比分别为1.040、1.033;低产省区和中产省区之间及其各自内部合作倾向性差,观察值与期望值之比分别为0.800、0.882和0.832;高产省区之间的合作几乎没有任何倾向性,该比值为1.003。 表3 各种合作类型的观察值、期望值及比值
1-10 11-20 21-31 观察值 3875 3755 1080 1-10 期望值 3862 3610 1045 比值 1.003 1.040 1.033 观察值 525 325 11-20 期望值 631 406 比值 0.832 0.800 观察值 45 21-31 期望值 51 比值 0.882
表3从描述不同科学生产能力省区间的合作倾向的角度,揭示出高产省区在科学合作中的有利地位。表4则从不同科学生产能力省区的作者在科学合作中的排名顺序考察各类省区在合作中所处位置的相对优劣。这里,我们认定第一作者省区为相对主动和具有相对优势的一方。
表4借助对角线形成了12种合作类型,两两关于对角线对称,如高产-低产和低产-高产对称,中产-低产和低产-中产对称等。在对角线以上部分的各种类型的科学合作中,第一作者省区比非第一作者省区的科学生产能力强,如高产-中产、高产-低产、中产-低产等类型的合作。即使是两个高产(中产、低产)省区的合作,第一作者省区论文总数排序也居非第一作者省区之前。对角线以下部分的科学合作类型则正好相反,第一作者省区比非第一作者省区的科学生产能力弱。
表4是这样构造的。以表2为基础,比较表2中每一对x[,ij]和x[,ji]的大小。如果x[,ij]>x[,ji],含x[,ij]的类型得一分,它意味着在由i省区和j省区合作的全部论文中,i省区的第一作者论文比j省区的多。反之,含x[,ji]的类型得一分。如果x[,ij]=x[,ji],两种类型均不得分。表4中,除低产省区与低产省区合作的两种类型得分相同外,对角线以上其他5种类型的积分均大于对角线以下对应类型的积分。从总体上看,对角线以上6种类型的总计得分为201,对角线以下6种类型总计得分为150。二者的比值为4:3。这就是说,在跨省区科学合作中,相对高产的省区成为第一作者省区的机会要远远大于相对低产的省区。后者在跨省区科学合作中处于劣势地位。
表4 关于对角线对称的两种合作类型合作频度观察值的比较 附图
以上分析告诉我们,我国省区间的科学合作中确实存在马太效应与波敦克效应:从科学合作的机会来看,低产省区和中产省区都倾向于寻找高产省区作为合作伙伴;从科学合作双方作者署名的顺序来看,科学生产能力较高的省区的科技工作者成为第一作者的几率远远大于科学生产能力较低的省区的科技工作者。 3.地理接近对跨省区科学合作的影响
用定量方法研究地理接近对科学合作影响的文献很少。J.S.Katz曾考察了加拿大、澳大利亚和英国大学合作频度与大学间距离的关系。他发现,一个国家内部大学间的合作频度随大学间空间距离的增大呈指数型降低。[15]
受Katz所用模型的启发,我们也尝试对地理接近与省区间科学合作的影响给出量化描述。Katz将两所大学之间的距离定义为两所大学所在城市之间的直线距离,我们则定义两省区省会之间的直线距离为两省区之间的距离。考虑到Katz模型选用大学间合作的绝对频次作为合作关系的度量存在一些缺陷,即无法排除不同省区科学产出规模对合作关系的影响,我们选择了一种新的指标——合作强度作为省区间合作关系的度量。
G.Salton曾给出了合作强度的计量公式[16],这一公式在提出之后的近20年中已被学者多次采用。设n[,i]、n[,j]分别是i省区与j省区的论文总数,n[,ij]是i省区与j省区合作的论文数,则i省区与j省区的合作强度为s[,ij]=n[,ij]/(n[,i]n[,j])[1/2]。图1描绘出省区间合作强度与省区间距离的相关变化,但这种描绘不是对31省区两两之间的465个合作强度和465个距离相关性的直接展示,而是对计量样本分组进行计算,以使结果更简明。具体做法是,依大小对465个省区间距离排序,并以40个为一组进行分组(最后一组为25个),共得到12组。求出每组40(25)个距离数据的平均值,以此作为横坐标x。纵坐标y是与每组40(25)个省区间距离对应的40(25)对省区的合作强度的平均值。在双对数坐标系中点列(logx,logy)成线性排布,回归方程为logy=0.3353-0.8175logx,即y=2.1642[-0.8175,x]。统计检验值R[2]=0.9662。这表明,省区间的平均合作强度随省区间直线距离的增大而降低,呈负幂分布。 附图
图1 省区间平均合作强度与省区间直线距离的相关性
此外,我们还选择了一种新的视角,着重考察了省区接壤对省区科学合作的影响。
在前述观察值矩阵A[*]中可以找出与每个省区合作频度最高的2个省区。将这些省区列入表5左栏。其中,带+号的是选定省区的接壤省区。对接壤解释的1个特例是,将隔海相望的广东和海南视为接壤省区。 表5左栏仅列出30个省区的最紧密合作伙伴,北京被排除在外。因为,作为首都,北京是科学与文化中心,也是全国大学和研究机构最集中的地方。北京科学成果的数量与其他省区科学成果的数量不属于同一数量级。例如,1999年北京被CSCD收录的论文占当年全国CSCD论文的21.1%,是排序第2位的上海的2.14倍。从科学合作的观察值来看,北京分别是全国27个省区的最紧密的科学合作伙伴。如果将北京包含在该项考察的范围中,我们将无法剥离出地域接近对跨区合作的影响。
表5左栏显示,在30个省区的60个最密切的合作伙伴中,接壤省区为35个,占58.3%。特别是,当仅考虑每一省区的第一合作伙伴时,30个省区的30个第一合作伙伴中有24个为接壤省区,比例高达80%。 基于观察值与期望值的比例矩阵R[*],可作类似考察。我们认定,观察值与期望值的比值r[ij,*]越大,两省区的合作关系越紧密。从R[*]中选出每一省区合作关系最紧密的两个伙伴,共计62个省区,列入表5右栏。依然将接壤省区标注+号。此处,北京也被考虑在内。因为在比例矩阵R[*]中,北京不再显示优势地位。62个省区中有43个省区为接壤省区,占69.4%。如果仅考虑每一省区的第一合作伙伴,31个省区的31个第一合作伙伴中有25个为接壤省区,比例高达80.6%。 表5 省区接壤与省区合作密切程度的关系
在观察值矩阵A[*]中 在观察值/期望值矩阵R[*]中 序号 省区 合作频度 合作频度 比值r[ij,*] 比值r[ij,*]居 最高的省区 次高的省区 最大的省区第二位的省区 1 北京 - - 青海 河北[+] 2 上海 江苏[+] 浙江[+] 浙江[+] 江苏[+] 3 江苏 上海[+] 安徽[+] 安徽[+] 西藏 4 广东 湖北 上海 海南[+] 广西[+] 5 湖北 广东 江苏 河南[+] 湖南[+] 6 陕西 上海 广东 宁夏[+] 青海 7 山东 上海[+] 江苏[+] 天津 上海 8 四川 重庆[+] 陕西[+] 重庆[+] 西藏[+] 9 辽宁 吉林[+] 上海 吉林[+] 黑龙江 10 浙江 上海[+] 江苏[+] 上海[+] 福建[+] 11 吉林 辽宁[+] 黑龙江[+] 黑龙江[+] 辽宁[+] 12 湖南 广东[+] 湖北[+] 广西[+] 江西[+] 13 天津 山东 河北[+] 河北[+] 山东 14 安徽 江苏[+] 上海 江苏[+] 上海 15 黑龙江 吉林[+] 辽宁 吉林[+] 内蒙古[+] 16 福建 江苏 上海 海南 江西[+] 17 重庆 四川[+] 广东 四川[+] 西藏 18 甘肃 陕西[+] 广东 青海[+] 新疆[+] 19 河北 天津[+] 黑龙江 天津[+] 黑龙江 20 河南 湖北[+] 陕西[+] 湖北[+] 陕西[+] 21 山西 陕西[+] 上海 宁夏 陕西[+] 22 云南 四川[+] 广东 四川[+] 西藏[+] 23 广西 广东[+] 湖南[+] 广东[+] 湖南[+]
相关推荐: