运行结果:
二、更灵活的应用:“(WHERE=(条件))”作为选项
同样的功能,WHERE语句作为选项,用起来更加灵活。语法: ( WHERE = (条件) ) 示例:
data gone;
set animals (WHERE = (Status = 'Extinct'));
data uncommon (WHERE = (Status IN ('Endangered', 'Threatened')));
set animals;
proc import datafile = 'c:\\MyRawData\\Wildlife.csv' out = animals (WHERE = (Class = 'Mammalia')) REPLACE;
proc print data = animals (WHERE = (Habitat='Riparian'));
proc export data = animals (WHERE = (Status='Threatened'))
outfile = 'c:\\MyRawData\\Wildlife.xls';
注意:set关键词表示从数据集animals中创建数据。
例6 山脉数据(C:\\MyRawData\\ Mountains.dat)包括名称、位置、高度:
读入数据,分别输出高度>6000, 以及位于美洲的山脉。 代码:
data tallpeaks (WHERE = (Height > 6000))
american (WHERE = (Continent CONTAINS ('America'))); infile 'c:\\MyRawData\\Mountains.dat';
input Name $1-14 Continent $15-28 Height; run;
proc print data = tallpeaks;
title 'Members of the Seven Summits above 6,000 Meters'; run;
proc print data = american;
title 'Members of the Seven Summits in the Americas'; run;
运行结果:
(三) IF与WHERE的区别
将数据集SASHELP.workers第10到15条观测中满足条件\的观测提取出来,生成新的数据集tmp。 代码1:
data tmp;
set SASHELP.workers(firstobs=10 obs=15); if ELECTRIC > 260; run;
proc print data = tmp; title 'IF Statement'; run;
运行结果(4条记录):
代码2:
data tmp;
set SASHELP.workers(firstobs=10 obs=15); where ELECTRIC > 260; run;
proc print data = tmp; title 'WHERE Statement'; run;
运行结果(6条记录):
上述两种方法为什么输出结果不一样?请注意IF语句和WHERE语句的区别:
(1)IF语句是面向“程序数据向量”(Program Data Vector)的,对当前PDV中的数据进行判断,满足条件时将其写入到外部数据集;WHERE语句也是面向PDV的,它使用于从外部数据源读数据到PDV之前进行判断,当满足条件时才被写入到PDV。显然一个在写入PDV之前,一个在写入PDV之后,两者是有差异的。
(2) 当没有数据集选项firstobs=10 obs=15时,IF语句和WHERE语句用法和结果相同,但有这两个选项时效果就不同了。有这两个选项,IF语句是从原数据集(或数据源)的观测记录进行计算个数,即从原数据集的第10个观测开始读入到PDV中,然后再判断是否满足IF条件,若满足则输出到外部数据集,直到原数据集的第15个观测结束(满足条件的只有4个)。而WHERE语句是在读入到PDV之前就进行判断的,所以这里的firstobs的意思是从使得满足WHERE条件的第10个观测开始,而不是原数据集的第10个观测开始,直到满足WHERE条件的第15个观测结束(共6个)。
相关推荐: