50. 优化目标程序的指标主要有两个:一个是 ,另一个是、 。
51. 是RISC思想的精华。
52. 并行存储器产生访问冲突的根源主要有两个,一个是 ,另一个
是 。
53. 存储器的性能通常用 、 、 三个主要指标来表示。 54. 先行控制技术的关键是 和 。
55. 根据计算机的不同侧面特征可以将计算机作各种不同的分类,课本上介绍的三种分类法分别
是: , , 。 56. 虚拟存储器中有三种地址空间,它们分别
是: , , 。
57. 提高向量处理机性能的常用技术可以有: 、 、 和 。 计算题
1、 设向量长度均为64,在CRAY-1机上所用浮点功能部件的执行时间分别为:相加6拍,相乘7拍,求倒数近似值14拍;从存储器读数6拍,打入寄存器及启动功能部件各1拍,问下列各指令组,组内的哪些指令可以链接?哪些指令不可链接?不能链接的原因是什么:分别计算出各指令组全部完成所需要的拍数
1) V0←存储器
V1←V2+V3 V4←V5*V6
(2) V2←V0*V1
V3←存储器 V4←V2+V3
(3) V0←存储器
V2←V0*V1 V3←V2+V0 V5←V3+V4
(4) V0←存储器
V1←1/V0 V3←V1*V2 V5←V3+V4
2、 一个采用位选择组相联映像方式的Cache,要求Cache的每一块在一个主存周期内取得,主存采用4个存储体的地位交叉方式访问,每个存储题的字长为4个字节,总容量为1MB,Cache的容量为1KB,每一组内有4块,采用按地址访问存储器构成相联目录表,实现主存地址到Cache地址的变换,采用个相联比较电路,请设计主存地址格式和Cache地址格式,并分别标出各字段的长度。
3、 用一条5功能段的浮点加法器流水线计算F=A1+A2+A3+A4+A5+A6+A7+A8+A9+A10,每个功能段的延迟时间都相等,流水线的输出端和输入端之间有直接数据通路,在流水线的输出端设置有足够缓冲寄存器,要求用尽可能短的时间完成任务,画出流水线时空图,表明每一条指令实际目的,计算流水线的实际吞吐率、加速比、效率。
3、在一个4段的流水线处理机上需7拍才能完成一个任务。其预留表见下表。 (1) 分别写出流水线的禁止向量F、初始冲突向量C; (2) 画出调度流水线的状态图;
(3) 列出状态途中所有的启动循环及平均间隔的拍数。
(4) 从(3)中列出的启动循环中,求流水线的最小启动循环和最小平均启动距离。
时间 1 S1 × S2 S3 S4 2 × 3 × 4 × 5 × 6 × 7 × 功能段 4、某工作站采用时钟频率为15MHZ、处理速率为10MIPS的处理机来执行一个已知的混合程序。假定每次存储器存取为1个周期延迟,试问: 1)此计算机的有效CPI是多少?
2)假定将处理机的时钟提高到30MHZ,但存储器子系统速率不变。这样,每次存储器存取需要两个时钟
周期。如果30%指令每条只需要一次存储器存取,而另外10%每条需要两个存储存取,还假定已知混合程序的指令数不变,并与原工作站兼容,试求改进后的处理机性能。
1、某虚拟存储器系统采用页式内存管理,使用LRU页面替换算法,考虑下面的页面访问地址流(每次访
问在一个时间单位中完成)1 8 1 7 8 2 7 2 1 8 3 8 2 1 3 1 7 1 3 7,假定内存容量为4个页面,开始时是空的,画出起运行时空图并计算其页面失效次数(10’) 2、1台向量计算机1次只能以下述两种执行方式中的一种运行:一种是向量方式,执行速度Rv为
10MFLOPS;另一种是标量方式,执行速度Rs为1MFLOPS。设α是该计算机的典型程序代码中可向量化部分的百分比。(10’)
(a)推导出该计算机平均执行速度R的公式
(b)要使R达到7.5MFLOPS,问向量化百分比α应多大?
(c)假设Rs=1MFLOPS,α=0.7,要使R达到2MFLOPS,问Rv应为多大?
3、考虑一个如图所示的4级加法流水线,其中X和Y为流水线输入线,Z为输出线。流水线输出端有一
个寄存器R,他用来暂时存储中间结果并且在适当时刻反馈带S1。输入X和Y分别与输出R,Z经相应多路开关接到S1和2个输入端。假设向量A的所有元素以每个周期一个元素速率,通过输入端送入流水线。约定无操作数输入,就认为是将1个0值送入,而且流水线的设置时间可以忽略不计。如果需要计算N个元素的向量累加和,画出其时空图并计算其最少需要多少个时钟周期? 1、堆栈型替换算法: 2、Flynn分类法:
3、Cache一致性问题主要由哪些可能的因素有
1、 超标量机、超流水线机、超标量超流水线机都能开发指令级的并行性。假设这3种机器的流水线都为
4段,每段均为1个时钟周期。还假设超标量处理机每个时钟周期可同时启动3条指令,超流水线机每隔1/3个时钟周期启动一条指令,超标量超流水线机每次启动3条指令,每隔1/3个时钟周期启动一次指令。现有9条指令的代码序列,问这3种机器各需要多少个时钟周期才能执行完毕,求各流水线的效率。画出时空图。
2.某工作站采用时钟频率f为15MHz,处理速率为10MIPS的处理机来执行一个已知混合程序。假定每次存储器存取为1周期延迟。如果假定将处理机的时钟频率f提高到30MHz,但存储器子系统速率不变。这样,每次存储器存取需要两个时钟周期,如果30%指令每条只需要一次存储存取,而另外5%每条需要两次存储存取,还假定已知混合程序的指令数不变,并与原工作站兼容,试求改进后的处理机性能。
1. 在同一处理机内部提供如下两种浮点数格式:
格式一:IBM单精度浮点数标准
1位 S 符号
基值re=2。
格式二:IEEE754单精度浮点数标准
1位 S 符号
8位 E 阶码
2进制23位 M 尾数
7位 E
阶码
16进制6位 M 尾数
关?
尾数用原码、小数表示,阶码用移码、整数表示。尾数的基值rm=16,长度为6位,没有隐藏位,阶码的
尾数用原码,小数表示,阶码用移-127码,整数表示,即阶码的0~255分别表示阶码的真值-127~+128。尾数用一位符号位、23位小数和一位隐藏的整数共25位表示,基值rm=re=2。 (1)、把十进制数0.2分别表示成IBM单精度浮点数和IEEE754单精度浮点数。
(2)、相反地,要把一个IEEE754单精度浮点数转换成同样数值的IBM单精度浮点数,请写
出转换规则。
如果某计算机系统有3个部件可以改进,则这三个部件经改进后的加速比分别为:S1=30,S2=20,S3=10。 (1)如果部件1和部件2改进前的执行时间占整个系统执行时间的比例都为30%,那么,部件3改进前的执行时间占整个系统执行时间的比例为多少,才能使3个部件都改进后的整个系统的加速比Sn达到10? (2)如果3个部件改进前执行时间占整个系统执行时间的比例分别为30%、30%和20%,那么,3个部件都改进后系统的加速比是多少?未改进部件执行时间在改进后的系统执行时间中占的比例是多少? 在页式虚拟存储器中,一个程序由P1~P6共6个页面组成,系统分配给这个程序的主存只有4个页面。在程序开始执行之前,P1至P4已经装入主存。程序执行过程中依次访问到的页面如下:P1,P2,P3,P4,P5,P3,P6,P5,P2,P1,P5,P2,P4,P1。采用LRU页面替换算法对这4页主存进行调度。 (1)画出主存页面替换和命中的情况表。 (2)计算两种页面替换算法的页命中率。
(3)假设每个数据平均被访问10次,采用LRU页面替换算法,为了使页面失效率小于10-5,计算页面大小至少应该为多少?
有一个4段流水线,如下图所示:S1S2S3S4,其中,段S1和S3的
执行时间均为200ns,段S2和S4的执行时间均为100ns。
(1)分别使用公式和时空图求连续流入4条指令的实际吞吐率和效率。
(2)若瓶颈段S1可使用细分方法改造,瓶颈段S3可使用并联方法改造,对改造后的流水线,分别使用公式和时空图求连续流入4条指令的实际吞吐率和效率
设向量长度均为64,在CRAY-1机上所用浮点功能部件的执行时间分别为:相加6拍,相乘7拍,求倒数近似值14拍;从存储器读数6拍,打入寄存器及启动功能部件各1拍,问下列各指令组,组内的哪些指令可以链接?哪些指令不可链接?不能链接的原因是什么:分别计算出各指令组全部完成所需要的拍数。
(1) V0←存储器
V1←V2+V3 V4←V5*V6
(2) V2←V0*V1
V3←存储器 V4←V2+V3
(3) V0←存储器
V2←V0*V1 V3←V2+V0 V5←V3+V4
(4) V0←存储器
V1←1/V0 V3←V1*V2 V5←V3+V4
用一个N=8的三级Omega网络连接8个处理机(P0~P7),8个处理机连接Omega网络8个输入及8个输出端顺序均为0~7。现画出Omega网络开关状态图,同时实现P6把数据播数给P0~P4,P3把数据播数给P5~P7。
已知某单功能非线性流水线的预约表如下(每个功能段的延迟时间都相等△t),要求:
时间t 段S S1 S2 S3 S4 (1)列出禁止表F和冲突向量C。
(2)画出该流水线状态图,确定其最小平均延迟以及此时的调度方案? (3)当按此流水调度方案共输入8个任务时,则其实际吞吐率是多少?
阵列机有0~7共8个处理单元互连,要求按(0,5),(1,4),(2,7),(3,6)配对通信。 (1)写出实现此功能的互连函数的一般式。
t1 t2 t3 t4 t5 t6 × × × × × × (2)画出用3级立方网络实现该互连函数的互连网络拓扑结构图,并标出各控制开关状态。
8、1台向量计算机1次只能以下述两种执行方式中的一种运行:一种是向量方式,执行速度Rv为10MFLOPS;另一种是标量方式,执行速度Rs为1MFLOPS。设α是该计算机的典型程序代码中可向量化部分的百分比。
(a)推导出该计算机平均执行速度R的公式
(b)要使R达到7.5MFLOPS,问向量化百分比α应多大?
(c)假设Rs=1MFLOPS,α=0.7,要使R达到2MFLOPS,问Rv应为多大? 参考答案:
(a)
(b)R=7.5,则,α=0.963
(c),
则MFLOPS
9、一台模型机共有7条指令,各指令的使用频率分别为45%,30%,15%,5%,3%,1%和1%,要求操作码的平均长度最短(操作码的位数为整数)。
(1)请设计操作码的编码,并计算所设计操作码的平均长度。
(2)如果采用3位固定编码,与你设计的编码相比,信息冗余量为多少? 参考答案:
(1)1.97(2)34%
10、 某虚拟存储器的用户编程空间共32个页面,每页1KB,主存为16KB.假定某时刻该用户页表中已调入主存的页面的虚页号和物理页号对照表如下,求虚地址0A5CH,1A5CH对应的物理地址.
虚页号 0 1 2 8 参考答案:
由虚空间为32KB,实空间为16KB,每页为1KB可得以下地址空间分配表: 0页:0000H——03FFH 1页:0400H——07FFH 2页:0800H——0BFFH 3页:0C00H——0FFFH 4页:1000H——13FFH 5页:1400H——17FFH
6页:1800H——1BFFH ---------------------------------- 3 2页:7C00H——7FFFH 由上可以看出0A5C在虚空间的第2页,查表得物理页号为4,实地址空间为1000H——13FFH,第4页与第2页空间差距为2KB,故得物理地址:0A5CH+0800H=125CH。同理可求得1A5CH在虚空间第6页,查表出现页面失效。
11、 考虑一个如图所示的4级加法流水线,其中X和Y为流水线输入线,Z为输出线。流水线输出端有一个寄存器R,他用来暂时存储中间结果并且在适当时刻反馈带S1。输入X和Y分别与输出R,Z经相应多路开关接到S1和2个输入端。假设向量A的所有元素以每个周期一个元素速率,通过输入端送入流水线。如果需要计算N个元素的向量累加和,则最少需要多少个时钟周期?约定无操作数输入,就认为是将1个
物理页号 5 10 4 7
相关推荐: