控制/MCU
高速缓存作为中央处理器 (CPU) 与主存之间的小规模快速存储器,解决了两者数据处理速度的平衡和匹配问题,有助于提高系统整体性能。多处理器 (SMP) 支持共享和私有数据的缓存,Cache 一致性协议用于维护由于多个处理器共享数据引发的多处理器数据一致性问题。论述了一个适用于64位多核处理器的共享缓存设计,包括如何实现多处理器缓存一致性及其全定制后端实现。
本文介绍了一种共享高速存储器模块的设计。该高速存储器能够实现多核处理器间的数据交换,同时占用较小的威廉希尔官方网站 面积。相比传统的多核处理器数据交换方式,本设计可以更好地提升系统性能。是一种有市场竞争力的威廉希尔官方网站 设计结构;
1.1 总体考虑
在多核 CPU中共享高速缓存主要负责缓存多个处理器核的数据,处理访问这些数据的缺失请求并向 DRAM 控制器发送请求以获得 DRAM 返回的数据。共享高速缓存通过交叉开关总线与各个处理器核互连,通过交叉开关总线转发通信数据包进行数据通信。共享高速缓存分为四个缓存组,每个缓存组采用组相联地址映射。每个处理核心都可以发送数据包到任意一个缓存组,同数据包也可以反方向发送从任意一个缓存组到任意一个处理核心。
共享缓存采用四路组相联映射,将缓存分1024 组。缓存块的物理地址分为3部分,包括标签块、索引块以及块内偏移。索引部分用于确定缓存块所在的组。通过比较物理地址的标签块和所选中组内的四路标签,可以确定访问的命中或者缺失。在命中时,比较的结果作为路选择向量发往数据阵列。缓存通过路选择向量和组选择向量确定
1.2 缓存一致性
对称式共享存储器多处理器系统中多处理器2高速缓存子系统共享同一个物理存储器,通过总线连接,对于所有的处理器访问存储器的时间一致,即均匀存储访问 (UMA)。对称式共享存储器系统支持共享和私有数据的缓存。私有数据被单个处理器使用,而共享数据则被多个处理器使用,通过读写共享数据完成处理器之间的通信。共享数据在多个缓存中形成副本,减少了访问时延、降低了对存储器带宽的要求并减少多个处理器读取共享数据时的竞争现象。然而,共享数据带来了缓存一致性问题,实现缓存一致性关键在于跟踪所有共享数据块的状态。目前为了实现缓存一致性而广泛采用的有目录式以及监听式这两种协议。该设计采用目录式缓存一致性协议 ,把物理存储器的共享状态放在目录表中,根据目录跟踪哪一个以及缓存拥有二级缓存块的副本。一级缓存是写直达的,只有无效信息被要求,共享缓存是写回的,数据总可以从共享缓存中重新得到。为减少目录的开销,将目录放在缓存中而不是存储器中。
当一个块还未被缓存有 2 种可能的目录请求:
1) 读缺失:共享缓存向发出请求的处理器送回所要求的数据,发送请求的节点成为唯一的共享节点。块的状态设为共享。
2) 写缺失:向发出请求的处理器送回数据并使它成为共享节点。数据块设为独占状态,指明这是唯一有效的缓存副本。共享者集合中指明所有者。当数据块处于共享状态时,共享缓存中的值是最新的,有 2 种可能的目录请求:
1) 读缺失:共享缓存向发送请求的处理器送回所要求的数据,并将发送请求的处理器放到共享集中。
2) 写缺失:向发送请求的处理器送回数据,无效共享集合中的处理器缓存块,保存发送请求的处理器标识,将数据块设置成独占状态。
当数据块处于独占状态时,块的当前值保存在共享者集所指明的处理器的缓存中,有 3 种可能的目录请求:
1) 读缺失:向所有者处理器发送数据消息,将缓存块状态设为共享。由所有者向目录发送数据,将数据写入共享缓存并发送回发出请求的处理器。再将发出请求的处理器添加到共享者集合中,这时集合中仍然会有其他所有者处理器。
2) 数据写回:执行写回操作,更新存储器副本 ,共享者集合为空。
3) 写缺失:数据块有了新的所有者。向旧的所有者发送消息,使缓存将该数据块设置为无效,并把值发送到目录中,再通过目录把数值发送到发出请求的处理器上。发出请求的处理器成为新的所有者。共享者集合只保留新所有者的标识,而块仍然处于独占状态。
用户RAM大小为2MB,挂接在双核之间的AHB总线上,两个内核访问区域可以任意配置。其内部是一块 SRAM 和AHB总线从接口威廉希尔官方网站 ,如图2-1所示。读访问有一个周期的延迟,写访问无延迟。读写访问时序见图2-2、图2-3。读写都支持字节(byte)访问、半字(half-word)访问或字(word)访问。
用户RAM所在的地址空间范围为0xA0000000 ~ 0xA01FFFFF。
图 2‑1 用户RAM结构示意图
假设CPU0写数据到用户RAM,接着CPU1从用户RAM读数据。这种情况下,CPU0首先写数据,然后将标志变量置1,表示用户RAM内的数据已更新。标志变量地址位于用户RAM地址范围内。接着CPU1读标志变量,若变量为1,则从用户RAM内对应地址读取CPU0写入的数据,并将标志变量置0;若标志变量为0,则表示用户RAM内数据已被CPU1读取过。
使用以上方法可实现核间数据交互。由于同一时刻AHB总线上只能有一个设备利用总线进行读写,所以可以保证读写操作的原子性,即标志变量不可能被CPU0和CPU1同时访问。从而保证了标志变量的有效性。
参 考 文 献
[1 ]John L 。 Hennessy , David A. Patterson , Computer Architecture : A Quantitative Approach , Fourth Edition [ M ]。 Ap professional ,1990
[2 ] Sun Microsystems Inc. OpenSPARC T1 Microarchitecture Specification[ R]。 2006
[3 ]David A. Patterson , John L 。 Hennessy , Computer organization and design[ M ]。 Morgan Kaufmann ,2004
[4 ] Michael D. Ciletti , Advanced digital design with the Verilog HDL [ M ]。 Pearson ,2005
[5 ]周立。 计算机系统结构 [ M ]。 北京 :清华大学出版 社 ,2006
全部0条评论
快来发表一下你的评论吧 !