CPU Study－Multi-Port Cache

参考来源：《超标量处理器设计》—— 姚永斌
关于Multi-Port Cache可以参考：https://compas.cs.stonybrook.edu/~nhonarmand/courses/sp16/cse502/slides/04-caches.pdf

为了实现每个周期执行多条load/store指令，Cache必须支持多端口。

True Multi-Port

现实中不会对Cache设计真实的多端口。
因为如果真的要实现硬件电路上的多端口Cache设计，所有Cache中的控制通路和数据通路都需要复制。
也就需要两套地址解码器，两个端口可以同时独立地寻址Tag SRAM和Data SRAM。
也需要两个多路选择器（Way Mux），用来同时读取两个端口数据。
比较器的数量也要加倍，用来判断两个端口的命中情况。
也需要两个对齐器（Aligner）来完成字节或者半字节读取。
Tag SRAM和Data SRAM每个cell都需要同时支持两个并行的读取操作。
多端口SRAM CELL

不过此方案消耗的硬件资源太大，需要驱动多个端口导致处理器周期更长，功耗更高。
所以一般不采用此类设计。

Multiple Cache Copies

复制Tag SRAM和Data SRAM，消除对处理器周期的影响。
Multiple Cache

但是会浪费较多的面积，并且需要保持两个Cache的同步，例如：
store指令需要同时写到两个Cache，当一个Cache发生了Cache Line替换，则另一个Cache copy也必须替换，保持一致。

Multi-Banking

将Cache分为多个小型的bank，每个bank中只有一个端口。
如果一个周期内，Cache多个端口访问请求位于不同bank之中，并不会引起问题。
但是如果两个或者多个端口地址位于同一个bank中，就会引起bank confict冲突。
此方法下，N端口Cache仍然需要：
N个地址解码器＋N个多路选择器＋N个比较器＋N个对齐器。
但是Data SRAM无需多端口，提高了响应需求。
但同时由于需要判断每个端口是否命中，对于Tag SRAM还是需要多端口读取。
Multi Bank
由于每个Cache端口请求都需要访问到bank，所以bank越多，布线资源就占用越多。

AMD Multi-Port Cache

AMD的皓龙系列是64位处理器，但是处理器的地址却是简化的设计。
它的虚拟地址是48位，物理地址为40位，从而来减少硅片面积。
处理器D-Cache则是采用了双端口，每个端口都是64位的位宽，能够在一个周期内同时运行load/store指令。
这个Cache多端口的功能就是通过Multi-Banking机制实现的，具体设计如下：
AMD
从上图可以看到，由于每个Bank都是单端口的SRAM，保证硅片面积消耗和访问速度的平衡，Bank数量减少也大大减少了冲突概率。