計算機の構造後期資料5

「計算機設計技法第2版 (マルチプロセッサシステム論)、B.ウイルキンソン、トッパン(1998年), 5400円、ISBN4-8101-8611-3」または http://www.cs.uncc.edu/~abw/ITCS5141/ （英語ですが）を参照することを勧めます。

キャッシュメモリシステム

キャッシュメモリ

メモリアクセス時間 (memory access time) --- メモリ要求を出してからデータのwrite(書き込み)またはデータのread(読み出し)が終るまでの時間。通常は書き込み時間と読み出し時間は等しくなります。
メモリサイクル時間 (memory cycle time) --- メモリへのアクセス (読み出しまたは書き込み) を開始してから、次のメモリアクセスを開始できるまでの最短時間。 1回メモリがアクセスされると内部回路が安定して次のアクセスが可能になるまでには多少の時間が必要となります。高速メモリシステムではサイクル時間はアクセス時間の2倍程度となります。

一般に、プロセッサは主記憶アクセス時間よりも1桁程度高速にオペランドを処理できます。プロセッサ並の高速動作が可能なメモリも存在はしますが、主記憶を全てこのような高速メモリで構成するのはコストの点で非現実的です。そのため、主記憶とプロセッサの間にキャッシュ(cache、小量の高速メモリ)を置くことで、アクセス速度の違いから起きる問題を軽減します。

キャッシュとは高速のRAMです。プロセッサは主記憶中のプログラムやデータにアクセスするときに、もしキャッシュ上にコピーが存在すればキャッシュだけにアクセスします。データを変更する場合は、キャッシュのデータだけではなく、メモリ上のデータも直す必要があります。

キャッシュがうまく動作するのは、プログラムには一般に局所性原理(Principle of Locality) が当てはまるからです。

時間的局所性 (時間における局所性; Temporal locality) --- 一度参照された場所は近いうちに再び参照される可能性が高い、という性質。
空間的局所性 (メモリ空間における局所性; Spatial locality) --- 次に参照する場所は直前に参照した場所の近くである可能性が高い、という性質。特に、次に参照する番地が連続した次の番地であることを逐次的局所性 (sequential locality) と呼びます。

時間的局所性

1回目の参照でキャッシュに読み込んだワードがずっとキャッシュ上にあり、 n回参照される場合は、平均アクセス時間は以下のようになると考えられます。

    平均アクセス時間 = ( n * t_c + t_m) / n = t_c + t_m / n

        t_c: キャッシュのアクセス時間
        t_m: メモリ(主記憶)のアクセス時間
        n: 参照回数

    (例) t_c=25ns, t_m=200ns, n=10回 とすると
        平均アクセス時間 = 25 + 200/10 = 45 (ns)

nが増加すれば、平均アクセス時間はキャッシュのアクセス時間に近づきます。時間的局所性を多く持つプログラムもあれば、そうでないプログラムもあるので高速化の程度はプログラムに依存します。

空間的局所性

空間的局所性を利用するためには、連続した場所のかたまり (ライン line またはブロック blockと呼びます)を主記憶とキャッシュの間でまとめて移動します。ラインの転送では、幅の広いバスを使って複数のメモリモジュールから同時に転送することが高性能のために必要です(図3.2)。

モジュール数mは、主記憶とキャッシュメモリの速度が適切になるように選ばれます。ここで m * t_c = t_m となるように m を決めると完全に整合がとれます。

mワードのデータを全部でn回参照する場合は
    平均アクセス時間 = (t_m + t_c * m * n) / (m * n)
                     = t_m / (m * n) + t_c

    (例) t_c = 25ns, t_m = 200ns, m = 8, n=10回 とすると
        平均アクセス時間 = (200 + 25 * 8 * 10) / (8 * 10)
                         = 27.5 ns

    (参考)  (m*t_c=t_mの時の平均アクセス時間) = t_c * (n+1)/n

ヒット率

キャッシュ中に必要なデータが存在する(これを『キャッシュがヒットする』といいます)確率は、プログラム、キャッシュのサイズ、キャッシュのマッピング方法に依存します。約80〜90%はヒットすると考えるのは妥当な仮定です。

キャッシュ中に必要なデータがなく主記憶へのアクセスが必要な時は、『キャッシュをミスした』といいます。キャッシュのヒット率(hit ratio, hit rate)を h とすると以下のように定義されます。

    h = キャッシュ中に必要なワードが見つかる回数 ／ 総参照回数

キャッシュの研究にはヒット率 h そのものよりもミス率 (miss ratio) である 1-h の方がよく用いられます。ヒット率を考慮すると、平均アクセス時間 t_a は以下のように表されます。

     t_a = t_c + (1-h) * t_m
    ただし、あるワードにアクセスするには、まずキャッシュにアクセスすると
    仮定しています(t_c)。ミスした場合に主記憶にアクセスすることによって
    アクセス時間は (1-h) * t_m だけ増加します。

    (例) t_c= 25ns, t_m = 100ns, h=0.85 とすると
        t_a = 25 + (1-0.85) * 100 = 40 (ns)

ここの説明では、データを主記憶からキャッシュに持ってきたときには再度キャッシュを読まなくてもプロセッサがデータを利用できる (主記憶とプロセッサの間は直接バスでつながっている)ものと仮定しています。

キャッシュメモリの構造

主記憶上の情報をキャッシュ上にマップする方法はいろいろ考えられます。高速化のためにはハードウェア化する必要があります。

完全連想マッピング (fully associative mapping)
直接マッピング (direct mapping)
セット連想マッピング (set associative mapping)
セクタマッピング (sector mapping) --- 略

完全連想マッピング

アドレスとデータの組をキャッシュの中に保持します。プロセッサから入力されたメモリアドレスを、連想メモリの内部論理を使ってキャッシュに格納されている全てのアドレスと同時に比較します。もし一致するものが見つかればそのアドレスに対応するデータを読み出します (図3.3)。見つからない場合は、主記憶からキャッシュに読み込みます。

多数の比較器を利用する特殊なメモリが必要なため実現にはコストがかかります。そのため、完全連想マッピングが用いられるのは小規模なキャッシュを持つマイクロプロセッサだけとなります。

どの方式でも、連続した数ワードのラインをキャッシュすることもできます (図3.4は、4ワード／ラインの完全連想マッピングの例です)。主記憶とキャッシュの間に十分な幅のデータパスがあれば1回でライン全体を転送できます。 1ワード分の幅のデータパスしかない場合はラインを何回かに分けて転送します。このときはキャッシュの中のデータが有効かどうか示すために有効ビットが使われることが多いです。

直接マッピング

アクセスすべき主記憶上のアドレスの下位ビットを使ってキャッシュにアクセスする方式です。キャッシュ上のデータがアクセスすべきデータと同一であるかどうかは、キャッシュ内のタグとアドレスの上位ビットを比較して判断します。タグが一致しない場合は、キャッシュミスですので主記憶上のデータにアクセスします。このときキャッシュのデータも更新します。

利点

置換アルゴリズムが簡単です。
シンプルなハードウェアで構成でき、低コストです。
高速です

欠点

同じインデックスのアドレスへのアクセスが多いと性能がかなり低下します。
ヒット率が、連想マッピングよりも低くなります。

キャッシュのサイズが大きくなると、直接マッピングと連想マッピングのヒット率の差は減少し、わずかになります。最近はキャッシュサイズが大きくなる傾向があるので、直接マッピングが有利になっています。

セット連想マッピング

直接マッピングでは、キャッシュに格納される全てのワードは、異なるインデックスを持たなければなりませんでした。また、完全連想マッピングではラインをキャッシュの中のどの場所にでも入れることができますが、容量をあまり大きくできませんでした (大容量の連想マッピングキャッシュは高価かつ低速ですので)。

n-wayセット連想マッピングとは、同じインデックスを持つデータをn組キャッシュ中に保持できるようにしたものです(図 3.7 は 4-wayの場合)。同一インデックスにおけるデータ(ワードまたはライン)の数を、連想度(associativity) またはセットサイズ (set size) と呼びます。

セット中の各ラインにはタグが設けられていて、タグとインデックス(セット番号)でラインを一意に特定します。

セット連想マッピングキャッシュはマイクロプロセッサの内部キャッシュとしてよく使われています。

    (例) Motorola MC68040, Intel 486, Intel i860 --- 4-way set associative
         Intel Pentium --- 2-way set associative

フェッチ機構と書き込み機構

フェッチ戦略

主記憶からキャッシュへデータを(ワードまたはライン単位で)フェッチする戦略には3種類あります。

デマンドフェッチ (demand fetch)
キャシュミスが生じた(ラインが必要になったがキャッシュの中に存在しない)ときに、フェッチする方式で、最も単純な方法です。置換するブロックを見つける必要はありますが、参照されたかどうかを記憶する余分なハードウェアやフラグは必要ありません。
プリフェッチ (prefetch)
要求される前にあらかじめラインをフェッチしておく方式です。
「単純プリフェッチ」では、第iラインをフェッチするときに第i+1ラインもフェッチします。キャッシュが十分に大きければキャッシュミスが減ることが期待されますが、キャッシュが小さい場合は追い出される他のラインへの参照が多くなり、かえって効率が悪くなることがあります。
選択フェッチ (selective fetch)
ある基準を設けて、必ずしもラインをキャッシュにフェッチしない方式です。フェッチしないデータは主記憶に置きます。「プロセッサがキャッシュをバイパスして、主記憶に直接アクセスできる」機構と、「キャッシュできないワードに特別なタグをつけて区別する」機構が必要となります。マルチプロセッサシステムの書き込み可能な共有データに対してこのようなフェッチ戦略をとることがあります。

命令キャッシュとデータキャッシュ

統合キャッシュ (unified cache) --- キャッシュ中に命令とデータを混在させる方法
分離キャッシュ (separate cache) --- キャッシュを、命令を保持する命令キャッシュ(instructin cache, code cache) とデータを保持するデータキャッシュ (data cache) にわける方法。
- 命令キャッシュ中のデータは書き込む必要がありません。
- 命令とデータの転送を同時に行なうことができます。これはパイプラインで有利となります。
- 命令キャッシュとデータキャッシュのサイズ、内部構造、ラインサイズを独立に設計できます

キャッシュはプロセッサチップの中に組み込まれることが多くなってきました。 Pentium や MC68040は分離キャッシュを採用しています。

分離キャッシュでは、コードを書き換えるようなプログラムでは問題が生じます。コードを書き換えた場合は、命令キャッシュとデータキャッシュに同じラインがキャッシュされていて、データキャッシュの方が書き換わっていることになります。これでは不整合が生じますので、命令キャッシュ中のラインを無効にする機構を使う必要があります。

書き込み操作

キャッシュに書き込みを行なうときは、キャッシュ上のデータと主記憶上のデータで不整合を生じるおそれがあります。データの一貫性を保つためには、キャッシュから主記憶にデータを書き戻す必要があります。

ライトスルー方式 (write throught) --- キャッシュ書き込み時に主記憶上のデータも同時に更新します。
ライトバック方式 (write back) --- 主記憶上のデータは後で(ラインをキャッシュから追い出すときに) 更新します。

ライトスルー方式

キャッシュへ書き込むと同時に主記憶にも書き込む方式です。キャッシュの書き込み時間と比較して主記憶への書き込み時間ははるかに大きいので、主記憶への書き込み時間がアクセス時間を左右します。

しかし一般には、読み出し動作に比べて書き込み動作は稀にしか発生しません(Smith 1982 によれば参照の5%から34%、平均で16%が書き込み操作)ので、ライトスルー方式でもそれなりのアクセス速度が期待できます。

読み出しや書き込みの時にキャッシュミスが生じると必ず主記憶からキャッシュへラインを転送すると仮定すると、平均アクセス時間は以下のようになります。

    t_a  = t_c + (1 - h) t_b + w (t_m - t_c)
         = (1 - w) t_c + (1 - h) t_b + w t_m
         = (1 - w) t_c + (1 - h - w) t_m    if t_b = t_m
    ただし
        t_c : キャッシュを調べ、そのデータが存在するかどうかを判断し、
              あれば取り出すまでの時間
        t_m : そのワードがないときに主記憶からワードをCPUにフェッチする
              (キャッシュにそのワードを転送する時間も含む)時間
        t_b :ブロックをキャッシュへ転送する時間
        w: 書き込みの割合

    (例) t_c = 25ns, t_m = 200ns, h=99%, w=20% , t_b = t_m のとき
     t_a = 25 + (1 - 0.99) * 200 + 0.2 * (200 - 25)
         = 25 + 2 + 35
         = 62 (ns)
    (例2) t_c = 25ns, t_m = 200ns, h=99%, w=20% , t_b = 16 t_m のとき
     t_a = 25 + (1 - 0.99) * 200 * 16 + 0.2 * (200 - 25)
         = 25 + 32 + 35
         = 92 (ns)

項(t_m - t_c)は、書き込み時に(キャッシュにヒットしようがミスしようが)ワードを主記憶に書き込むのに必要な時間です。キャッシュと主記憶への書き込みは同時に起きますが、主記憶への書き込み動作は次のキャッシュへの読み出し／書き込み操作が行われるよりも前に完了していなければなりません。キャッシュと主記憶の間にライトバッファを入れる、すなわちキャッシュから主記憶に書き込む情報をいったんライトバッファに入れておきキャッシュへの次のアクセスを許すことによって速度を改善することができます(図3.9)。

フェッチオンライト方式(fetch on write, allocate on write, write allocate)
書き込みミスが生じたときに、主記憶からキャッシュにそのワード／ラインを転送する方式。
ノーフェッチオンライト方式 (no fetch on write, non-allocate on write)
書き込みミスが生じたときに、主記憶からキャッシュにそのワード／ラインを転送しない方式。

ライトスルー方式では、ノーフェッチオンライト方式を取るのが普通です。ノーフェッチオンライト方式のヒット率は、フェッチオンライト方式よりも一般に低くなります(書き込んだデータにすぐ後でアクセスする場合があるため)。

ライトバック方式

ラインの置換のときにだけ主記憶のデータを書き換える方式です。書き込みミス時には一般にフェッチオンライト方式を用います。

キャッシュから追い出されるラインを(変更されているか否かによらず) 主記憶へ必ず書き戻す方法を単純ライトバック方式 (simple write-back) と呼びます。

ライトバック方式では、一般には変更したラインだけを書き戻します。そのために各ラインに1ビットのフラグを用意しておき、ラインが変更されたときにこのフラグをセットします。

ライトバック方式では、ブロック中の1ワードだけが変更されても全ブロックを主記憶に書き直す必要が生じます。これに対してライトスルー方式では変更されたデータだけが主記憶上で書き直されます。しかしライトスルー方式では、データが変更されるたびにトラフィックが生じるので、全体として見ればライトバック方式が有利であると考えられます。

置換アルゴリズム

キャッシュが一杯のときに新しいラインをキャッシュに持ってくるためには、どれかのラインをキャッシュから追い出す必要があります。追い出すラインを選びだす方法を置換アルゴリズムと呼びます。

直接マッピングでは追い出すラインは一意に決まるので置換アルゴリズムは必要ありません。完全連想マッピングでは、全てのキャッシュデータ中から置き換えるデータを選ぶ必要があります。セット連想マッピングでは、同じセット中に含まれるキャッシュデータの中から置き換えるデータを選ぶことになります。

キャッシュの置換アルゴリズムはハードウェアで実装されなくてはいけません。置換アルゴリズムには

ランダム置換アルゴリズム --- 不規則に置換するラインを選ぶ。
FIFO置換アルゴリズム --- もっとも長い間キャッシュに存在したラインを選ぶ。
LRU置換アルゴリズム --- 最も長い間アクセスされないラインを選ぶ。

がありますが、キャッシュでは(仮想メモリでは他の方法も使われていますが) LRU (Least Recently Used)方式が最もよく使われています。

このLRUの実装方法にもいろいろあります。

カウンタ
ライン毎にカウンタを付加します。
- 一定時間毎に全てのカウンタの値を増やし、アクセスされると0にします (年輪レジスタ, aging register)
- キャッシュデータがヒットすると、そのデータのカウンタ(値がnだったとする)を0にし、n以下の値を持つカウンタを+1します(それ以外はそのまま)。データをキャッシュする場合は、新しいデータのカウンタを0にし、それ以外のカウンタを +1 します。カウンタが最も大きいデータが置き換えの対象となります。
  (表3.1→各セット4ラインのセット連想キャッシュの例。各ラインに2bitのカウンタが付加されています)
レジスタスタック(複雑な回路が必要な上に遅いのでほどんど使われません)
セットサイズをnとすると、n 個のレジスタでスタックを表現します。スタック中では、最近アクセスされたデータの番号ほど上に詰まれています。データをアクセスする時、スタックの上部から下部へ検索し、見つかるまで各レジスタを1つ下にコピーします。検索されたデータの番号はスタックの最上部に積みます。
参照行列法
いくつかある状態ビット行列を使う方法のうち、ひとつを示します。
B個のデータがある場合に、対角を含まないB×Bの上三角ビット行列を利用します。i番目のデータがアクセスされると、この行列のi行の要素を全て1にし、i列の要素を全て0にします。 j行が全て0でj列が1であるとすると、j番目のデータが最も最近使われていないものです。
近似法
セットサイズが4や8以上のときに、近似方法が必要になります。たとえば SuperSPARC では、セットサイズが4でセット毎に4bitのフラグを持っていて以下の方法でLRUを近似しています。
1. アクセスのたびにそのデータに該当するフラグを1にします。
2. 全てのフラグビットが1になると、全てのビットを0にします。
3. 置き換えるデータは、フラグビットが0のものの中からランダムに選びます。

キャッシュの性能

どの方式のキャッシュでもサイズが大きくなるとミス率が減り性能が向上します。実際のミス率は、プログラムや全体の負荷、キャッシュの実現方法 (書き込み戦略、置換アルゴリズムなど)によっても変わります。

2次キャッシュ

キャッシュをプロセッサに組み込む時に、キャッシュサイズを十分に大きくとれず性能が上がらないことが起こりえます。そのような場合は、1次キャッシュと主記憶の間にサイズの大きな (1次キャッシュの10倍以上が一般的)キャッシュを挿入することがあります (2次キャッシュ, second-level cache, secondary cache)。

1次キャッシュと2次キャッシュの置換戦略は通常どちらもLRUです。またキャッシュの間のデータの一貫性を保つために、ライトスルー方式がとられるのが普通です。

ほとんどのマイクロプロセッサでは、外部のキャッシュコントローラを用いて2次キャッシュを利用できます(486->8291, Pentium->82491など)。プロセッサと2次キャッシュの間は高速性が必要です。主記憶とのバス(フロントサイドバス, frontside bus)とは独立した 2次キャッシュバス(バックサイドバス, backside bus)を用意することがあります (例 Intel P6)。

ディスクキャッシュ

主記憶とディスクの間にRAMをディスクキャッシュとして置くことがあります。これにより20〜30msかかる入出力時間が2〜5ms程度に短縮されます。

キャッシュに関する練習問題

[問題1] 3レベルのメモリ (キャッシュ、主記憶、ディスク)の平均アクセス時間を求めて下さい。各メモリのアクセス時間は, 20ns, 200ns, 2ms、キャッシュのヒット率は 80%, 主記憶のヒット率は99% とします。

[問題2] 32ビット/ワード、32ビットアドレッシングで、8Kbyteのキャッシュを持っている計算機を考えます。以下の各マッピングを行なうときのアドレスの各フィールド長を決定して下さい。ただしタグは上記の8Kbyte以外の場所に置かれるものとします。

1ワード／ラインの直接マッピング
8ワード／ラインの直接マッピング
1ワード／ラインの4-wayセット連想マッピング

[問題3] ディスクキャッシュを導入したところ、アクセス時間が 20ms から 6.3ms へ短縮されました。キャッシュのヒット率を 70% とすると、ディスクキャッシュのアクセス時間はどれだけと考えられますか。

計算機の構造 後期 資料5