91精品一区二区三区久久久久久_欧美一级特黄大片色_欧美一区二区人人喊爽_精品一区二区三区av

位置:51電子網 » 技術資料 » 嵌入式系統

CPU學習 (Cache Coherence)

發布時間:2008/7/17 0:00:00 訪問次數:1625

  在2004年寫的一篇文章x86匯編語言學習手記(1)中,曾經涉及到gcc編譯的代碼默認16字節棧對齊的問題。之所以這樣做,主要是性能優化方面的考慮。

  大多數現代cpu都one-die了l1和l2cache。對于l1 cache,大多是write though的;l2 cache則是write back的,不會立即寫回memory,這就會導致cache和memory的內容的不一致;另外,對于mp(multi processors)的環境,由于cache是cpu私有的,不同cpu的cache的內容也存在不一致的問題,因此很多mp的的計算架構,不論是ccnuma還是smp都實現了cache coherence的機制,即不同cpu的cache一致性機制。

  cache coherence的一種實現是通過cache-snooping協議,每個cpu通過對bus的snoop實現對其它cpu讀寫cache的監控:

  首先,cache line是cache和memory之間數據傳輸的最小單元。

  1. 當cpu1要寫cache時,其它cpu就會檢查自己cache中對應的cache line,如果是dirty的,就write back到memory,并且會將cpu1的相關cache line刷新;如果不是dirty的,就invalidate該cache line.

  2. 當cpu1要讀cache時,其它cpu就會將自己cache中對應的cache line中標記為dirty的部分write back到memory,并且會將cpu1的相關cache line刷新。

  所以,提高cpu的cache hit rate,減少cache和memory之間的數據傳輸,將會提高系統的性能。

  因此,在程序和二進制對象的內存分配中保持cache line aligned就十分重要,如果不保證cache line對齊,出現多個cpu中并行運行的進程或者線程同時讀寫同一個cache line的情況的概率就會很大。這時cpu的cache和memory之間會反復出現write back和refresh情況,這種情形就叫做cache thrashing。

  為了有效的避免cache thrashing,通常有以下兩種途徑:

  1. 對于heap的分配,很多系統在malloc調用中實現了強制的alignment.
  2. 對于stack的分配,很多編譯器提供了stack aligned的選項。

  當然,如果在編譯器指定了stack aligned,程序的尺寸將會變大,會占用更多的內存。因此,這中間的取舍需要仔細考慮,下面是我在google上搜索到的一段討論:

one of our customers complained about the additional code generated to
maintain the stack aligned to 16-byte boundaries, and suggested us to
default to the minimum alignment when optimizing for code size. this
has the caveat that, when you link code optimized for size with code
optimized for speed, if a function optimized for size calls a
performance-critical function with the stack misaligned, the
performance-critical function may perform poorly.



  在2004年寫的一篇文章x86匯編語言學習手記(1)中,曾經涉及到gcc編譯的代碼默認16字節棧對齊的問題。之所以這樣做,主要是性能優化方面的考慮。

  大多數現代cpu都one-die了l1和l2cache。對于l1 cache,大多是write though的;l2 cache則是write back的,不會立即寫回memory,這就會導致cache和memory的內容的不一致;另外,對于mp(multi processors)的環境,由于cache是cpu私有的,不同cpu的cache的內容也存在不一致的問題,因此很多mp的的計算架構,不論是ccnuma還是smp都實現了cache coherence的機制,即不同cpu的cache一致性機制。

  cache coherence的一種實現是通過cache-snooping協議,每個cpu通過對bus的snoop實現對其它cpu讀寫cache的監控:

  首先,cache line是cache和memory之間數據傳輸的最小單元。

  1. 當cpu1要寫cache時,其它cpu就會檢查自己cache中對應的cache line,如果是dirty的,就write back到memory,并且會將cpu1的相關cache line刷新;如果不是dirty的,就invalidate該cache line.

  2. 當cpu1要讀cache時,其它cpu就會將自己cache中對應的cache line中標記為dirty的部分write back到memory,并且會將cpu1的相關cache line刷新。

  所以,提高cpu的cache hit rate,減少cache和memory之間的數據傳輸,將會提高系統的性能。

  因此,在程序和二進制對象的內存分配中保持cache line aligned就十分重要,如果不保證cache line對齊,出現多個cpu中并行運行的進程或者線程同時讀寫同一個cache line的情況的概率就會很大。這時cpu的cache和memory之間會反復出現write back和refresh情況,這種情形就叫做cache thrashing。

  為了有效的避免cache thrashing,通常有以下兩種途徑:

  1. 對于heap的分配,很多系統在malloc調用中實現了強制的alignment.
  2. 對于stack的分配,很多編譯器提供了stack aligned的選項。

  當然,如果在編譯器指定了stack aligned,程序的尺寸將會變大,會占用更多的內存。因此,這中間的取舍需要仔細考慮,下面是我在google上搜索到的一段討論:

one of our customers complained about the additional code generated to
maintain the stack aligned to 16-byte boundaries, and suggested us to
default to the minimum alignment when optimizing for code size. this
has the caveat that, when you link code optimized for size with code
optimized for speed, if a function optimized for size calls a
performance-critical function with the stack misaligned, the
performance-critical function may perform poorly.



相關IC型號

熱門點擊

 

推薦技術資料

DFRobot—玩的就是
    如果說新車間的特點是“靈動”,FQPF12N60C那么... [詳細]
版權所有:51dzw.COM
深圳服務熱線:13751165337  13692101218
粵ICP備09112631號-6(miitbeian.gov.cn)
公網安備44030402000607
深圳市碧威特網絡技術有限公司
付款方式


 復制成功!
德昌县| 仙游县| 喀喇沁旗| 利辛县| 明光市| 桦南县| 鄂托克旗| 汾阳市| 泸西县| 紫金县| 齐齐哈尔市| 禹城市| 维西| 民县| 墨竹工卡县| 东至县| 江达县| 苏尼特右旗| 西吉县| 德清县| 商水县| 布拖县| 开远市| 元江| 治多县| 辽宁省| 准格尔旗| 闸北区| 克东县| 陵水| 洛隆县| 墨脱县| 兴义市| 雷山县| 莲花县| 陈巴尔虎旗| 拜泉县| 紫云| 青州市| 滦平县| 增城市|