剖析基準測試
發布時間:2008/5/26 0:00:00 訪問次數:469
    
    
    基準測試能在您分析和比較各個系統時為您節省時間。但是,基準測試的真正價值常常意味著對每個評分的意義“進行逆向工程”并且將那些見解應用到您的實際環境中。
    
    要點
    
    ● 基準試圖將復雜系統進行抽象和簡化以便您能更好地進行蘋果對蘋果比較。
    
    ● 基準必須附帶完整的測試詳情才有意義。
    
    ● 您有責任分析基準測試詳情以判斷一個給定評分是否與實際情況相關。
    
    ● 基準應該只作為整個決策過程的一個數據點,諸如供應商開發支持和平臺靈活性等其他定性因素可能比基準測試高評分更重要。
    
    基準是一個您能用以對兩個或更多相似選擇對象的價值和質量進行一致的測量、量化和比較的參考點,這些選擇對象包括商業過程、工具和嵌入式處理器等。對于嵌入式處理器來說,基準通常是一組在候選處理器上運行的一致性軟件代碼,因此您可以將候選處理器的性能與其他可供選用的處理器進行比較。處理器基準并不局限于測量處理器體系結構效率;它們還能表明編譯器相對于人工優化編碼的效率。
    
    理想的基準對一個系統的重要性能度量進行提取和合并,形成一個在特定上下文中,能對不同系統選擇進行有意義的“蘋果對蘋果”比較的簡化表示 或評分。但是,使用理想的基準如果不能比不太精確的比較工作更多地節省時間、降低成本或者減小風險,那是不切實際的。
    
    對于具有某一清晰目標的系統或任務來說,您常常會找到一個性能度量,用以精確獲取系統行為,并在您將該系統與其他選擇對象比較時具有良好的相關性。比較兩個處理器的時鐘速率就是獲得相對性能的一個流行的基準度量,但是它的適用環境很窄,只有當這兩個處理器除了時鐘速率之外大致相同時,這種比較才有用。盡管比較基準測試評分的簡單性如何吸引人,但正確解釋這些相互關聯的評分則需要您了解基準測量的基本細節及其與您應用系統的相關性。對于嵌入式設計來說,您比較的處理器體系結構可能大不相同,因此使用時鐘速率作為基準度量也許是不適宜的。
    
    通常,嵌入式設計必須同時平衡并滿足許多目標,例如提供正確的功能既要快速、經濟實惠,又要具有低功耗、高質量和靈活性。就這幾類情況而言,性能是多方面的,因此將系統性能精確地描述為一個簡化的評分,用以與其他選擇對象進行有意義的比較,可能是困難而又代價高昂的。對多個系統進行比較存在一個難題,就是既要使獲得和導出基準測試評分簡易而又花錢少,又要使不同系統的相同評分的排名有意義。
    
    謊言和更多謊言
    
    許多處理器供應商都使用基準測試評分作為一種營銷工具。但是,有些經常發布的基準測試評分,如mips(每秒百萬條指令)和dmips(dhrystone mipis),在沒有特定背景的情況下是毫無意義和不恰當的(參閱附文《基準測試游戲》)。這兩類性能評分的繼續廣泛使用使得處理器基準測試獲得了對處理器性能度量不精確的名聲。一次網上搜索就會發現對下面關于標準基準測試的陳述的多次引用:“計算機行業有三種謊言:謊言、該死的謊言和基準測試。”
    
    綜合基準測試通常試圖通過使用人工指令序列或者通過盡量模擬真實環境應用系統中的普通指令混合,來度量某個系統、處理器或編譯程序的一個或多個新性能。相反,真實環境應用系統基準測試在考慮處理器特性方面前進了一步,它試圖對處理器體系結構和開發工具如何處理特定類型應用系統的預期工作量進行預測和量化。應用系統基準測試可能使用一組或多組真實應用程序代碼塊來為一個應用系統實現代表性的功能。
    
    公開傳播諸如mips和dmips等標準綜合基準測試這種做法凸顯出人們需要開發和使用簡單而又有意義的度量。這幾類基準測試相對比較便宜,也最容易實現,因而沒有容易而又低成本實現的無版權替代方案。行業標準基準測試是對競爭性產品進行比較的基礎,但是,供應商通常要承擔一筆可觀的費用以便獲得基準測試證據。bdti(berkeley設計科技有限公司)、eembc(edn嵌入式微處理器基準聯盟)和spec(標
    
    
    基準測試能在您分析和比較各個系統時為您節省時間。但是,基準測試的真正價值常常意味著對每個評分的意義“進行逆向工程”并且將那些見解應用到您的實際環境中。
    
    要點
    
    ● 基準試圖將復雜系統進行抽象和簡化以便您能更好地進行蘋果對蘋果比較。
    
    ● 基準必須附帶完整的測試詳情才有意義。
    
    ● 您有責任分析基準測試詳情以判斷一個給定評分是否與實際情況相關。
    
    ● 基準應該只作為整個決策過程的一個數據點,諸如供應商開發支持和平臺靈活性等其他定性因素可能比基準測試高評分更重要。
    
    基準是一個您能用以對兩個或更多相似選擇對象的價值和質量進行一致的測量、量化和比較的參考點,這些選擇對象包括商業過程、工具和嵌入式處理器等。對于嵌入式處理器來說,基準通常是一組在候選處理器上運行的一致性軟件代碼,因此您可以將候選處理器的性能與其他可供選用的處理器進行比較。處理器基準并不局限于測量處理器體系結構效率;它們還能表明編譯器相對于人工優化編碼的效率。
    
    理想的基準對一個系統的重要性能度量進行提取和合并,形成一個在特定上下文中,能對不同系統選擇進行有意義的“蘋果對蘋果”比較的簡化表示 或評分。但是,使用理想的基準如果不能比不太精確的比較工作更多地節省時間、降低成本或者減小風險,那是不切實際的。
    
    對于具有某一清晰目標的系統或任務來說,您常常會找到一個性能度量,用以精確獲取系統行為,并在您將該系統與其他選擇對象比較時具有良好的相關性。比較兩個處理器的時鐘速率就是獲得相對性能的一個流行的基準度量,但是它的適用環境很窄,只有當這兩個處理器除了時鐘速率之外大致相同時,這種比較才有用。盡管比較基準測試評分的簡單性如何吸引人,但正確解釋這些相互關聯的評分則需要您了解基準測量的基本細節及其與您應用系統的相關性。對于嵌入式設計來說,您比較的處理器體系結構可能大不相同,因此使用時鐘速率作為基準度量也許是不適宜的。
    
    通常,嵌入式設計必須同時平衡并滿足許多目標,例如提供正確的功能既要快速、經濟實惠,又要具有低功耗、高質量和靈活性。就這幾類情況而言,性能是多方面的,因此將系統性能精確地描述為一個簡化的評分,用以與其他選擇對象進行有意義的比較,可能是困難而又代價高昂的。對多個系統進行比較存在一個難題,就是既要使獲得和導出基準測試評分簡易而又花錢少,又要使不同系統的相同評分的排名有意義。
    
    謊言和更多謊言
    
    許多處理器供應商都使用基準測試評分作為一種營銷工具。但是,有些經常發布的基準測試評分,如mips(每秒百萬條指令)和dmips(dhrystone mipis),在沒有特定背景的情況下是毫無意義和不恰當的(參閱附文《基準測試游戲》)。這兩類性能評分的繼續廣泛使用使得處理器基準測試獲得了對處理器性能度量不精確的名聲。一次網上搜索就會發現對下面關于標準基準測試的陳述的多次引用:“計算機行業有三種謊言:謊言、該死的謊言和基準測試。”
    
    綜合基準測試通常試圖通過使用人工指令序列或者通過盡量模擬真實環境應用系統中的普通指令混合,來度量某個系統、處理器或編譯程序的一個或多個新性能。相反,真實環境應用系統基準測試在考慮處理器特性方面前進了一步,它試圖對處理器體系結構和開發工具如何處理特定類型應用系統的預期工作量進行預測和量化。應用系統基準測試可能使用一組或多組真實應用程序代碼塊來為一個應用系統實現代表性的功能。
    
    公開傳播諸如mips和dmips等標準綜合基準測試這種做法凸顯出人們需要開發和使用簡單而又有意義的度量。這幾類基準測試相對比較便宜,也最容易實現,因而沒有容易而又低成本實現的無版權替代方案。行業標準基準測試是對競爭性產品進行比較的基礎,但是,供應商通常要承擔一筆可觀的費用以便獲得基準測試證據。bdti(berkeley設計科技有限公司)、eembc(edn嵌入式微處理器基準聯盟)和spec(標