大規(guī)模并行處理器編程實戰(zhàn)

出版時間:2010-9  出版社:清華大學出版社  作者:科克(David B. Kirk)  頁數(shù):211  字數(shù):293000  譯者:陳曙暉,熊淑華  
Tag標簽:無  

前言

  大眾市場上的計算系統(tǒng)將多核CPU和眾核GPU兩者結(jié)合起來,在筆記本電腦上的運算速度可以達到萬億次,在集群系統(tǒng)中的運算速度可以達到千萬億次。具有這種計算能力以后,我們有望很快將計算實驗推廣到科學、工程、健康和商業(yè)等領域。通過使用計算實驗,很多人可能會在他們的學科領域中有所突破,這種規(guī)模是可控的、可觀測的但規(guī)模水平又是空前的。本書提供了實現(xiàn)這種構(gòu)想的關(guān)鍵途徑:教會數(shù)百萬的本科生和研究生并行編程,使計算思維能力和并行編程技能像數(shù)學運算那樣普及?! 倪@門課的前身ECE498AL開始。在2006年的圣誕假期間,我們在瘋狂地致力于幻燈片的講座和實驗作業(yè)。David正在開發(fā)一套系統(tǒng),試著把早期的Ge Force 8800 GTX GPU卡經(jīng)客輪拉到伊利諾伊州,但直到開學后幾個星期才到貨。顯然也是在開學后的幾個星期以后,CUDA才開始公開。我們必須制定出合法的合同,以便在最初的幾個星期內(nèi)就能依照NDA保密協(xié)議為學生開設這門課程。我們也需要公開,這樣學生才會來報名,直到預報告階段之后我們才會公開這個課程?! ?007年1月16日,我們上了第一堂課。所有事情才算是安頓下來。David每周都要乘公交車來Urbana上課。我們招收了52個學生,比我們要招收的人數(shù)還多兩個。前10次課,我們大都要制作幻燈片。Wen-mei的研究生John Stratton,欣然主動地要求擔任教學助理,并幫我們布置實驗室。所有的學生都簽了NDA,因此在CUDA公開前,我們可以繼續(xù)上前幾次課。我們把課堂的內(nèi)容記錄下來,但直到2月份才把它發(fā)布到網(wǎng)上。我們有物理、天文、化學、電氣工程、機械工程,以及計算機科學和計算機工程專業(yè)的研究生。教室里洋溢的熱情使我們都覺得這一切都是值得的。

內(nèi)容概要

本書介紹了學生和專業(yè)人員都適合的并行編程與GPU體系結(jié)構(gòu)的基本概念,詳細剖析了編寫并行程序所需的各種技術(shù),用案例研究說明了并行程序設計的整個開發(fā)過程,即從計算機思想開始,直到最終實現(xiàn)高效可行的并行程序。

作者簡介

  科克(David B. Kirk),博士:美國國家工程院院士,NVIDIA公司首席科學家,擁有麻省琿工學院的機械工程學學士和碩十學位,加州理工學院的計算機科學博士學位。Kirk博士是50項與圖形芯片設計相關(guān)的專利和專利申請的發(fā)明者,發(fā)表了50多篇關(guān)于圖形處理技術(shù)的論文,是可視化計算技術(shù)方面的權(quán)威。  胡文美(Wen-mei W. Hwu),教授:擁有美國加州大學伯克利分校計算機科學博士學位,擔任伊利諾伊大學厄巴納一香檳分校協(xié)調(diào)科學實驗室的電氣和計算機工程主席,領導IMPACT研究中心并負責Open IMPACT項目,該項目為計算機行業(yè)提供編譯器和計算機架構(gòu)新技術(shù)。Hwu教授還擔任通用并行計算研究中心聯(lián)合主任,是全球首個ACUDA卓越中心首席研究員。

書籍目錄

第1章  引言  1.1 GPU與并行計算機  1.2 現(xiàn)代GPU的體系結(jié)構(gòu)  1.3 為什么需要更高的速度和并行化  1.4 并行編程語言與模型  1.5 綜合目標  1.6 本書的組織結(jié)構(gòu)第2章  GPU計算的發(fā)展歷程  2.1 圖形流水線的發(fā)展    2.1.1 固定功能的圖形流水線時代    2.1.2 可編程實時圖形流水線的發(fā)展    2.1.3 圖形與計算結(jié)合的處理器    2.1.4 GPU:一個中間步驟  2.2 GPUU計算    2.2.1 可擴展的GPU    2.2.2 發(fā)展近況  2.3 未來發(fā)展趨勢第3章  CUDA簡介  3.1 數(shù)據(jù)并行性  3.2 CUUDA的程序結(jié)構(gòu)  3.3 矩陣乘法示例  3.4 設備存儲器與數(shù)據(jù)傳輸  3.5 kernel函數(shù)與線程  3.6 小結(jié)    3.6.1 函數(shù)聲明    3.6.2 啟動kernel函數(shù)    3.6.3 預定義變量    3.6.4 運行時API第4章  CUDA線程  4.1 CUDA線程組織結(jié)構(gòu)  4.2 使用blockIdx和threadIdx  4.3 同步與透明可擴展性  4.4 線程分配  4.5 線程調(diào)度和容許延時  4.6 小結(jié)  4.7 習題第5章  CUDA存儲器模型  5.1 存儲器訪問效率的重要性  5.2 CUUDA設備存儲器的類型  5.3 減少全局存儲器流量的策略  5.4 存儲器——限制并行性的一個因素  5.5 小結(jié)  5.6 習題第6章  性能優(yōu)化  6.1 更多關(guān)于線程執(zhí)行的問題  6.2 全局存儲器的帶寬  6.3 SM資源的動態(tài)劃分  6.4 數(shù)據(jù)預取  6.5 指令混合  6.6 線程粒度  6.7 可度量的性能和小結(jié)  6.8 習題第7章  浮點運算  7.1 浮點格式    7.1.1 M的規(guī)范化表示    7.1.2 E的余碼表示  7.2 能表示的數(shù)  7.3 特殊的位模式與精度  7.4 算術(shù)運算的準確度和舍入  7.5 算法的優(yōu)化  7.6 小結(jié)  7.7 習題第8章  應用案例研究:高級MRI重構(gòu)  8.1 應用背景  8.2 迭代重構(gòu)  8.3 計算FHd  8.4 最終評估  8.5 習題第9章  應用案例研究:分子可視化和分析  9.1 應用背景  9.2 kernel函數(shù)簡單的實現(xiàn)方案  9.3 指令執(zhí)行效率  9.4 存儲器合并  9.5 附加性能比較  9.6 采用多GPU  9.7 習題第10章  并行編程和計算思想  10.1 并行編程的目標  10.2 問題分解  10.3 算法選擇  10.4 計算思想  10.5 習題第11章  OpenCL簡介  11.1 背景  11.2 數(shù)據(jù)并行性模型  11.3 設備的體系結(jié)構(gòu)  11.4 kernel函數(shù)  11.5 設備管理和啟動kernel  11.6 OpenCL中的靜電勢圖譜  11.7 小結(jié)  11.8 習題第12章  結(jié)論與展望  12.1 重申目標  12.2 存儲器體系結(jié)構(gòu)的演變    12.2.1 大型虛擬和物理地址空間    12.2.2 統(tǒng)一的設備存儲空間    12.2.3 可配置的緩存和暫時存儲器    12.2.4 提高原子操作的速度    12.2.5 提高全局存儲器的訪問速度  12.3 kernel函數(shù)執(zhí)行控制過程的演變    12.3.1 kernel函數(shù)內(nèi)部的函數(shù)調(diào)用    12.3.2 kernel函數(shù)中的異常處理    12.3.3 多個kernel函數(shù)的同步執(zhí)行    12.3.4 可中斷的kernel函數(shù)  12.4 內(nèi)核的性能    12.4.1 雙精度的速度    12.4.2 提高控制流的效率  12.5 編程環(huán)境  12.6 美好前景附錄A  矩陣乘法主機版的源代碼附錄B  GPU的計算能力

章節(jié)摘錄

  本書第二個目標是講解如何編寫功能正確的、可靠的并行程序,這是并行計算中的技巧問題。過去曾從事過并行系統(tǒng)方面工作的開發(fā)人員會知道,僅保證初始性能是遠遠不夠的。我們面臨的挑戰(zhàn)是如何在可以調(diào)試代碼和支持用戶的情況下實現(xiàn)高性能。CUDA編程模型關(guān)注的焦點是數(shù)據(jù)并行性,我們將幫助讀者在他們的應用程序中實現(xiàn)高性能和高可靠性?! ”緯谌齻€目標是通過探討一些方法來使目前的并行編程實現(xiàn)可擴展性,能適應未來硬件更新?lián)Q代的要求。對于未來的計算機,程序并行化程度會越來越高,程序運行速度也會比現(xiàn)在的計算機更快。我們想幫助讀者掌握并行編程,以便隨著新一代計算機的出現(xiàn),程序的性能有所提升。  讀者要想達到上述目標,需要掌握相當多的技術(shù)知識,因此本書主要討論并行編程的設計原理和模式。我們不能保證本書能覆蓋所有相關(guān)知識,但是我們從中選取最有用也是經(jīng)得起考驗的技術(shù)進行深入研究。為了補充讀者的知識和經(jīng)驗,我們將推薦一個相關(guān)參考文獻列表。接下來我們準備對本書的其余部分做一個簡單的概述。

媒體關(guān)注與評論

  “對于希望學習GPU并行編程的讀者,《大規(guī)模并行處理器編程實戰(zhàn)》簡直是天賜之物。書中介紹了CUDA,一種類C的數(shù)據(jù)并行語言,介紹了Tesla,當前的NVIDIA GPU顯示核心的體系結(jié)構(gòu)。除了解釋語言和體系結(jié)構(gòu),《大規(guī)模并行處理器編程實戰(zhàn)》還詳細說明了可以在異構(gòu)CPU-GPU硬件上平穩(wěn)運行的數(shù)據(jù)并行問題的類型……《大規(guī)模并行處理器編程實戰(zhàn)》是一本重要的并行計算參考文獻?!薄  狣avid Patterson(美國國家工程院院土,加州大學伯克利分校并行計算研究實驗室主任兼計算機科學系Pardee教授,IEEE與ACM會員)大力推薦

圖書封面

圖書標簽Tags

評論、評分、閱讀與下載


    大規(guī)模并行處理器編程實戰(zhàn) PDF格式下載


用戶評論 (總計6條)

 
 

  •   學習cuda并行計算非常好的一本書
  •   學習cuda的好書,正在學習。
  •   如題,不過還是不錯的,沒幾天就賣完了,慶幸自己買的早,吼吼~~~
  •   并行編程的經(jīng)典書籍,值得購買~~
  •   作為CUDA編程的參考書還是不錯的,不過有些內(nèi)容比較老了,需要更新了。
  •     適合初中級讀者。
      
      比較喜歡書的整體結(jié)構(gòu)和安排,比較注重并行處理思想的貫穿。
      在每章節(jié)都有一些核心思想的深入,比如延遲隱藏技術(shù),內(nèi)存使用方面 有詳細的講解。
      
      不足之處是設計內(nèi)容比較廣泛,因此基本每章的內(nèi)存都是點到為止,沒有具體的深入分析。
      
      
      后面的幾個實例還是挺好的,概括了性能優(yōu)化里最常用也是最有效的一些方法。
      
      推薦有空翻翻。
 

250萬本中文圖書簡介、評論、評分,PDF格式免費下載。 第一圖書網(wǎng) 手機版

京ICP備13047387號-7