出版時間:2011-2 出版社:清華大學(xué)出版社 作者:曹希仁 頁數(shù):425 譯者:陳曦
Tag標(biāo)簽:無
內(nèi)容概要
隨機學(xué)習(xí)與優(yōu)化在現(xiàn)代工程、社會、金融問題中具有廣泛的應(yīng)用。本書以一個統(tǒng)一的框架,涵蓋了離散事件動態(tài)系統(tǒng)的攝動分析、馬爾可大決策過程、強化學(xué)習(xí)、辨識和自適應(yīng)控制等學(xué)習(xí)和優(yōu)化的不同學(xué)科;并利用基于性能差分公式的簡單方法介紹馬爾可夫決策過程理論,通過該方法能求得以長期平均代價為準(zhǔn)則的n階偏差優(yōu)化策略以及無折扣的Blackwell優(yōu)化策略。本書還包含有最近發(fā)展出來的基于事件的優(yōu)化方法,它為利用系統(tǒng)的特性來克服或減輕維數(shù)災(zāi)的研究開辟了個新方向。本書強調(diào)以樣本路徑的構(gòu)造為基礎(chǔ)的物理解釋,物理上的直觀認(rèn)識可以為完善已有的優(yōu)化方法提供新思路?! 閹椭x者理解掌握書中的內(nèi)容,本書提供了大量的示例和豐富的習(xí)題?! ”緯m合作為相關(guān)專業(yè)的研究生教材,學(xué)生可從一門課程中學(xué)到原本屬于多個不同學(xué)科的內(nèi)容。本書有助于促進(jìn)學(xué)習(xí)和優(yōu)化領(lǐng)域中各學(xué)科之間的合作,對該領(lǐng)域的研究人員也大有裨益。
書籍目錄
1 引言 1.1 學(xué)習(xí)和優(yōu)化概述 1.1.1 問題描述 1.1.2 最優(yōu)策略 1.1.3 學(xué)習(xí)和優(yōu)化的基本局限 1.1.4 學(xué)習(xí)和優(yōu)化的基于靈敏度的觀點 1.2 不同學(xué)科中問題的描述 1.2.1 攝動分析(PA) 1.2.2 馬爾可夫決策過程 1.2.3 強化學(xué)習(xí) 1.2.4 辨識和自適應(yīng)控制 1.2.5 基于事件的優(yōu)化和性能勢集結(jié) 1.3 學(xué)習(xí)和優(yōu)化學(xué)科關(guān)系圖 1.4 術(shù)語和符號 習(xí)題第1部分 學(xué)習(xí)與優(yōu)化的四門學(xué)科 2 攝動分析 2.1 馬爾可夫鏈的攝動分析 2.1.1 構(gòu)造攝動樣本路徑 2.1.2 攝動實現(xiàn)因子和性能勢 2.1.3 性能導(dǎo)數(shù)公式 2.1.4 折扣報酬準(zhǔn)則的梯度 2.1.5 高階導(dǎo)數(shù)和麥克勞林級數(shù) 2.2 馬爾可夫過程的性能靈敏度 2.3 半馬爾可夫過程的性能靈敏度 2.3.1 半馬爾可夫過程的基礎(chǔ)知識 2.3.2 性能靈敏度公式 2.4 排隊系統(tǒng)的攝動分析 2.4.1 構(gòu)造攝動樣本路徑 2.4.2 攝動實現(xiàn) 2.4.3 性能導(dǎo)數(shù) 2.4.4 相關(guān)理論問題的評注 2.5 其他方法 習(xí)題 3 利用攝動分析的學(xué)習(xí)與優(yōu)化 3.1 性能勢 3.1.1 數(shù)值方法 3.1.2 從樣本路徑學(xué)習(xí)性能勢 3.1.3 耦合 3.2 性能梯度 3.2.1 通過性能勢估計 3.2.2 直接學(xué)習(xí) 3.3 利用攝動分析的優(yōu)化 3.3.1 梯度方法和隨機逼近 3.3.2 利用長樣本路徑的優(yōu)化 3.3.3 應(yīng)用 習(xí)題 4 馬爾可夫決策過程 ……第2部分 基于事件的優(yōu)化——一種新方法第3部分 附錄:數(shù)學(xué)基礎(chǔ)
章節(jié)摘錄
版權(quán)頁:插圖:
編輯推薦
《隨機學(xué)習(xí)與優(yōu)化:基于靈敏度的方法》是信息技術(shù)和電氣工程學(xué)科國際知名教材之一。
圖書封面
圖書標(biāo)簽Tags
無
評論、評分、閱讀與下載