出版時間:2010-5 出版社:科學(xué)出版社 作者:徐昕 頁數(shù):212
Tag標(biāo)簽:無
前言
增強(qiáng)學(xué)習(xí)(reinforcement learning,RL)又稱為強(qiáng)化學(xué)習(xí)或再勵學(xué)習(xí),它是近年來機(jī)器學(xué)習(xí)和智能控制領(lǐng)域的前沿和熱點(diǎn),與監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)并列三大類機(jī)器學(xué)習(xí)方法之一。增強(qiáng)學(xué)習(xí)強(qiáng)調(diào)以不確定條件下序貫決策的優(yōu)化為目標(biāo),是復(fù)雜系統(tǒng)自適應(yīng)優(yōu)化控制的一類重要方法,具有與運(yùn)籌學(xué)、控制理論、機(jī)器人學(xué)等交叉綜合的特點(diǎn)。特別是近十年來,有關(guān)近似動態(tài)規(guī)劃(approximate dynamicprogramming,ADP)的研究成為增強(qiáng)學(xué)習(xí)、運(yùn)籌學(xué)和優(yōu)化控制理論等相關(guān)領(lǐng)域的關(guān)注熱點(diǎn)。例如,美國國家科學(xué)基金會于2006年召開的近似動態(tài)規(guī)劃論壇(NSF-ADP06),IEEE分別于2007年和2009年召開的近似動態(tài)規(guī)劃與增強(qiáng)學(xué)習(xí)專題國際研討會(IEEE ADPRL 2007、IEEE ADPRL 2009)等。另外,IEEE計算智能學(xué)會于近年專門成立了近似動態(tài)規(guī)劃與增強(qiáng)學(xué)習(xí)技術(shù)委員會(IEEE TC on ADPRL)。在以電梯調(diào)度、網(wǎng)絡(luò)路由控制等為代表的大規(guī)模優(yōu)化決策應(yīng)用中,增強(qiáng)學(xué)習(xí)顯示了相對傳統(tǒng)監(jiān)督學(xué)習(xí)和數(shù)學(xué)規(guī)劃方法的優(yōu)勢。在智能機(jī)器人系統(tǒng)、復(fù)雜不確定系統(tǒng)的優(yōu)化控制等領(lǐng)域,增強(qiáng)學(xué)習(xí)的應(yīng)用也正在不斷得到推廣。本書是作者多年從事增強(qiáng)學(xué)習(xí)與近似動態(tài)規(guī)劃理論、算法與應(yīng)用研究的成果總結(jié),許多成果是近年來最新取得的研究成果,是一部系統(tǒng)探討增強(qiáng)學(xué)習(xí)與近似動態(tài)規(guī)劃的學(xué)術(shù)著作。 本書有以下幾個特點(diǎn):(1)新穎性和前沿性。本書深入論述了增強(qiáng)學(xué)習(xí)與近似動態(tài)規(guī)劃的核心與前沿研究課題——大規(guī)模連續(xù)空間Markov決策過程的值函數(shù)與策略逼近問題,對近年來取得的研究進(jìn)展進(jìn)行了充分討論。本書大多數(shù)理論、算法與實(shí)驗(yàn)結(jié)果都是作者近年來在研究工作中取得的成果。(2)多學(xué)科交叉。增強(qiáng)學(xué)習(xí)與近似動態(tài)規(guī)劃的研究涉及機(jī)器學(xué)習(xí)、運(yùn)籌學(xué)、智能控制、機(jī)器人學(xué)等多個學(xué)科領(lǐng)域,具有較強(qiáng)的學(xué)科交叉特點(diǎn)和較寬的學(xué)科覆蓋面,對相關(guān)領(lǐng)域的學(xué)術(shù)創(chuàng)新起到了積極的促進(jìn)作用。(3)理論與應(yīng)用密切結(jié)合。本書在論述增強(qiáng)學(xué)習(xí)與近似動態(tài)規(guī)劃理論和算法研究進(jìn)展的同時,結(jié)合智能控制、機(jī)器人等領(lǐng)域的應(yīng)用實(shí)例,在算法研究和理論分析的基礎(chǔ)上,開展了大量的仿真和實(shí)驗(yàn)驗(yàn)證,有利于讀者盡快把握理論和應(yīng)用的結(jié)合點(diǎn)。
內(nèi)容概要
本書對增強(qiáng)學(xué)習(xí)與近似動態(tài)規(guī)劃的理論、算法及應(yīng)用進(jìn)行了深入研究和論述。主要內(nèi)容包括:求解Markov鏈學(xué)習(xí)預(yù)測問題的時域差值學(xué)習(xí)算法和理論,求解連續(xù)空間Markov決策問題的梯度增強(qiáng)學(xué)習(xí)算法以及進(jìn)化一梯度混合增強(qiáng)學(xué)習(xí)算法,基于核的近似動態(tài)規(guī)劃算法,增強(qiáng)學(xué)習(xí)在移動機(jī)器人導(dǎo)航與控制中的應(yīng)用等。本書是作者在多個國家自然科學(xué)基金項(xiàng)目資助下取得的研究成果的總結(jié),意在推動增強(qiáng)學(xué)習(xí)與近似動態(tài)規(guī)劃理論與應(yīng)用的發(fā)展,對于智能科學(xué)的前沿研究和智能學(xué)習(xí)系統(tǒng)的應(yīng)用具有重要的科學(xué)意義。 本書可作為高等院校與科研院所中從事人工智能與智能信息處理、機(jī)器人與智能控制、智能決策支持系統(tǒng)等專業(yè)領(lǐng)域的研究和教學(xué)用書,也可作為自動化、計算機(jī)與管理學(xué)領(lǐng)域其他相關(guān)專業(yè)師生及科研人員的參考書。
書籍目錄
《智能科學(xué)技術(shù)著作叢書》序前言第1章 緒論 1.1 引言 1.2 增強(qiáng)學(xué)習(xí)與近似動態(tài)規(guī)劃的研究概況 1.2.1 增強(qiáng)學(xué)習(xí)研究的相關(guān)學(xué)科背景 1.2.2 增強(qiáng)學(xué)習(xí)算法的研究進(jìn)展 1.2.3 增強(qiáng)學(xué)習(xí)的泛化方法與近似動態(tài)規(guī)劃 1.2.4 增強(qiáng)學(xué)習(xí)相關(guān)理論研究與多Agent增強(qiáng)學(xué)習(xí) 1.2.5 增強(qiáng)學(xué)習(xí)應(yīng)用的研究進(jìn)展 1.3 移動機(jī)器人導(dǎo)航控制方法的研究現(xiàn)狀和發(fā)展趨勢 1.3.1 移動機(jī)器人體系結(jié)構(gòu)的研究進(jìn)展 1.3.2 移動機(jī)器人反應(yīng)式導(dǎo)航方法的研究概況 1.3.3 移動機(jī)器人路徑跟蹤控制的研究概況 1.4 全書的組織結(jié)構(gòu) 參考文獻(xiàn)第2章 線性時域差值學(xué)習(xí)理論與算法 2.1 Markov鏈與多步學(xué)習(xí)預(yù)測問題 2.1.1 Markov鏈的基礎(chǔ)理論 2.1.2 基于Markov鏈的多步學(xué)習(xí)預(yù)測問題 2.2 TD(λ)學(xué)習(xí)算法 2.2.1 表格型TD(λ)學(xué)習(xí)算法 2.2.2 基于值函數(shù)逼近的TD(λ)學(xué)習(xí)算法 2.3 多步遞推最小二乘TD學(xué)習(xí)算法及其收斂性理論 2.3.1 多步遞推最小二乘TD(RLS-TD(λ)學(xué)習(xí)算法 2.3.2 RLS-TD(λ)學(xué)習(xí)算法的一致收斂性分析 2.4 多步學(xué)習(xí)預(yù)測的仿真研究 2.4.1 HlopWorld問題學(xué)習(xí)預(yù)測仿真 2.4.2 連續(xù)狀態(tài)隨機(jī)行走問題的學(xué)習(xí)預(yù)測仿真 2.5 小結(jié) 參考文獻(xiàn)第3章 基于核的時域差值學(xué)習(xí)算法 3.1 核方法與基于核的學(xué)習(xí)機(jī)器 3.1.1 核函數(shù)的概念與性質(zhì) 3.1.2 再生核Hilbert空間與核函數(shù)方法 3.2 核最小二乘時域差值學(xué)習(xí)算法 3.2.1 線性TD(λ)學(xué)習(xí)算法 3.2.2 KLS-TD(λ)學(xué)習(xí)算法 3.2.3 學(xué)習(xí)預(yù)測實(shí)驗(yàn)與比較 3.3 小結(jié) 參考文獻(xiàn)第4章 求解Markov決策問題的梯度增強(qiáng)學(xué)習(xí)算法 4.1 Markov決策過程與表格型增強(qiáng)學(xué)習(xí)算法 4.1.1 Markov決策過程及其最優(yōu)值函數(shù) 4.1.2 表格型增強(qiáng)學(xué)習(xí)算法及其收斂性理論 4.2 基于改進(jìn)CMAC的直接梯度增強(qiáng)學(xué)習(xí)算法 4.2.1 CMAC的結(jié)構(gòu) 4.2.2 基于C2MAC的直接梯度增強(qiáng)學(xué)習(xí)算法 4.2.3 兩種改進(jìn)的C2MAC編碼結(jié)構(gòu)及其應(yīng)用實(shí)例 4.3 基于值函數(shù)逼近的殘差梯度增強(qiáng)學(xué)習(xí)算法 4.3.1 多層前饋神經(jīng)網(wǎng)絡(luò)函數(shù)逼近器與已有的梯度增強(qiáng)學(xué)習(xí)算法 4.3.2 非平穩(wěn)策略殘差梯度(RGNP)增強(qiáng)學(xué)習(xí)算法 4.3.3 RGNP學(xué)習(xí)算法的收斂性和近似最優(yōu)策略性能的理論分析 4.3.4 Mountain-Car問題的仿真研究 4.3.5 Acrobot學(xué)習(xí)控制的仿真研究 4.4 求解連續(xù)行為空間Markov決策問題的快速AHC學(xué)習(xí)算法 4.4.1 AHC學(xué)習(xí)算法與Actor-Critic學(xué)習(xí)控制結(jié)構(gòu) 4.4.2 Fast-AHC學(xué)習(xí)算法 4.4.3 連續(xù)控制量條件下的倒立擺學(xué)習(xí)控制仿真研究 4.4.4 連續(xù)控制量條件下Acrobot系統(tǒng)的學(xué)習(xí)控制 4.5 小結(jié) 參考文獻(xiàn)第5章 求解Markov決策問題的進(jìn)化-梯度混合增強(qiáng)學(xué)習(xí)算法 5.1 進(jìn)化計算的基本原理和方法 5.1.1 進(jìn)化計算的基本原理和算法框架 5.1.2 進(jìn)化算法的基本要素 5.1.3 進(jìn)化算法的控制參數(shù)和性能評估 5.2 求解離散行為空間MDP的進(jìn)化-梯度混合算法 5.2.1 HERG算法的設(shè)計要點(diǎn) 5.2.2 HERG算法的流程 5.2.3 HtERG算法的應(yīng)用實(shí)例:Mountain-Car學(xué)習(xí)控制問題 5.2.4 Acrobot系統(tǒng)的進(jìn)化增強(qiáng)學(xué)習(xí)仿真 5.3 求解連續(xù)行為空間MDP的進(jìn)化-梯度混合增強(qiáng)學(xué)習(xí)算法 5.3.1 進(jìn)化AHC算法 5.3.2 連續(xù)控制量條件下Acrobot系統(tǒng)的進(jìn)化增強(qiáng)學(xué)習(xí)仿真 5.4 小結(jié) 參考文獻(xiàn)第6章 基于核的近似動態(tài)規(guī)劃算法與理論 6.1 增強(qiáng)學(xué)習(xí)與近似動態(tài)規(guī)劃的若干核心問題 6.2 基于核的近似策略迭代算法與收斂性理論 6.2.1 策略迭代與TD學(xué)習(xí)算法 6.2.2 核策略迭代算法KLSPI的基本框架 6.2.3 采用核稀疏化技術(shù)的KLSTD-Q時域差值算法 6.2.4 KLSPI算法的收斂性分析 6.3 核策略迭代算法的性能測試實(shí)驗(yàn)研究 6.3.1 具有20個狀態(tài)的隨機(jī)Markov鏈問題 6.3.2 具有50個狀態(tài)的隨機(jī)Markov決策問題 6.3.3 隨機(jī)倒立擺學(xué)習(xí)控制問題 6.4 小結(jié) 參考文獻(xiàn)第7章 基于增強(qiáng)學(xué)習(xí)的移動機(jī)器人反應(yīng)式導(dǎo)航方法 7.1 基于分層學(xué)習(xí)的移動機(jī)器人混合式體系結(jié)構(gòu) 7.2 基于增強(qiáng)學(xué)習(xí)的移動機(jī)器人反應(yīng)式導(dǎo)航體系結(jié)構(gòu)與算法 7.2.1 未知環(huán)境中移動機(jī)器人導(dǎo)航混合式體系結(jié)構(gòu)的具體設(shè)計 7.2.2 基于神經(jīng)網(wǎng)絡(luò)增強(qiáng)學(xué)習(xí)的反應(yīng)式導(dǎo)航算法 7.3 移動機(jī)器人增強(qiáng)學(xué)習(xí)導(dǎo)航的仿真和實(shí)驗(yàn)研究 7.3.1 CIT-AVT-VI移動機(jī)器人平臺的傳感器系統(tǒng)與仿真實(shí)驗(yàn)環(huán)境 7.3.2 增強(qiáng)學(xué)習(xí)導(dǎo)航的仿真研究 7.3.3 CIT-AVT-VI移動機(jī)器人的實(shí)時學(xué)習(xí)導(dǎo)航控制實(shí)驗(yàn) 7.4 小結(jié) 參考文獻(xiàn)第8章 RL與ADP在移動機(jī)器人運(yùn)動控制中的應(yīng)用 8.1 基于增強(qiáng)學(xué)習(xí)的自適應(yīng)PID控制器 8.2 自動駕駛汽車的側(cè)向增強(qiáng)學(xué)習(xí)控制 8.2.1 自動駕駛汽車的動力學(xué)模型 8.2.2 用于自動駕駛汽車側(cè)向控制的增強(qiáng)學(xué)習(xí)PID控制器設(shè)計 8.2.3 自動駕駛汽車直線路徑跟蹤仿真 8.3 基于在線增強(qiáng)學(xué)習(xí)的室內(nèi)移動機(jī)器人路徑跟蹤控制 8.3.1 一類室內(nèi)移動機(jī)器人系統(tǒng)的運(yùn)動學(xué)和動力學(xué)模型 8.3.2 增強(qiáng)學(xué)習(xí)路徑跟蹤控制器設(shè)計 8.3.3 參考路徑為直線時的仿真研究 8.3.4 參考路徑為圓弧時的仿真研究 8.3.5 CIT-AVT-VI移動機(jī)器人實(shí)時在線學(xué)習(xí)路徑跟蹤實(shí)驗(yàn) 8.4 采用近似策略迭代的移動機(jī)器人學(xué)習(xí)控制方法研究 8.4.1 基于近似策略迭代的學(xué)習(xí)控制方法與仿真研究 8.4.2 基于P3-AT平臺的學(xué)習(xí)控制器設(shè)計 8.4.3 直線跟隨實(shí)驗(yàn) 8.4.4 曲線跟隨實(shí)驗(yàn) 8.5 小結(jié) 參考文獻(xiàn)第9章 總結(jié)與展望
章節(jié)摘錄
插圖:1.3.3 移動機(jī)器人路徑跟蹤控制的研究概況移動機(jī)器人的路徑跟蹤控制是指在完成路徑規(guī)劃的條件下,通過設(shè)計反饋控制律實(shí)現(xiàn)移動機(jī)器人對規(guī)劃路徑的閉環(huán)跟蹤控制。路徑跟蹤控制問題在許多移動機(jī)器人的應(yīng)用場合具有重要的作用,如包括無人駕駛汽車在內(nèi)的自主地面車輛(ALV)和用于運(yùn)輸環(huán)境的自動導(dǎo)引車輛(AGV)等。在上述應(yīng)用條件下,全局路徑往往可以事先規(guī)劃完成,移動機(jī)器人對規(guī)劃路徑的高性能跟蹤成為有效完成導(dǎo)航任務(wù)的一個關(guān)鍵。目前針對移動機(jī)器人的動力學(xué)建模和路徑跟蹤控制問題已開展了大量的研究工作。移動機(jī)器人作為一類具有非完整特性的機(jī)電系統(tǒng),難以建立其精確的動力學(xué)模型,并且系統(tǒng)的動力學(xué)特性還受到運(yùn)行速度和環(huán)境條件變化的影響,特別是對于高速運(yùn)行的無人駕駛汽車等移動機(jī)器人系統(tǒng),其動力學(xué)參數(shù)隨車速變化明顯。因此移動機(jī)器人的路徑跟蹤控制成為控制理論和工程界的一個研究熱點(diǎn)和難點(diǎn)。已經(jīng)提出的移動機(jī)器人路徑跟蹤控制方法包括PID控制、滑??刂啤⒎蔷€性狀態(tài)反饋控制和智能控制方法等。PID控制是目前在實(shí)際系統(tǒng)中應(yīng)用較多的一種設(shè)計方法,該方法對系統(tǒng)模型依賴較少,且具有一定的魯棒性,但參數(shù)優(yōu)化困難,難以實(shí)現(xiàn)對模型變化的自適應(yīng)調(diào)節(jié)。滑??刂坪头蔷€性反饋控制能夠在一定模型假設(shè)下通過離線設(shè)計保證系統(tǒng)的穩(wěn)定性,但存在對模型依賴性大、難以實(shí)現(xiàn)在線學(xué)習(xí)和自適應(yīng)的缺點(diǎn)。移動機(jī)器人路徑跟蹤的智能控制方法是近年來得到普遍注意的一個研究領(lǐng)域,有關(guān)學(xué)者已提出了多種用于移動機(jī)器人路徑跟蹤的智能控制方法,如模糊路徑跟蹤控制器、基于神經(jīng)網(wǎng)絡(luò)的路徑跟蹤控制和模糊神經(jīng)網(wǎng)絡(luò)控制器等。上述智能控制方法都具有不依賴于系統(tǒng)的動力學(xué)模型,具有自適應(yīng)和學(xué)習(xí)能力等優(yōu)點(diǎn),但仍然需要解決知識自動獲取的問題,即監(jiān)督學(xué)習(xí)的教師信號設(shè)計。增強(qiáng)學(xué)習(xí)方法作為一類基于機(jī)器學(xué)習(xí)的自適應(yīng)最優(yōu)控制方法,在復(fù)雜系統(tǒng)的控制器優(yōu)化設(shè)計方面具有廣泛的應(yīng)用前景,目前已成功地應(yīng)用于某些非線性系統(tǒng)的學(xué)習(xí)控制中。
圖書封面
圖書標(biāo)簽Tags
無
評論、評分、閱讀與下載
增強(qiáng)學(xué)習(xí)與近似動態(tài)規(guī)劃 PDF格式下載