出版時間:2010-5 出版社:科學(xué)出版社 作者:徐昕 頁數(shù):212
Tag標簽:無
前言
增強學(xué)習(xí)(reinforcement learning,RL)又稱為強化學(xué)習(xí)或再勵學(xué)習(xí),它是近年來機器學(xué)習(xí)和智能控制領(lǐng)域的前沿和熱點,與監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)并列三大類機器學(xué)習(xí)方法之一。增強學(xué)習(xí)強調(diào)以不確定條件下序貫決策的優(yōu)化為目標,是復(fù)雜系統(tǒng)自適應(yīng)優(yōu)化控制的一類重要方法,具有與運籌學(xué)、控制理論、機器人學(xué)等交叉綜合的特點。特別是近十年來,有關(guān)近似動態(tài)規(guī)劃(approximate dynamicprogramming,ADP)的研究成為增強學(xué)習(xí)、運籌學(xué)和優(yōu)化控制理論等相關(guān)領(lǐng)域的關(guān)注熱點。例如,美國國家科學(xué)基金會于2006年召開的近似動態(tài)規(guī)劃論壇(NSF-ADP06),IEEE分別于2007年和2009年召開的近似動態(tài)規(guī)劃與增強學(xué)習(xí)專題國際研討會(IEEE ADPRL 2007、IEEE ADPRL 2009)等。另外,IEEE計算智能學(xué)會于近年專門成立了近似動態(tài)規(guī)劃與增強學(xué)習(xí)技術(shù)委員會(IEEE TC on ADPRL)。在以電梯調(diào)度、網(wǎng)絡(luò)路由控制等為代表的大規(guī)模優(yōu)化決策應(yīng)用中,增強學(xué)習(xí)顯示了相對傳統(tǒng)監(jiān)督學(xué)習(xí)和數(shù)學(xué)規(guī)劃方法的優(yōu)勢。在智能機器人系統(tǒng)、復(fù)雜不確定系統(tǒng)的優(yōu)化控制等領(lǐng)域,增強學(xué)習(xí)的應(yīng)用也正在不斷得到推廣。本書是作者多年從事增強學(xué)習(xí)與近似動態(tài)規(guī)劃理論、算法與應(yīng)用研究的成果總結(jié),許多成果是近年來最新取得的研究成果,是一部系統(tǒng)探討增強學(xué)習(xí)與近似動態(tài)規(guī)劃的學(xué)術(shù)著作。 本書有以下幾個特點:(1)新穎性和前沿性。本書深入論述了增強學(xué)習(xí)與近似動態(tài)規(guī)劃的核心與前沿研究課題——大規(guī)模連續(xù)空間Markov決策過程的值函數(shù)與策略逼近問題,對近年來取得的研究進展進行了充分討論。本書大多數(shù)理論、算法與實驗結(jié)果都是作者近年來在研究工作中取得的成果。(2)多學(xué)科交叉。增強學(xué)習(xí)與近似動態(tài)規(guī)劃的研究涉及機器學(xué)習(xí)、運籌學(xué)、智能控制、機器人學(xué)等多個學(xué)科領(lǐng)域,具有較強的學(xué)科交叉特點和較寬的學(xué)科覆蓋面,對相關(guān)領(lǐng)域的學(xué)術(shù)創(chuàng)新起到了積極的促進作用。(3)理論與應(yīng)用密切結(jié)合。本書在論述增強學(xué)習(xí)與近似動態(tài)規(guī)劃理論和算法研究進展的同時,結(jié)合智能控制、機器人等領(lǐng)域的應(yīng)用實例,在算法研究和理論分析的基礎(chǔ)上,開展了大量的仿真和實驗驗證,有利于讀者盡快把握理論和應(yīng)用的結(jié)合點。
內(nèi)容概要
本書對增強學(xué)習(xí)與近似動態(tài)規(guī)劃的理論、算法及應(yīng)用進行了深入研究和論述。主要內(nèi)容包括:求解Markov鏈學(xué)習(xí)預(yù)測問題的時域差值學(xué)習(xí)算法和理論,求解連續(xù)空間Markov決策問題的梯度增強學(xué)習(xí)算法以及進化一梯度混合增強學(xué)習(xí)算法,基于核的近似動態(tài)規(guī)劃算法,增強學(xué)習(xí)在移動機器人導(dǎo)航與控制中的應(yīng)用等。本書是作者在多個國家自然科學(xué)基金項目資助下取得的研究成果的總結(jié),意在推動增強學(xué)習(xí)與近似動態(tài)規(guī)劃理論與應(yīng)用的發(fā)展,對于智能科學(xué)的前沿研究和智能學(xué)習(xí)系統(tǒng)的應(yīng)用具有重要的科學(xué)意義。 本書可作為高等院校與科研院所中從事人工智能與智能信息處理、機器人與智能控制、智能決策支持系統(tǒng)等專業(yè)領(lǐng)域的研究和教學(xué)用書,也可作為自動化、計算機與管理學(xué)領(lǐng)域其他相關(guān)專業(yè)師生及科研人員的參考書。
書籍目錄
《智能科學(xué)技術(shù)著作叢書》序前言第1章 緒論 1.1 引言 1.2 增強學(xué)習(xí)與近似動態(tài)規(guī)劃的研究概況 1.2.1 增強學(xué)習(xí)研究的相關(guān)學(xué)科背景 1.2.2 增強學(xué)習(xí)算法的研究進展 1.2.3 增強學(xué)習(xí)的泛化方法與近似動態(tài)規(guī)劃 1.2.4 增強學(xué)習(xí)相關(guān)理論研究與多Agent增強學(xué)習(xí) 1.2.5 增強學(xué)習(xí)應(yīng)用的研究進展 1.3 移動機器人導(dǎo)航控制方法的研究現(xiàn)狀和發(fā)展趨勢 1.3.1 移動機器人體系結(jié)構(gòu)的研究進展 1.3.2 移動機器人反應(yīng)式導(dǎo)航方法的研究概況 1.3.3 移動機器人路徑跟蹤控制的研究概況 1.4 全書的組織結(jié)構(gòu) 參考文獻第2章 線性時域差值學(xué)習(xí)理論與算法 2.1 Markov鏈與多步學(xué)習(xí)預(yù)測問題 2.1.1 Markov鏈的基礎(chǔ)理論 2.1.2 基于Markov鏈的多步學(xué)習(xí)預(yù)測問題 2.2 TD(λ)學(xué)習(xí)算法 2.2.1 表格型TD(λ)學(xué)習(xí)算法 2.2.2 基于值函數(shù)逼近的TD(λ)學(xué)習(xí)算法 2.3 多步遞推最小二乘TD學(xué)習(xí)算法及其收斂性理論 2.3.1 多步遞推最小二乘TD(RLS-TD(λ)學(xué)習(xí)算法 2.3.2 RLS-TD(λ)學(xué)習(xí)算法的一致收斂性分析 2.4 多步學(xué)習(xí)預(yù)測的仿真研究 2.4.1 HlopWorld問題學(xué)習(xí)預(yù)測仿真 2.4.2 連續(xù)狀態(tài)隨機行走問題的學(xué)習(xí)預(yù)測仿真 2.5 小結(jié) 參考文獻第3章 基于核的時域差值學(xué)習(xí)算法 3.1 核方法與基于核的學(xué)習(xí)機器 3.1.1 核函數(shù)的概念與性質(zhì) 3.1.2 再生核Hilbert空間與核函數(shù)方法 3.2 核最小二乘時域差值學(xué)習(xí)算法 3.2.1 線性TD(λ)學(xué)習(xí)算法 3.2.2 KLS-TD(λ)學(xué)習(xí)算法 3.2.3 學(xué)習(xí)預(yù)測實驗與比較 3.3 小結(jié) 參考文獻第4章 求解Markov決策問題的梯度增強學(xué)習(xí)算法 4.1 Markov決策過程與表格型增強學(xué)習(xí)算法 4.1.1 Markov決策過程及其最優(yōu)值函數(shù) 4.1.2 表格型增強學(xué)習(xí)算法及其收斂性理論 4.2 基于改進CMAC的直接梯度增強學(xué)習(xí)算法 4.2.1 CMAC的結(jié)構(gòu) 4.2.2 基于C2MAC的直接梯度增強學(xué)習(xí)算法 4.2.3 兩種改進的C2MAC編碼結(jié)構(gòu)及其應(yīng)用實例 4.3 基于值函數(shù)逼近的殘差梯度增強學(xué)習(xí)算法 4.3.1 多層前饋神經(jīng)網(wǎng)絡(luò)函數(shù)逼近器與已有的梯度增強學(xué)習(xí)算法 4.3.2 非平穩(wěn)策略殘差梯度(RGNP)增強學(xué)習(xí)算法 4.3.3 RGNP學(xué)習(xí)算法的收斂性和近似最優(yōu)策略性能的理論分析 4.3.4 Mountain-Car問題的仿真研究 4.3.5 Acrobot學(xué)習(xí)控制的仿真研究 4.4 求解連續(xù)行為空間Markov決策問題的快速AHC學(xué)習(xí)算法 4.4.1 AHC學(xué)習(xí)算法與Actor-Critic學(xué)習(xí)控制結(jié)構(gòu) 4.4.2 Fast-AHC學(xué)習(xí)算法 4.4.3 連續(xù)控制量條件下的倒立擺學(xué)習(xí)控制仿真研究 4.4.4 連續(xù)控制量條件下Acrobot系統(tǒng)的學(xué)習(xí)控制 4.5 小結(jié) 參考文獻第5章 求解Markov決策問題的進化-梯度混合增強學(xué)習(xí)算法 5.1 進化計算的基本原理和方法 5.1.1 進化計算的基本原理和算法框架 5.1.2 進化算法的基本要素 5.1.3 進化算法的控制參數(shù)和性能評估 5.2 求解離散行為空間MDP的進化-梯度混合算法 5.2.1 HERG算法的設(shè)計要點 5.2.2 HERG算法的流程 5.2.3 HtERG算法的應(yīng)用實例:Mountain-Car學(xué)習(xí)控制問題 5.2.4 Acrobot系統(tǒng)的進化增強學(xué)習(xí)仿真 5.3 求解連續(xù)行為空間MDP的進化-梯度混合增強學(xué)習(xí)算法 5.3.1 進化AHC算法 5.3.2 連續(xù)控制量條件下Acrobot系統(tǒng)的進化增強學(xué)習(xí)仿真 5.4 小結(jié) 參考文獻第6章 基于核的近似動態(tài)規(guī)劃算法與理論 6.1 增強學(xué)習(xí)與近似動態(tài)規(guī)劃的若干核心問題 6.2 基于核的近似策略迭代算法與收斂性理論 6.2.1 策略迭代與TD學(xué)習(xí)算法 6.2.2 核策略迭代算法KLSPI的基本框架 6.2.3 采用核稀疏化技術(shù)的KLSTD-Q時域差值算法 6.2.4 KLSPI算法的收斂性分析 6.3 核策略迭代算法的性能測試實驗研究 6.3.1 具有20個狀態(tài)的隨機Markov鏈問題 6.3.2 具有50個狀態(tài)的隨機Markov決策問題 6.3.3 隨機倒立擺學(xué)習(xí)控制問題 6.4 小結(jié) 參考文獻第7章 基于增強學(xué)習(xí)的移動機器人反應(yīng)式導(dǎo)航方法 7.1 基于分層學(xué)習(xí)的移動機器人混合式體系結(jié)構(gòu) 7.2 基于增強學(xué)習(xí)的移動機器人反應(yīng)式導(dǎo)航體系結(jié)構(gòu)與算法 7.2.1 未知環(huán)境中移動機器人導(dǎo)航混合式體系結(jié)構(gòu)的具體設(shè)計 7.2.2 基于神經(jīng)網(wǎng)絡(luò)增強學(xué)習(xí)的反應(yīng)式導(dǎo)航算法 7.3 移動機器人增強學(xué)習(xí)導(dǎo)航的仿真和實驗研究 7.3.1 CIT-AVT-VI移動機器人平臺的傳感器系統(tǒng)與仿真實驗環(huán)境 7.3.2 增強學(xué)習(xí)導(dǎo)航的仿真研究 7.3.3 CIT-AVT-VI移動機器人的實時學(xué)習(xí)導(dǎo)航控制實驗 7.4 小結(jié) 參考文獻第8章 RL與ADP在移動機器人運動控制中的應(yīng)用 8.1 基于增強學(xué)習(xí)的自適應(yīng)PID控制器 8.2 自動駕駛汽車的側(cè)向增強學(xué)習(xí)控制 8.2.1 自動駕駛汽車的動力學(xué)模型 8.2.2 用于自動駕駛汽車側(cè)向控制的增強學(xué)習(xí)PID控制器設(shè)計 8.2.3 自動駕駛汽車直線路徑跟蹤仿真 8.3 基于在線增強學(xué)習(xí)的室內(nèi)移動機器人路徑跟蹤控制 8.3.1 一類室內(nèi)移動機器人系統(tǒng)的運動學(xué)和動力學(xué)模型 8.3.2 增強學(xué)習(xí)路徑跟蹤控制器設(shè)計 8.3.3 參考路徑為直線時的仿真研究 8.3.4 參考路徑為圓弧時的仿真研究 8.3.5 CIT-AVT-VI移動機器人實時在線學(xué)習(xí)路徑跟蹤實驗 8.4 采用近似策略迭代的移動機器人學(xué)習(xí)控制方法研究 8.4.1 基于近似策略迭代的學(xué)習(xí)控制方法與仿真研究 8.4.2 基于P3-AT平臺的學(xué)習(xí)控制器設(shè)計 8.4.3 直線跟隨實驗 8.4.4 曲線跟隨實驗 8.5 小結(jié) 參考文獻第9章 總結(jié)與展望
章節(jié)摘錄
插圖:1.3.3 移動機器人路徑跟蹤控制的研究概況移動機器人的路徑跟蹤控制是指在完成路徑規(guī)劃的條件下,通過設(shè)計反饋控制律實現(xiàn)移動機器人對規(guī)劃路徑的閉環(huán)跟蹤控制。路徑跟蹤控制問題在許多移動機器人的應(yīng)用場合具有重要的作用,如包括無人駕駛汽車在內(nèi)的自主地面車輛(ALV)和用于運輸環(huán)境的自動導(dǎo)引車輛(AGV)等。在上述應(yīng)用條件下,全局路徑往往可以事先規(guī)劃完成,移動機器人對規(guī)劃路徑的高性能跟蹤成為有效完成導(dǎo)航任務(wù)的一個關(guān)鍵。目前針對移動機器人的動力學(xué)建模和路徑跟蹤控制問題已開展了大量的研究工作。移動機器人作為一類具有非完整特性的機電系統(tǒng),難以建立其精確的動力學(xué)模型,并且系統(tǒng)的動力學(xué)特性還受到運行速度和環(huán)境條件變化的影響,特別是對于高速運行的無人駕駛汽車等移動機器人系統(tǒng),其動力學(xué)參數(shù)隨車速變化明顯。因此移動機器人的路徑跟蹤控制成為控制理論和工程界的一個研究熱點和難點。已經(jīng)提出的移動機器人路徑跟蹤控制方法包括PID控制、滑??刂?、非線性狀態(tài)反饋控制和智能控制方法等。PID控制是目前在實際系統(tǒng)中應(yīng)用較多的一種設(shè)計方法,該方法對系統(tǒng)模型依賴較少,且具有一定的魯棒性,但參數(shù)優(yōu)化困難,難以實現(xiàn)對模型變化的自適應(yīng)調(diào)節(jié)?;?刂坪头蔷€性反饋控制能夠在一定模型假設(shè)下通過離線設(shè)計保證系統(tǒng)的穩(wěn)定性,但存在對模型依賴性大、難以實現(xiàn)在線學(xué)習(xí)和自適應(yīng)的缺點。移動機器人路徑跟蹤的智能控制方法是近年來得到普遍注意的一個研究領(lǐng)域,有關(guān)學(xué)者已提出了多種用于移動機器人路徑跟蹤的智能控制方法,如模糊路徑跟蹤控制器、基于神經(jīng)網(wǎng)絡(luò)的路徑跟蹤控制和模糊神經(jīng)網(wǎng)絡(luò)控制器等。上述智能控制方法都具有不依賴于系統(tǒng)的動力學(xué)模型,具有自適應(yīng)和學(xué)習(xí)能力等優(yōu)點,但仍然需要解決知識自動獲取的問題,即監(jiān)督學(xué)習(xí)的教師信號設(shè)計。增強學(xué)習(xí)方法作為一類基于機器學(xué)習(xí)的自適應(yīng)最優(yōu)控制方法,在復(fù)雜系統(tǒng)的控制器優(yōu)化設(shè)計方面具有廣泛的應(yīng)用前景,目前已成功地應(yīng)用于某些非線性系統(tǒng)的學(xué)習(xí)控制中。
圖書封面
圖書標簽Tags
無
評論、評分、閱讀與下載
增強學(xué)習(xí)與近似動態(tài)規(guī)劃 PDF格式下載