出版時間:2007-12 出版社:哈爾濱工程大學 作者:沈晶 編 頁數(shù):141
前言
強化學習通過試錯與環(huán)境交互獲得策略的改進,其自學習和在線學習的特點使其成為機器學習研究的一個重要分支。但是,強化學習一直被維數(shù)災難所困擾。近年來,分層強化學習在克服維數(shù)災難方面取得了顯著進展,典型的成果有Option,HAM和MAXQ等方法,其中Option和MAXQ方法在目前使用較為廣泛。Option方法便于自動劃分子任務(尤其分區(qū)或分段子任務),且子任務粒度易于控制,但利用先驗知識劃分子任務時,任務劃分結(jié)果表達不夠明晰,且子任務內(nèi)部策略難于確定;MAXQ方法在線學習能力強,但自動分層能力較弱,且分層粒度不夠精細,難以對一些規(guī)模很大的子任務作出進一步的分解。本書在系統(tǒng)地介紹了強化學習、分層強化學習的理論基礎和學習算法之后,探討了一種集成Option和MAXQ的分層強化學習新方法-OMQ,并深入研究集成過程中所涉及的理論與計算問題,以及該方法在動態(tài)環(huán)境、多智能體環(huán)境中應用時需要進一步解決的問題。本書得到了總裝備部預研基金及哈爾濱工程大學基礎研究基金(HEUFl07022,HEUFr05021,HEUFT05068)的資助,在編寫過程中,得到了哈爾濱工程大學計算機科學與技術(shù)學院顧國昌教授和張國印教授的悉心指導,以及劉海波博士的鼎力相助,張汝波教授審閱了本書初稿,提出了寶貴的意見,哈爾濱工程大學出版社的編輯老師付出了艱辛的勞動,在此一并表示感謝!
內(nèi)容概要
強化學習通過試錯與環(huán)境交互獲得策略的改進,其自學習和在線學習的特點使其成為機器學習研究的一個重要分支。但是,強化學習一直被維數(shù)災難所困擾,近年來,分層強化學習在克服維數(shù)災難方面取得了顯著進展。本書系統(tǒng)地介紹了強化學習、分層強化學習的理論基礎和學習算法以及作者在分層強化學習領域的研究成果和該領域的最新研究進展。 本書可作為高等院校和科研機構(gòu)從事計算機應用、人工智能和機器學習等相關(guān)專業(yè)和方向的教師、研究人員、研究生及高年級本科生參考使用。
作者簡介
第1章 緒論
分層強化學習是在強化學習的基礎上通過增加“抽象機制”而形成的一種效率更高的機器學習方法。本章將對機器學習、強化學習、分層強化學習的定義以及研究現(xiàn)狀進行介紹。
1.1 機器學習
1.1.1 機器學習的定義
機器學習(Machine Learning)的
書籍目錄
第1章 緒論 1.1 機器學習 1.1.1 機器學習的定義 1.1.2 機器學習的發(fā)展史 1.1.3 機器學習系統(tǒng)的基本模型 1.1.4 機器學習的主要策略 1.2 強化學習 1.2.1 強化學習的定義 1.2.2 強化學習的發(fā)展史 1.3 分層強化學習 1.3.1 分層強化學習的定義 1.3.2 研究現(xiàn)狀與發(fā)展趨勢第2章 強化學習 2.1 強化學習的基本原理 2.2 強化學習的基本方法 2.3 部分可觀測馬氏過程第3章 分層強化學習 3.1 半馬氏過程 3.2 分層與抽象 3.3 典型分層強化學習方法 3.3.1 Option分層強化學習方法 3.3.2 HAM分層強化學習方法 3.3.3 MAXQ分層強化學習方法 3.3.4 典型分層強化學習方法的比較分析 3.4 OMQ分層強化學習方法 3.4.1 測試用例描述 3.4.2 OMQ理論框架 3.4.3 OMQ學習算法 3.4.4 OMQ學習算法最優(yōu)性分析 3.4.5 OMQ學習算法收斂性證明 3.4.6 OMQ學習算法實驗分析第4章 動態(tài)分層強化學習 4.1 學習任務的自動分層 4.1.1 瓶頸和路標狀態(tài)法 4.1.2 共用子空間法 4.1.3 多維狀態(tài)法 4.1.4 馬氏空間法 4.1.5 其他有關(guān)方法 4.1.6 任務自動分層方法評價 4.2 基于免疫聚類的自動分層算法 4.2.1 免疫原理剖析 4.2.2 基于免疫聚類的Option自動生成算法 4.3 基于二次應答機制的動態(tài)分層算法 4.3.1 算法描述 4.3.2 實驗分析 4.4 未知動態(tài)環(huán)境中的分層強化學習方法 4.4.1 移動機器人路徑規(guī)劃問題 4.4.2 未知動態(tài)環(huán)境中的OMQ分層強化學習算法 4.4.3 實驗分析 ……第5章 多智能體分層強化學習參考文獻
章節(jié)摘錄
插圖:分層強化學習是在強化學習的基礎上通過增加“抽象機制”而形成的一種效率更高的機器學習方法。本章將對機器學習、強化學習、分層強化學習的定義以及研究現(xiàn)狀進行介紹。 1.1 機器學習 1.1.1 機器學習的定義 機器學習(Machine Learning)的核心是學習。學習是人類具有的一種重要智能行為,但究竟什么是學習,長期以來卻眾說紛紜。這是因為進行這一研究的人們分別來自不同的學科,更重要的是學習是一種多側(cè)面、綜合性的心理活動,它與記憶、思維、知覺、感覺等多種心理行為都有著密切的聯(lián)系,人們難以把握學習的機理與實現(xiàn)。社會學家、邏輯學家和心理學家都各有其不同的看法。按照人工智能大師Simon的觀點,學習就是系統(tǒng)在不斷重復的工作中對本身能力的增強或者改進,使得系統(tǒng)在下一次執(zhí)行同樣任務或類似任務時,會比現(xiàn)在做得更好或效率更高。這一闡述包含過程、系統(tǒng)與改進性能這樣三個要點。學習的基本模型就是基于這一觀點建立起來的。 機器學習至今還沒有統(tǒng)一的定義,而且也很難得到一個公認的和準確的定義。顧名思義,機器學習是研究如何使用機器來模擬人類學習活動的一門學科。稍微嚴格的提法:機器學習是一門研究機器獲取新知識和新技能,并識別現(xiàn)有知識的學問。
編輯推薦
《分層強化學習理論與方法》是由哈爾濱工程大學出版社出版社的。
圖書封面
評論、評分、閱讀與下載