強化學習及其在機器人系統(tǒng)中的應用研究.pdf_第1頁
已閱讀1頁,還剩107頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、強化學習(RL:Reinforcement Learning),又稱增強學習或再勵學習,是一種重要的機器學習方法,是近幾年來智能控制和人工智能領域的研究熱點之一。在各種學習方法中,強化學習具有較強的在線自適應性和對復雜系統(tǒng)的自學能力,它在與環(huán)境的交互中,通過試探式的學習收斂到最優(yōu)的控制策略,這種學習機制已經在非線性控制、人工智能復雜問題求解、機器人控制、優(yōu)化與調度以及多agent系統(tǒng)中有成功應用。然而,由于各種系統(tǒng)的復雜性和不確定性的限

2、制,強化學習的研究中還存在一些難以解決的問題。如何結合相關的知識表示和計算智能技術,設計合適的學習算法和控制結構,是實現強化學習方法廣泛應用的關鍵。目前的強化學習研究主要都是針對小規(guī)模、離散的狀態(tài)和動作空間,對于在大規(guī)模、連續(xù)的狀態(tài)和動作空間下的學習控制還是亟待解決的難題。本文針對大規(guī)模、連續(xù)的狀態(tài)和動作空間下的強化學習理論、算法及應用進行研究,因此具有重要的理論意義和應用價值。
   本文在收集了國內外相關的文獻之后,對其進行

3、充分的分析和綜合。在此基礎上,對強化學習算法及其在機器人系統(tǒng)中的應用進行了較深入的研究。主要研究工作如下:
   (1)基于遞推最小二乘法的多步時序差分學習針對強化學習過程收斂速度緩慢的問題,提出了基于遞推最小二乘法的多步時序差分學習(RLS—TD(λ))算法。證明了在滿足一定條件下,該算法的權值將以概率1收斂到唯一解,并且得出和證明了值函數估計值的誤差應滿足的關系式。迷宮游戲的仿真實驗表明:與傳統(tǒng)強化學習算法相比,RLS-TD

4、(λ)算法實現了在線、遞推式的學習,具有計算量小的優(yōu)點。
   (2)基于RBF神經網絡的強化學習針對基本Actor-Critic學習泛化能力不強的問題,提出了一種基于RBF網絡的強化學習算法。證明了該算法在滿足一定條件下將以概率1收斂到某矩陣方程的唯一解。該算法通過Actor和Critic共享RBF網絡,根據任務復雜度和學習進度進行實時的在線學習。基于該算法,設計了一種具有強化學習機制的自適應PID(AC-PID)控制器設計方

5、法,該方法可以解決傳統(tǒng)PID(T-PID)控制器不易在線實時整定參數的不足。仿真實驗表明,該算法具有更好的學習泛化能力。
   (3)基于探索度的改進型模糊Sarsa學習針對強化學習中探索和利用之間難以平衡的問題,在已有的模糊Sarsa學習(FSL)算法基礎上,首次提出了一種基于探索度的改進型模糊Sarsa學習(IFSL)算法,證明了IFSL算法中可調節(jié)的權向量存在平衡不動點。該算法通過增加自適應學習率產生器和模糊平衡器來控制探

6、索和利用的程度,以提高學習性能。小車爬山問題的仿真實驗結果表明,該算法加快了系統(tǒng)的學習收斂速度,具有更優(yōu)的學習性能。
   (4)基于蟻群優(yōu)化的變學習率模糊Sarsa學習針對模糊Sarsa學習中學習因子優(yōu)化調整的問題,提出了一種基于蟻群優(yōu)化的變學習率模糊Sarsa學習(ACO-FSL)算法。該算法運用蟻群優(yōu)化中的信息素水平更新規(guī)律來自動調節(jié)學習率,把模糊神經網絡中模糊推理過程看作是螞蟻覓食的過程,構造相應的信息素矩陣,從而實現最

7、優(yōu)策略下行為動作的選擇。小車爬山與卡車倒車問題的仿真實驗表明:ACO-FSL算法比FSL算法具有更優(yōu)的學習性能。
   (5)強化學習在移動機器人路徑規(guī)劃中的應用詳細探討了ACO-FSL算法在移動機器人路徑規(guī)劃中的應用,給出了一種加權回報函數的設計方法,實現了對未知環(huán)境狀態(tài)空間的動態(tài)建立,有效克服了移動機器人在路徑規(guī)劃時對全局環(huán)境信息或動態(tài)障礙物的運動信息的依賴性。仿真實驗表明,ACO-FSL算法在學習性能和計算時間方面要優(yōu)于I

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論