Knowledge base: Warsaw University of Technology

Settings and your account

Back

Model-based reinforcement learning in the case of walking humanoid robot

Rafał Jan Jagielski

Abstract

This bachelor thesis is placed in the field of reinforcement learning. It presents the actor-critic algorithm that doensn’t require the model for the optimisation process. It is proposed to make use of model in order to improove the quality of results that can be obtained. The algorithm is an implementation of Heuristic Dynamic Programming from the Adaptive Critic Designs. It calculates a model derivative which tells us about the direction in which the process updates should go so future rewards will increase. The new idea is tested on a real humanoid robot with 18 degrees of freedom. The aim is to make the robot walking as fast as possible. The way of modelling the robot dynamics is inspired by the concept of Poincar´e maps, where the states of environment is mapped between fixed subspaces in the state space. Two-layer perceptron neural network is used for approximating the mapping function.
Diploma type
Engineer's / Bachelor of Science
Diploma type
Engineer's thesis
Author
Rafał Jan Jagielski (FEIT) Rafał Jan Jagielski,, Faculty of Electronics and Information Technology (FEIT)
Title in Polish
Wykorzystanie modelu w nauczaniu ze wzmocnieniem na przykładzie chodzącego robota humanoidalnego
Supervisor
Paweł Wawrzyński (FEIT/ICS) Paweł Wawrzyński,, The Institute of Computer Science (FEIT/ICS)Faculty of Electronics and Information Technology (FEIT)
Certifying unit
Faculty of Electronics and Information Technology (FEIT)
Affiliation unit
The Institute of Computer Science (FEIT/ICS)
Study subject / specialization
, Informatyka (Computer Science)
Language
(pl) Polish
Status
Finished
Defense Date
26-09-2016
Issue date (year)
2016
Reviewers
Piotr Pałka (FEIT/AK) Piotr Pałka,, The Institute of Control and Computation Engineering (FEIT/AK)Faculty of Electronics and Information Technology (FEIT) Paweł Wawrzyński (FEIT/ICS) Paweł Wawrzyński,, The Institute of Computer Science (FEIT/ICS)Faculty of Electronics and Information Technology (FEIT)
Keywords in Polish
uczenie ze wzmocnieniem, siec neuronowa, robot humanoidalny, model dynamiki
Keywords in English
reinforcement learning, neural network, humanoid robot, model of dynamics
Abstract in Polish
Niniejsza praca dyplomowa dotyczy tematyki nauczania ze wzmocnieniem. Przedstawia ona działanie algorytmu z rodziny aktor-krytyk, który do procesu optymalizacji nie wykorzystuje modelu, a nastepnie proponowane jest uzycie modelu wspomagajacego ten proces. Wykorzystanym algorytmem jest algorytm HDP (ang. Heuristic Dynamic Programming) z grupy Adaptive Critic Designs pozwalajacy aktorowi na okreslenie kierunku, w którym zmiana wykonywanej akcji przyniesie poprawe wartosci przyszłych stanów. Porównanie algorytmu bazujacego na modelu odbywa sie na rzeczywistym robocie humanoidalnym o 18 stopniach swobody, którego celem jest osiagniecie jak najwyzszej szybkosci chodzenia. Modelowanie dynamiki robota zostało zainspirowane mapa Poincar´e, w której przewidywanie stanu urzadzenia odbywa sie miedzy ustalonymi fragmentami przestrzeni stanu. Do aproksymacji mapy Poincar´e zostały uzyte sieci neuronowe typu perceptron dwuwarstwowy.
File
  • File: 1
    Rafał Jagielski - praca dyplomowa inżynierska.pdf
Request a WCAG compliant version
Local fields
Identyfikator pracy APD: 14123

Uniform Resource Identifier
https://repo.pw.edu.pl/info/bachelor/WUTd447171645bb41dc9d49563098ef7d94/
URN
urn:pw-repo:WUTd447171645bb41dc9d49563098ef7d94

Confirmation
Are you sure?
Report incorrect data on this page