Knowledge base: Warsaw University of Technology

Settings and your account

Back

Implementation of Actor-Critic with experience replay algorithm in OpenAI Gym Environment

Marcin Szulc

Abstract

The goal of this study is to implement Actor-Critic with experience replay algorithm using TensorFlow library and to conduct experiments in the OpenAI Gym environment. The introduction describes goals, specifications and assumptions of this study. The first part of the work is a theoretical chapter which presents the basic concepts of reinforcement learning. It contains the detailed analysis of the Actor-Critic algorithms family and expe- rience replay mechanism. In addition, it explains briefly the artificial neural networks and optimization process. The implementation part of the work describes the implementation choices and programming libraries used. The experiments chapter outlines the research on the algorithm properties in the context of experience replay mechanism. It contains also the analysis of the algorithm’s performance in comparison to other, currently popular algorithms. The summary concludes the research and discusses potential fields of the future work on that subject.
Diploma type
Engineer's / Bachelor of Science
Diploma type
Engineer's thesis
Author
Marcin Szulc (FEIT/ICS) Marcin Szulc,, The Institute of Computer Science (FEIT/ICS)Faculty of Electronics and Information Technology (FEIT)
Title in Polish
Implementacja algorytmu Aktora-Krytyka z powtarzaniem doświadczenia w środowisku OpenAI Gym
Supervisor
Paweł Wawrzyński (FEIT/ICS) Paweł Wawrzyński,, The Institute of Computer Science (FEIT/ICS)Faculty of Electronics and Information Technology (FEIT)
Certifying unit
Faculty of Electronics and Information Technology (FEIT)
Affiliation unit
The Institute of Computer Science (FEIT/ICS)
Study subject / specialization
, Informatyka (Computer Science)
Language
(pl) Polish
Status
Finished
Defense Date
12-02-2019
Issue date (year)
2019
Internal identifier
35/19 (2628)
Reviewers
Paweł Wawrzyński (FEIT/ICS) Paweł Wawrzyński,, The Institute of Computer Science (FEIT/ICS)Faculty of Electronics and Information Technology (FEIT) Bartłomiej Twardowski (FEIT/ICS) Bartłomiej Twardowski,, The Institute of Computer Science (FEIT/ICS)Faculty of Electronics and Information Technology (FEIT)
Keywords in Polish
aktor krytyk, powtarzanie doświadczenia, sieci neuronowe, uczenie sięze wzmocnieniem
Keywords in English
actor critic, experience replay, neural networks, reinforcement learning
Abstract in Polish
Celem niniejszej pracy jest implementacja algorytmu Aktora-Krytyka z powtarzaniem do- świadczenia z wykorzystaniem biblioteki TensorFlow oraz przeprowadzenie eksperymen- tów w środowisku OpenAI Gym. Wstęp opisuje cele, wymagania oraz założenia przeprowa- dzanych badań. Pierwsza część pracy zawiera rozdział teoretyczny, w którym wyjaśniono podstawowe pojęcia związane z uczeniem się ze wzmocnieniem. Bardziej szczegółowo omó- wiono rodzinę algorytmów Aktora-Krytyka oraz mechanizm powtarzania doświadczenia. Pokrótce przedstawione zostały także sztuczne sieci neuronowe oraz ich optymalizacja. Część opisująca implementację algorytmu prezentuje dokonane wybory implementacyjne oraz użyte biblioteki programistyczne. W rozdziale dotyczącym eksperymentów zademon- strowano wyniki badań nad algorytmem, dotyczące jego właściwości w kontekście mecha- nizmu powtarzania doświadczenia. Zawarto również porównanie działania algorytmu z innymi, popularnymi aktualnie algorytmami. Podsumowanie pracy prezentuje wnioski oraz analizuje potencjalne możliwości dalszych badań.
File
  • File: 1
    praca.pdf
Request a WCAG compliant version
Local fields
Identyfikator pracy APD: 32039

Uniform Resource Identifier
https://repo.pw.edu.pl/info/bachelor/WUTd65cf9cff7d14feda96b27b53774373f/
URN
urn:pw-repo:WUTd65cf9cff7d14feda96b27b53774373f

Confirmation
Are you sure?
Report incorrect data on this page