State abstraction in reinforcement learning

Bartosz Papis

Abstract

This work concerns state abstraction - one of commonly proposed solutions to the curse of dimensionality problem. A particular type of state abstraction - state space abstraction is analyzed as a variable selection issue. As an effect of this analysis, an incremental state abstraction algorithm is introduced, inspired by the notions of stimulus discrimination, ambiguity and closure from behavioral psychology. This algorithm correctly solves the variable selection problem by including or removing variables one by one. It is the first among existing solutions to work not only for discrete problems, but also continuous ones.
Rodzaj dyplomuPraca doktorska
Autor Bartosz Papis (WEiTI / IAiIS)
Bartosz Papis
- Instytut Automatyki i Informatyki Stosowanej
Tytuł w języku polskimAbstrakcja stanu w uczeniu ze wzmacnianiem
Języken angielski
Jednostka dyplomującaWydział Elektroniki i Technik Informacyjnych (WEiTI)
Dyscyplina naukiautomatyka i robotyka / dziedzina nauk technicznych / obszar nauk technicznych
Data obrony17-11-2015
Data zakończenia 24-11-2015
Promotor Andrzej Pacut (WEiTI / IAiIS)
Andrzej Pacut
- Instytut Automatyki i Informatyki Stosowanej
Recenzenci wewnętrzni Jarosław Arabas (WEiTI / ISE)
Jarosław Arabas
- Instytut Systemów Elektronicznych
Recenzenci zewnętrzni Jacek Koronacki
Jacek Koronacki
-
Wyróżnienietak
Paginacja 149
Słowa kluczowe w języku polskimabstrakcji stanu, uczenie ze wzmacnianiem
Słowa kluczowe w języku angielskimstate abstraction, Reinforcement Learning
Streszczenie w języku polskimNiniejsza praca dotyczy zagadnienia abstrakcji stanu (wyodr˛ebniania stanu) - jednego z powszechnie proponowanych rozwia˛zan´ problemu przeklen´stwa wymiarowos´ci. Szczególny rodzaj abstrakcji stanu - abstrakcja przestrzeni stanu jest analizowany jako problem selekcji zmiennych. Efektem tej analizy jest zapropowany w tej pracy przyrostowy algorytm abstrakcji stanu, inspirowany poj˛eciami warunkowania instrumentalnego, niejednoznaczno´sci i domkni˛ecia z psychologii behawioralnej. Algorytm ten poprawnie rozwia˛zuje problem selekcji zmiennych poprzez dodawanie lub usuwanie pojedynczych zmiennych. Jest to pierwsze ws´ród istnieja˛- cych rozwia˛zan´ działaja˛ce nie tylko dla problemów dyskretnych, ale takz˙e cia˛głych.
Plik pracy
bpapis thesis.pdf 2.49 MB

Pobierz odnośnik do tego rekordu

Powrót