Knowledge base: Warsaw University of Technology

Settings and your account

Back

Specific object recognition in RGB and 3D images and video sequences

Tomasz Mateusz Bocheński

Abstract

In a thesis, an attempt was made to solve the problem of object detection in RGB and 3D images and video sequences. Methods based on both machine learning techniques and classic computer vision algorithms were proposed. A detector consisting of three modules: cascade of networks, 2D key frame extractor and 3D locator was created. Proper cooperation of those modules allows for detecting objects in RGB and 3D images and video sequences. Cascade of networks uses convolutional neural networks to detect objects in RGB images. 2D key frame extractor determines the most important frames based on analysis of color histograms of frames from RGB video sequences. 3D locator uses SIFT descriptor and ICP algorithm to calculate transformation matrices in 3D images. Each of the presented modules was tested and the results of experiments confirmed the usefulness of the proposed methods. The thesis also includes a library for object detection in RGB and 3D images and video sequences together with a tool for training cascade of networks and generating synthetic data sets. The software is primarily intended for those connected with robotics industry who can increase the autonomy and capabilities of their robots.
Diploma type
Engineer's / Bachelor of Science
Diploma type
Engineer's thesis
Author
Tomasz Mateusz Bocheński (FEIT/AK) Tomasz Mateusz Bocheński,, The Institute of Control and Computation Engineering (FEIT/AK)Faculty of Electronics and Information Technology (FEIT)
Title in Polish
Rozpoznawanie zadanych obiektów w obrazach i sekwencjach wideo RGB i 3D
Supervisor
Maciej Stefańczyk (FEIT/AK) Maciej Stefańczyk,, The Institute of Control and Computation Engineering (FEIT/AK)Faculty of Electronics and Information Technology (FEIT)
Certifying unit
Faculty of Electronics and Information Technology (FEIT)
Affiliation unit
The Institute of Control and Computation Engineering (FEIT/AK)
Study subject / specialization
, Automatyka i Robotyka (Automation and Robotics)
Language
(pl) Polish
Status
Finished
Defense Date
25-09-2019
Issue date (year)
2019
Reviewers
Maciej Stefańczyk (FEIT/AK) Maciej Stefańczyk,, The Institute of Control and Computation Engineering (FEIT/AK)Faculty of Electronics and Information Technology (FEIT) Artur Wilkowski (FEIT/AK) Artur Wilkowski,, The Institute of Control and Computation Engineering (FEIT/AK)Faculty of Electronics and Information Technology (FEIT)
Keywords in Polish
detekcja obiektów, obrazy RGB i 3D, sekwencje wideo RGB i 3D, uczenie maszynowe, wizja komputerowa, splotowe sieci neuronowe, deskryptor SIFT
Keywords in English
object detection, RGB and 3D images, RGB and 3D video sequences, machine learning, computer vision, convolutional neural networks, SIFT descriptor
Abstract in Polish
W pracy podjęta została próba rozwiązania problemu detekcji obiektów w obrazach i sekwencjach wideo RGB i 3D. Zaproponowane zostały rozwiązania wykorzystujące zarówno techniki uczenia maszynowego, jak również klasyczne algorytmy wizji komputerowej. Stworzony został detektor składający się z trzech modułów: kaskady sieci, ekstraktora klatek kluczowych 2D oraz lokalizatora 3D. Odpowiednia współpraca tych modułów umożliwia wykrywanie obiektów w obrazach i sekwencjach wideo RGB i 3D. Kaskada sieci wykorzystuje splotowe sieci neuronowe do detekcji obiektów w obrazach RGB. Ekstraktor klatek kluczowych 2D wyznacza najważniejsze klatki na podstawie analizy histogramów kolorów klatek z sekwencji wideo RGB. Lokalizator 3D wykorzystuje deskryptor SIFT i algorytm ICP do obliczania macierzy transformacji w obrazach 3D. Każdy z przedstawionych modułów został przetestowany, a wyniki eksperymentów potwierdziły użyteczność zaproponowanych metod. W ramach pracy przygotowano także bibliotekę do detekcji obiektów w obrazach i sekwencjach wideo RGB i 3D oraz narzędzie do trenowania kaskady sieci i tworzenia syntetycznych zbiorów danych. Stworzone oprogramowanie przeznaczone jest przede wszystkim dla osób z branży robotyki, które dzięki niemu mogą zwiększyć autonomię oraz możliwości swoich robotów.
File
  • File: 1
    praca_inż_Tomasz_Bochenski.pdf
Request a WCAG compliant version
Local fields
Identyfikator pracy APD: 32302

Uniform Resource Identifier
https://repo.pw.edu.pl/info/bachelor/WUT52ac490c3fa64786b70f42e07cc1a37c/
URN
urn:pw-repo:WUT52ac490c3fa64786b70f42e07cc1a37c

Confirmation
Are you sure?
Report incorrect data on this page