Knowledge base: Warsaw University of Technology

Settings and your account

Back

Application of Bidirectional Long Short-Term Memory Networks for video summarization

Adam Svystun

Abstract

Video summarization is the task of predicting which parts of the video are most important to the overall story. Recently, because of abundance of video content created every day, this problem started gathering more and more attention. Being able to consume and share long-form video content easily would allow many people to save valuable time. In this study we apply bidirectional Long Short-Term Memory (LSTM) networks for this task. LSTMs are often used for making predictions based on sequential data, such as videos. We approach the problem by first exploring the possible LSTM network architectures. Then, we train the final model and evaluate it against video summarization datasets. The results of the evaluation we compare with other related works in the field. After that, using the trained model, we develop a web application that allows anyone to upload their own videos and get short summarizing clips. Finally, we containerize our solution to simplify the development and deployment of the application.
Diploma type
Engineer's / Bachelor of Science
Diploma type
Engineer's thesis
Author
Adam Svystun (FEIT/ICS) Adam Svystun,, The Institute of Computer Science (FEIT/ICS)Faculty of Electronics and Information Technology (FEIT)
Title in Polish
Zastosowanie dwukierunkowych sieci długiej pamięci krótkotrwałej do rozwiązania problemu podsumowania wideo
Supervisor
Tomasz Trzciński (FEIT/ICS) Tomasz Trzciński,, The Institute of Computer Science (FEIT/ICS)Faculty of Electronics and Information Technology (FEIT)
Certifying unit
Faculty of Electronics and Information Technology (FEIT)
Affiliation unit
The Institute of Computer Science (FEIT/ICS)
Study subject / specialization
, Informatyka (Computer Science)
Language
(en) English
Status
Finished
Defense Date
18-09-2019
Issue date (year)
2019
Internal identifier
101/19 (2694)
Reviewers
Łukasz Dąbała (FEIT/ICS) Łukasz Dąbała,, The Institute of Computer Science (FEIT/ICS)Faculty of Electronics and Information Technology (FEIT) Tomasz Trzciński (FEIT/ICS) Tomasz Trzciński,, The Institute of Computer Science (FEIT/ICS)Faculty of Electronics and Information Technology (FEIT)
Keywords in Polish
Uczenie maszynowe, Podsumowanie wideo, Sieci długiej pamięci krótkotrwałej
Keywords in English
Machine Learning, Video Summarization, Long Short-Term Memory networks
Abstract in Polish
Podsumowanie wideo jest zadaniem ekstrakcji najważniejszych fragmentów filmu, najlepiej podsumowujących jego fabułę. W ostatnim czasie problem ten, z powodu ogromnej ilości wideo tworzonego każdego dnia, zaczął przykuwać coraz większą uwagę naukowców z całego świata. Możliwość szybkiego przeglądania i udostępniania najważniejszych fragmentów kilku godzinnych filmów na pewno pozwoliłaby wielu ludziom na zaoszczędzenie cennego dla nich czasu. W pracy tej do rozwiązania wyżej opisanego problemu wykorzystujemy dwukierunkowe sieci pamięci krótkotrwałej (LSTM), gdyż w ostatnich latach są one najchętniej używane do dokonywania predykcji na podstawie danych sekwencyjnych. Badania zaczynamy od analizy możliwych architektur sieciowych. W następnym kroku przeprowadzamy procedurę treningu sieci o wybranej architekturze, a następnie ewalujemy ostateczny model na zestawach danych szeroko wykorzystywanych w zadaniu podsumowania wideo. Otrzymane w rezultacie wyniki porównujemy do tych osiągniętych przez modele z literatury. Ponadto, zgodnie z przedstawionym przez nas projektem implementujemy aplikację internetową mającą na celu prezentację możliwości wytrenowanego modelu. Na koniec, konteneryzujemy nasze rozwiązanie, aby uprościć tworzenie i wdrażanie aplikacji.
File
  • File: 1
    thesis.pdf
Request a WCAG compliant version
Local fields
Identyfikator pracy APD: 35969

Uniform Resource Identifier
https://repo.pw.edu.pl/info/bachelor/WUT93a548b5d0044f7fa1821ad7a6b4cc66/
URN
urn:pw-repo:WUT93a548b5d0044f7fa1821ad7a6b4cc66

Confirmation
Are you sure?
Report incorrect data on this page