Knowledge base: Warsaw University of Technology

Settings and your account

Back

Development and implementation of algorithm for text recognition in natural scene images

Krzysztof Szwed

Abstract

The purpose of the work is to propose and implement a model for finding and recognizing text in photos. To accomplish this task, a model consisting of two deep neural networks has been used to perform the function of the detector and the text classifier, respectively. The word localisation network is an implementation of the EAST architecture. The main advantage of this network is its ability to detect texts of different sizes, which is important when dealing with varying words size, perspective and photo quality. The CRNN, convolution-recursively network is used to classify or in other words transcribe detected areas of text. The result is a word or phrase that, when combined with the found coordinates of the text, achieve the goal of locating and reading the text. As part of the work, the theoretical fundamentals of neural networks, the architecture of both models used and the training course of the CRNN network were discussed. Part of the work is the program code that was written with the use of Python language and Keras, the library for neural network development. Due to problems with access to the machine with sufficient processing power, the results presented by the network proved to be worse than expectations, yet this should not be considered as a result of an error, but rather as the manifestation of the general problem of neural network training
Diploma type
Engineer's / Bachelor of Science
Diploma type
Engineer's thesis
Author
Krzysztof Szwed (FPAE) Krzysztof Szwed,, Faculty of Power and Aeronautical Engineering (FPAE)
Title in Polish
Opracowanie i implementacja algorytmu rozpoznawania tekstu w obrazach scen naturalnych
Supervisor
Andrzej Kordecki (FPAE/IAAM) Andrzej Kordecki,, The Institute of Aeronautics and Applied Mechanics (FPAE/IAAM)Faculty of Power and Aeronautical Engineering (FPAE)
Certifying unit
Faculty of Power and Aeronautical Engineering (FPAE)
Affiliation unit
The Institute of Aeronautics and Applied Mechanics (FPAE/IAAM)
Study subject / specialization
, Automatyka i Robotyka (Automation and Robotics)
Language
(pl) Polish
Status
Finished
Defense Date
28-06-2019
Issue date (year)
2019
Pages
65
Internal identifier
MEL; PD-5204
Reviewers
Cezary Rzymkowski (FPAE/IAAM) Cezary Rzymkowski,, The Institute of Aeronautics and Applied Mechanics (FPAE/IAAM)Faculty of Power and Aeronautical Engineering (FPAE) Andrzej Kordecki (FPAE/IAAM) Andrzej Kordecki,, The Institute of Aeronautics and Applied Mechanics (FPAE/IAAM)Faculty of Power and Aeronautical Engineering (FPAE)
Keywords in Polish
sztuczna inteligencja, klasyfikacja, uczenie maszynowe, wizja komputerowa, wizja maszynowa, sieci neuronowe, sieć konwolucyjna, detekcja tekstu, rozpoznawanie tekstu, python, CTC, Connectionist Temporal Classification, sieci rekurencyjne
Keywords in English
Artificial intelligence, machine learning, computer vision, machine vision, neural networks, convolution network, text detection, text recognition, Python, CTC, Connectionist Temporal Classification, recurrent neural network
Abstract in Polish
Celem pracy jest zaproponowanie i wykonanie modelu odnajdującego i rozpoznającego tekst na zdjęciach. Do realizacji tego zadania został wykorzystany model składający się z dwóch głębokich sieci neuronowych, które pełnią odpowiednio funkcję detektora i klasyfikatora tekstu. Sieć lokalizująca słowa jest implementacją architektury typu EAST. Główną zaletą tej sieci jest jej umiejętność wykrywania tekstów o różnej wielkości, co ma duże znaczenie przy odczytywaniu słów ze zdjęć. Do klasyfikacji, czy też transkrypcji wykrytych obszarów tekstu wykorzystywana jest sieć CRNN – konwolucyjno-rekurencyjna. Wynikiem jej działania jest słowo lub fraza, które po połączeniu ze znalezionymi współrzędnymi tekstu stanowią realizację celu lokalizacji i odczytania tekstu. W ramach pracy zostały omówione podstawy teoretyczne działania sieci neuronowych, architektura obu wykorzystanych modeli oraz przebieg treningu sieci CRNN. Częścią pracy jest kod programu, który został napisany z wykorzystaniem języka Python i biblioteki do tworzenia sieci neuronowych Keras. Ze względu na problemy z dostępem do maszyny o wystarczającej mocy obliczeniowej wyniki prezentowane przez sieć okazały się gorsze od oczekiwań, jednak nie jest to wynikiem błędu, a przejawem ogólnej problematyki związanej z treningiem sieci neuronowych
File
  • File: 1
    Praca_inżynierska_Krzysztof_Szwed.pdf
Request a WCAG compliant version
Local fields
Identyfikator pracy APD: 34946

Uniform Resource Identifier
https://repo.pw.edu.pl/info/bachelor/WUT08f2def4a69d457e89f1bd869224fefd/
URN
urn:pw-repo:WUT08f2def4a69d457e89f1bd869224fefd

Confirmation
Are you sure?
Report incorrect data on this page