Knowledge base: Warsaw University of Technology

Settings and your account

Back

Automatic speech recognition system for the Polish language for a social robot

Artur Zygadło

Abstract

The aim of this thesis is to design and implement an automatic speech recognition system for the Polish language for a social robot. Several actions have to be taken, including preparation of the system’s components, development of a program which will be implemented as an element of the robot’s control application and verification of its performance in different acoustic conditions. The paper is structured as follows: Chapter one contains a brief introduction and its purpose is to show the important role of verbal communication in social robotics. It mentions the limitations that have to be taken into account when designing automatic speech recognition systems. Chapter two defines the aim and scope of this work. Chapter three presents the state of the art regarding methods and tools used in the field of automatic speech recognition, previous research carried out into implementing such systems in robotics and for the purposes of the Polish language. Moreover, the problem of distant speech recognition is mentioned. In the last part, the choice of particular software is explained. Chapter four describes the theoretical fundamentals of automatic speech recognition systems and specifies the performance assessment criteria. It explains the definitions of a phoneme, a hidden Markov model and the process of speech signal parametrization with mel-frequency cepstral coefficients. In chapter five, the design of particular components, i.e. the acoustic model, the phonetic dictionary and the language model is discussed. The last part of this chapter is an overview of the implementation of the automatic speech recognition system as an element of the robot control application. Chapter six presents the process of verification of the designed software and its results. The quality of speech recognition in different acoustic conditions is measured, as well as the impact of distance on the effectiveness of the system. The tests are conducted on a varied group of users. The last chapter summarizes actions taken and results obtained. The conclusions of this paper can become the basis of possible development of the designed system in the future.
Diploma type
Engineer's / Bachelor of Science
Diploma type
Engineer's thesis
Author
Artur Zygadło (FPAE) Artur Zygadło,, Faculty of Power and Aeronautical Engineering (FPAE)
Title in Polish
System automatycznego rozpoznawania mowy polskiej na potrzeby robota społecznego
Supervisor
Janusz Frączek (FPAE/IAAM) Janusz Frączek,, The Institute of Aeronautics and Applied Mechanics (FPAE/IAAM)Faculty of Power and Aeronautical Engineering (FPAE)
Certifying unit
Faculty of Power and Aeronautical Engineering (FPAE)
Affiliation unit
The Institute of Aeronautics and Applied Mechanics (FPAE/IAAM)
Study subject / specialization
, Automatyka i Robotyka (Automation and Robotics)
Language
(pl) Polish
Status
Finished
Defense Date
18-01-2016
Issue date (year)
2016
Pages
55
Internal identifier
MEL-PD-3425
Reviewers
Janusz Frączek (FPAE/IAAM) Janusz Frączek,, The Institute of Aeronautics and Applied Mechanics (FPAE/IAAM)Faculty of Power and Aeronautical Engineering (FPAE) Andrzej Chmielniak (FPAE/IAAM) Andrzej Chmielniak,, The Institute of Aeronautics and Applied Mechanics (FPAE/IAAM)Faculty of Power and Aeronautical Engineering (FPAE)
Keywords in Polish
robot społeczny, automatyczne rozpoznawanie mowy, ukryte modele Markowa
Keywords in English
social robot, automatic speech recognition, hidden Markov models
Abstract in Polish
Celem pracy jest zaprojektowanie i implementacja systemu automatycznego rozpoznawania mowy w języku polskim na potrzeby robota społecznego. Zakres działań obejmuje opracowanie poszczególnych komponentów tego systemu, prace programistyczne mające na celu przygotowanie modułu rozpoznawania mowy do aplikacji sterującej robotem oraz weryfikację funkcjonowania powstałego rozwiązania w różnych warunkach akustycznych. Praca składa się z siedmiu rozdziałów. Pierwszy rozdział stanowi wprowadzenie i ukazuje istotną rolę komunikacji werbalnej w robotyce społecznej. Określa też wstępnie ograniczenia związane z projektowaniem systemów automatycznego rozpoznawania mowy. Drugi rozdział definiuje cel i zakres pracy. Przedmiotem rozdziału trzeciego jest przegląd aktualnego stanu wiedzy i techniki w zakresie metod i narzędzi automatycznego rozpoznawania mowy, dotychczasowych prób zastosowania ich w robotyce oraz na potrzeby języka polskiego. Ponadto, poruszone zostaje zagadnienie rozpoznawania mowy z odległości. Uzasadniony zostaje również wybór niezbędnego oprogramowania. Czwarty rozdział zawiera opis podstaw teoretycznych działania systemów automatycznego rozpoznawania mowy, wyjaśnia współdziałanie jego komponentów oraz określa przyjęte kryteria oceny jakościowej. Omówione zostają następujące zagadnienia: pojęcie fonemu, ukryty model Markowa oraz parametryzacja sygnału mowy z użyciem melowo-częstotliwościowych współczynników cepstralnych. W rozdziale piątym przedstawiony jest proces opracowywania poszczególnych elementów systemu analizy mowy, tj. modelu akustycznego, słownika fonetycznego oraz statystycznego modelu języka. Końcowa część rozdziału dotyczy prac programistycznych, których wynikiem jest moduł aplikacji sterującej robotem. Rozdział szósty przedstawia realizację oraz wyniki badań weryfikujących opracowane rozwiązanie. Ocenie podlega jakość funkcjonowania systemu w różnorodnych warunkach akustycznych. Badany jest wpływ odległości na skuteczność rozpoznawania mowy. Testy przeprowadzane są na kilkuosobowej grupie użytkowników. Ostatni rozdział zawiera podsumowanie wykonanych prac i uzyskanych efektów. Na podstawie wniosków z dotychczasowych działań określone zostają możliwości rozwoju opracowanego systemu w przyszłości.
File
  • File: 1
    AZygadlo_inz.pdf
Request a WCAG compliant version
Local fields
Identyfikator pracy APD: 8718

Uniform Resource Identifier
https://repo.pw.edu.pl/info/bachelor/WUT7321ec2bf380422aa04224b7194c23b0/
URN
urn:pw-repo:WUT7321ec2bf380422aa04224b7194c23b0

Confirmation
Are you sure?
Report incorrect data on this page