System rozpoznawania mowy polskiej dla robota społecznego

Artur Zygadło , Artur Janicki , Przemysław Dąbek

Abstract

Automatic Speech Recognition system for Polish and dedicated for social robotics applications is presented. The system is based on free and open software library pocketsphinx (CMU Sphinx). Training and test databases were prepared with transcriptions; the training database comprised voices of 10 women and 10 men, and it was prepared based on audiobooks, whereas the test database comprised voices of 3 women and 3 men recorded in laboratory conditions as a part of the present work. A phoneme set for Polish consisting of 39 phonemes based on two popular sets from other researchers was prepared. The phonetic dictionary was obtained using graphemeto-phoneme conversion from the eSpeak tool for speech synthesis. The language statistic model for the reference text including 76 commands was generated using cmuclmtk tool (CMU Sphinx). Training of the acoustic model and test of quality of speech recognition was conducted using the sphinxtrain tool (CMU Sphinx). The following error rates were obtained for laboratory conditions: 4% (WER) and 9% (SER). Next, investigations of the system in relevant real environment were conducted. The initial, tentative results are about 10% (SER) for the close distance of a speaker to a microphone, and about 60% (SER) for 3 m speaker-microphone distance. Directions of future works are formulated.
Author Artur Zygadło WMEiL
Artur Zygadło,,
- Faculty of Power and Aeronautical Engineering
, Artur Janicki IT
Artur Janicki,,
- The Institute of Telecommunications
, Przemysław Dąbek - Przemysłowy Instytut Automatyki i Pomiarów
Przemysław Dąbek,,
-
Journal seriesPomiary Automatyka Robotyka, ISSN 1427-9126
Issue year2016
Vol20
No4/2016
Pages27-36
Publication size in sheets1.35
Keywords in Polishautomatyczne rozpoznawanie mowy, robot społeczny, command and control
Keywords in Englishautomatic speech recognition, command and control, social robots
Abstract in PolishW artykule przedstawiono system automatycznego rozpoznawania mowy polskiej dedykowany dla robota społecznego. System oparty jest na bezpłatnej i otwartej bibliotece oprogramowania pocketsphinx (CMU Sphinx). Przygotowano zbiory nagrań: treningowy i testowy wraz z transkrypcjami. Zbiór treningowy obejmował głosy 10 kobiet i 10 mężczyzn i został przygotowany na podstawie audiobooków, natomiast zbiór testowy – głosy 3 kobiet i 3 mężczyzn nagrane w warunkach laboratoryjnych specjalnie na potrzeby pracy. Przygotowany zbiór fonemów dla języka polskiego, składający się z 39 fonemów, opracowany został na podstawie dwóch popularnych zbiorów dostępnych danych. Słownik fonetyczny opracowano za pomocą funkcjonalności konwersji grapheme-to-phoneme z biblioteki eSpeak. Model statystyczny języka dla tekstu referencyjnego składającego się z 76 komend wygenerowano za pomocą programu cmuclmtk (CMU Sphinx). Uczenie modelu akustycznego oraz test jakości rozpoznawania mowy przeprowadzono za pomocą programu sphinxtrain (CMU Sphinx). W warunkach laboratoryjnych uzyskano wskaźnik błędu rozpoznawania słów (WER) na poziomie 4% i błędu rozpoznawania zdań (SER) na poziomie 9%. Przeprowadzono też badania systemu w warunkach rzeczywistych na grupie testowej złożonej z 2 kobiet i 3 mężczyzn, uzyskując wstępne wyniki rozpoznawania na poziomie 10% (SER) z bliskiej odległości oraz 60% (SER) z odległości 3 m. Określono kierunki dalszych prac
DOIDOI:10.14313/PAR_222/27
URL http://www.par.pl/Yearbooks/2016/4-2016/System-rozpoznawania-mowy-polskiej-dla-robota-spolecznego
Languagepl polski
File
2016 Janicki SystemRozpoznawaniaMowyPolskiejDlaRobota.pdf 967 KB
Score (nominal)8
ScoreMinisterial score = 8.0, 28-11-2017, ArticleFromJournal
Ministerial score (2013-2016) = 8.0, 28-11-2017, ArticleFromJournal
Citation count*0 (2018-07-14)
Cite
Share Share

Get link to the record
msginfo.png


* presented citation count is obtained through Internet information analysis and it is close to the number calculated by the Publish or Perish system.
Back