Knowledge base: Warsaw University of Technology

Settings and your account

Back

Convolutional Neural Networks based Speaker Recognition systems

Bartłomiej Boczek

Abstract

The goal of this thesis was to examin capabilities of deep-learning based methods in text-independent speaker recognition systems. Created system is based on convolutional and siamese deep neural networks in combination with multiple methods of transforming speech signal to image, i.e. spectrograms, cepstral features and wavelet transforms. Conducted experiments were based on Python programming language and Keras neural networks package. System was tested on ICB2013 speaker recognition competition database, containing recordings of 92 speakers. Recognition results was compared with i-vectors and probablistic linear discriminant analysis (PLDA) based system.
Diploma type
Engineer's / Bachelor of Science
Diploma type
Engineer's thesis
Author
Bartłomiej Boczek (FEIT/AK) Bartłomiej Boczek,, The Institute of Control and Computation Engineering (FEIT/AK)Faculty of Electronics and Information Technology (FEIT)
Title in Polish
Rozpoznawanie mówcy z wykorzystaniem głębokich sieci neuronowych
Supervisor
Andrzej Pacut (FEIT/AK) Andrzej Pacut,, The Institute of Control and Computation Engineering (FEIT/AK)Faculty of Electronics and Information Technology (FEIT)
Certifying unit
Faculty of Electronics and Information Technology (FEIT)
Affiliation unit
The Institute of Control and Computation Engineering (FEIT/AK)
Study subject / specialization
, Automatyka i Robotyka (Automation and Robotics)
Language
(pl) Polish
Status
Finished
Defense Date
07-02-2019
Issue date (year)
2019
Reviewers
Andrzej Pacut (FEIT/AK) Andrzej Pacut,, The Institute of Control and Computation Engineering (FEIT/AK)Faculty of Electronics and Information Technology (FEIT) Włodzimierz Kasprzak (FEIT/AK) Włodzimierz Kasprzak,, The Institute of Control and Computation Engineering (FEIT/AK)Faculty of Electronics and Information Technology (FEIT)
Keywords in Polish
rozpoznawanie mówcy, przekształcenia sygnału mowy w obraz, głębokie sieci neuronowe, sieci splotowe, biometria
Keywords in English
speaker recognition, voice to image transformations, deep neural networks, convolutional neural networks, biometrics
Abstract in Polish
Celem niniejszej pracy dyplomowej było sprawdzenie użyteczności metod uczenia głębokiego w systemach rozpoznawania mówców działającego dla mowy swobodnej. Działanie systemu oparto o splotowe oraz syjamskie głębokie sieci neuronowe w połączeniu z różnymi sposobami przetwarzania sygnału mowy w obraz tj. spektrogramy, cechy cepstralne oraz transformaty falkowe. Przeprowadzone eksperymenty oparto o język programowania Python oraz pakiet sieci neuronowych Keras. Przeprowadzono testy systemu dla bazy konkursu rozpoznawania mówców ICB2013 zawierającej nagrania należące do 92 mówców. Osiągnięte rezultaty porównano z podejściem opartym o i-wektory i probablilstyczną liniową analizę dyskryminacyjną (PLDA).
File
  • File: 1
    Praca_Inzynierska_Bartłomiej_Boczek.pdf
Request a WCAG compliant version
Local fields
Identyfikator pracy APD: 31935

Uniform Resource Identifier
https://repo.pw.edu.pl/info/bachelor/WUT6971fc3b5b9c47f6b9b357296487c283/
URN
urn:pw-repo:WUT6971fc3b5b9c47f6b9b357296487c283

Confirmation
Are you sure?
Report incorrect data on this page