Knowledge base: Warsaw University of Technology

Settings and your account

Back

Wideband speech coding using CELP algorithm

Gyungmin Kim

Abstract

The purpose of this thesis is to implement wideband speech coding using code excited linear prediction (CELP) algorithm. MATLAB is used to encode and decode a speech file. For wideband speech coding (bandwidth 8 kHz), various speech files are used, which are sampled at 16 kHz. In the CELP coder, two kinds of codebooks are implemented and compared: a codebook containing Gaussian sequences and a codebook containing single pulses. Coefficients of predictive filter (LPC) are updated in frames containing 256 speech samples. Each frame consists of integer number of vectors (typically 4 or 8) which are modeled using codebook vectors. Bit rate of CELP coder is modified by changing input parameters which are dimension of codebook vectors and number of selected codebook vectors for modelling. The criteria of quality of speech are: speech signal-to-noise ratio (SNR) and mean opinion score (MOS). To measure quality of speech Perceptual Evaluation of Speech Quality (PESQ) algorithm is used, quantifying degradation due to compression and transmission channel errors. Simulations have shown that codebook containing pulses performs better than codebook of Gaussian sequences. Substantial improvement of speech quality is obtained by implementation of the long term prediction (LTP) that uses quasi-periodic character of voiced speech. Parameters to be quantized are the coefficients of predictive filter (LPC), gain of LTP and amplitudes if pulses issued from codebook. Uniform and non-uniform quantizers are simulated, optimized and used for quantization of these parameters. Finally, acceptable quality of wideband speech signal is obtained at 25-30 kbit/s.
Diploma type
Engineer's / Bachelor of Science
Diploma type
Engineer's thesis
Author
Gyungmin Kim (FEIT) Gyungmin Kim,, The Institute of Telecommunications (FEIT)Faculty of Electronics and Information Technology (FEIT)
Title in Polish
Kodowanie szerokopasmowego sygnału mowy metodą CELP
Supervisor
Przemysław Dymarski (FEIT) Przemysław Dymarski,, The Institute of Telecommunications (FEIT)Faculty of Electronics and Information Technology (FEIT)
Certifying unit
Faculty of Electronics and Information Technology (FEIT)
Affiliation unit
The Institute of Telecommunications (FEIT)
Study subject / specialization
, Telekomunikacja (Telecommunications)
Language
(en) English
Status
Finished
Defense Date
05-02-2019
Issue date (year)
2019
Reviewers
Jarosław Domaszewicz (FEIT) Jarosław Domaszewicz,, The Institute of Telecommunications (FEIT)Faculty of Electronics and Information Technology (FEIT) Przemysław Dymarski (FEIT) Przemysław Dymarski,, The Institute of Telecommunications (FEIT)Faculty of Electronics and Information Technology (FEIT)
Keywords in Polish
Kompresja szerokopasmowej mowy, kodowanie mowy, CELP, predykcja długookresowa, PESQ, MOS
Keywords in English
Wideband Speech Coding, Speech Coding, Code-excited linear prediction, Long Term Prediction, Perceptual Evaluation of Speech Quality, Mean Opinion Score
Abstract in Polish
Celem pracy jest zastosowanie kodera CELP do kompresji szerokopasmowego sygnału mowy (7-8 kHz). Symulacje przeprowadzono w systemie MATLAB, używając fraz mowy spróbkowanych z częstotliwością 16 kHz. Zaimplementowano o porównano dwa rodzaje słowników kodera CELP: słownik zawierający sekwencje o rozkładzie gaussowskim i słownik zawierający impulsy. W ramkach liczących po 256 próbek sygnału obliczano predyktor, natomiast kompresję metodą CELP przeprowadzano w obrębie 4-8 wektorów, na które dzielona była ramka. Przepływność binarną regulowano zmieniając wymiar wektora i liczbę wektorów słownika wykorzystywanych do modelowania wektora sygnału mowy. Jako kryteriów jakości wykorzystano stosunek mocy sygnału mowy do mocy błędu kwantyzacji (SNR) i Mean Opinion Score (MOS) mierzony metodą PESQ. Symulacje wykazały przewagę słownika impulsowego nad gaussowskim. Znaczną poprawę jakości mowy uzyskano implementując predyktor długookresowy (LTP), zwłaszcza w obrębie segmentów mowy dźwięcznej. W koderze CELP kwantuje się współczynniki filtru predykcyjnej syntezy (LPC), wzmocnienie w predykcji długookresowej i amplitudy impulsów pobranych ze słownika. Do kwantowania wzmocnienia i amplitud użyto opracowanych kwantyzatorów równomiernych i nierównomiernych. Uzyskano dobrą jakość szerokopasmowej mowy przy przepływności binarnej 25-30 kbit/s.
File
  • File: 1
    Gyungmin_Kim_296254.pdf
Request a WCAG compliant version
Local fields
Identyfikator pracy APD: 31288

Uniform Resource Identifier
https://repo.pw.edu.pl/info/bachelor/WUT81ff7ae62a41459d9278949f73e22cd2/
URN
urn:pw-repo:WUT81ff7ae62a41459d9278949f73e22cd2

Confirmation
Are you sure?
Report incorrect data on this page