Knowledge base: Warsaw University of Technology

Settings and your account

Back

Implementation of Markov Chain Monte Carlo method to data generation

Karolina Brzęk

Abstract

The machine learning process can automate many mechanisms, but usually requires carefully choosen training set. The efficiency of the classifier depends on size and quality of that set. Unfortunately, there is often a deficiency in the set of input data. One of the example field of interest might be the analysis of speech signal used to improve the security of information systems. However it is challenging to obtain a sufficient set of samples necessary to train the classifier. This essay is a documentation of the process of exploring the possibility of using the Markov Chain Monte Carlo method to solve the problem of insufficient training data for classifiers. The progression of creating data generators based on Markov Chain Monte Carlo method has been described starting from the conceptual phase, through in-depth literature studies and learning how the MCMC method works, the choice of tools and technologies, and finally the implementation of selected algorithms. The thesis also describes the performed tests, including the influence of individual parameters on the quality of implemented data generator and the impact of the generated data on the efficiency of classification. The summary contains conclusions from the pursued research, as well as the future prospects of possible development.
Diploma type
Engineer's / Bachelor of Science
Diploma type
Engineer's thesis
Author
Karolina Brzęk (FEIT) Karolina Brzęk,, The Institute of Telecommunications (FEIT)Faculty of Electronics and Information Technology (FEIT)
Title in Polish
Implementacja algorytmu Monte Carlo z wykorzystaniem łańcuchów Markowa do generowania danych
Supervisor
Danuta Ojrzeńska-Wójter (FEIT) Danuta Ojrzeńska-Wójter,, The Institute of Telecommunications (FEIT)Faculty of Electronics and Information Technology (FEIT)
Certifying unit
Faculty of Electronics and Information Technology (FEIT)
Affiliation unit
The Institute of Telecommunications (FEIT)
Study subject / specialization
, Telekomunikacja (Telecommunications)
Language
(pl) Polish
Status
Finished
Defense Date
12-02-2019
Issue date (year)
2019
Reviewers
Przemysław Dymarski (FEIT) Przemysław Dymarski,, The Institute of Telecommunications (FEIT)Faculty of Electronics and Information Technology (FEIT) Danuta Ojrzeńska-Wójter (FEIT) Danuta Ojrzeńska-Wójter,, The Institute of Telecommunications (FEIT)Faculty of Electronics and Information Technology (FEIT)
Keywords in Polish
metoda MCMC, uczenie maszynowe, generowanie danych
Keywords in English
MCMC method, machine learning, data generation
Abstract in Polish
Uczenie maszynowe, które pozwala zautomatyzować wiele mechanizmów, poza stosowanymi algorytmami, w większości opiera się na danych stanowiących zbiór treningowy. Od jego wielkości i jakości zależy sprawność klasyfikatora. Niestety często nie dysponujemy wystarczającym zestawem danych uczących. Przykładem może być sygnał mowy wykorzystywany do zabezpieczeń systemów informatycznych, w przypadku którego pozyskanie dostatecznego zbioru próbek, koniecznych do wytrenowania klasyfikatora, jest utrudnione. W pracy podjęto się próby rozwiązania problemu niewystarczającej ilości danych treningowych dla klasyfikatorów. Dokumentacja stanowi opis procesu badania możliwości zastosowania metody Monte Carlo wykorzystującej łańcuchy Markowa. Przedstawiony został przebieg tworzenia generatorów danych bazujących na wybranej metodzie próbkowania począwszy od etapu koncepcyjnego, przez dogłębne studia literatury, w tym istotę metody MCMC, aż po implementację wybranych algorytmów, która została poprzedzona dyskusją narzędzi i technologii możliwych do użycia. Podczas badań poświęcono szczególną uwagę analizie jakości działania zaimplementowanych generatorów danych w funkcji poszczególnych parametrów. Zbadano także wpływ dogenerowanych danych na sprawność klasyfikacji. W podsumowaniu pracy zawarto wnioski z przeprowadzonych badań oraz przedstawiono możliwe kierunki dalszych prac związanych z zaproponowanym rozwiązaniem.
File
  • File: 1
    Karolina_Brzęk_PracaInżynierska.pdf
Request a WCAG compliant version
Local fields
Identyfikator pracy APD: 32025

Uniform Resource Identifier
https://repo.pw.edu.pl/info/bachelor/WUT071ca0ee60814a52a8bc844f1357a86f/
URN
urn:pw-repo:WUT071ca0ee60814a52a8bc844f1357a86f

Confirmation
Are you sure?
Report incorrect data on this page