Baza wiedzy: Politechnika Warszawska

Ustawienia i Twoje konto

Powrót

Implementacja algorytmu Monte Carlo z wykorzystaniem łańcuchów Markowa do generowania danych

Karolina Brzęk

Abstract

The machine learning process can automate many mechanisms, but usually requires carefully choosen training set. The efficiency of the classifier depends on size and quality of that set. Unfortunately, there is often a deficiency in the set of input data. One of the example field of interest might be the analysis of speech signal used to improve the security of information systems. However it is challenging to obtain a sufficient set of samples necessary to train the classifier. This essay is a documentation of the process of exploring the possibility of using the Markov Chain Monte Carlo method to solve the problem of insufficient training data for classifiers. The progression of creating data generators based on Markov Chain Monte Carlo method has been described starting from the conceptual phase, through in-depth literature studies and learning how the MCMC method works, the choice of tools and technologies, and finally the implementation of selected algorithms. The thesis also describes the performed tests, including the influence of individual parameters on the quality of implemented data generator and the impact of the generated data on the efficiency of classification. The summary contains conclusions from the pursued research, as well as the future prospects of possible development.
Rodzaj dyplomu
Praca inżynierska / licencjacka
Typ dyplomu
Praca inżynierska
Autor
Karolina Brzęk (WEiTI/IT) Karolina Brzęk Instytut Telekomunikacji (WEiTI/IT)Wydział Elektroniki i Technik Informacyjnych (WEiTI)
Tytuł w języku polskim
Implementacja algorytmu Monte Carlo z wykorzystaniem łańcuchów Markowa do generowania danych
Promotor
Danuta Ojrzeńska-Wójter (WEiTI/IT) Danuta Ojrzeńska-Wójter Instytut Telekomunikacji (WEiTI/IT)Wydział Elektroniki i Technik Informacyjnych (WEiTI)
Jednostka dyplomująca
Wydział Elektroniki i Technik Informacyjnych (WEiTI)
Jednostka prowadząca
Instytut Telekomunikacji (WEiTI/IT)
Kierunek / specjalność studiów
, Telekomunikacja (Telecommunications)
Język
(pl) polski
Status pracy
Obroniona
Data obrony
12-02-2019
Data (rok) wydania
2019
Recenzenci
Przemysław Dymarski (WEiTI/IT) Przemysław Dymarski Instytut Telekomunikacji (WEiTI/IT)Wydział Elektroniki i Technik Informacyjnych (WEiTI) Danuta Ojrzeńska-Wójter (WEiTI/IT) Danuta Ojrzeńska-Wójter Instytut Telekomunikacji (WEiTI/IT)Wydział Elektroniki i Technik Informacyjnych (WEiTI)
Słowa kluczowe w języku polskim
metoda MCMC, uczenie maszynowe, generowanie danych
Słowa kluczowe w języku angielskim
MCMC method, machine learning, data generation
Streszczenie w języku polskim
Uczenie maszynowe, które pozwala zautomatyzować wiele mechanizmów, poza stosowanymi algorytmami, w większości opiera się na danych stanowiących zbiór treningowy. Od jego wielkości i jakości zależy sprawność klasyfikatora. Niestety często nie dysponujemy wystarczającym zestawem danych uczących. Przykładem może być sygnał mowy wykorzystywany do zabezpieczeń systemów informatycznych, w przypadku którego pozyskanie dostatecznego zbioru próbek, koniecznych do wytrenowania klasyfikatora, jest utrudnione. W pracy podjęto się próby rozwiązania problemu niewystarczającej ilości danych treningowych dla klasyfikatorów. Dokumentacja stanowi opis procesu badania możliwości zastosowania metody Monte Carlo wykorzystującej łańcuchy Markowa. Przedstawiony został przebieg tworzenia generatorów danych bazujących na wybranej metodzie próbkowania począwszy od etapu koncepcyjnego, przez dogłębne studia literatury, w tym istotę metody MCMC, aż po implementację wybranych algorytmów, która została poprzedzona dyskusją narzędzi i technologii możliwych do użycia. Podczas badań poświęcono szczególną uwagę analizie jakości działania zaimplementowanych generatorów danych w funkcji poszczególnych parametrów. Zbadano także wpływ dogenerowanych danych na sprawność klasyfikacji. W podsumowaniu pracy zawarto wnioski z przeprowadzonych badań oraz przedstawiono możliwe kierunki dalszych prac związanych z zaproponowanym rozwiązaniem.
Plik pracy
  • Plik: 1
    Karolina_Brzęk_PracaInżynierska.pdf
Poproś o plik WCAG
Pola lokalne
Identyfikator pracy APD: 32025

Jednolity identyfikator zasobu
https://repo.pw.edu.pl/info/bachelor/WUT071ca0ee60814a52a8bc844f1357a86f/
URN
urn:pw-repo:WUT071ca0ee60814a52a8bc844f1357a86f

Potwierdzenie
Czy jesteś pewien?
Zgłoszenie uwag dotyczących tej strony