Knowledge base: Warsaw University of Technology

Settings and your account

Back

Automatic music transcription using neural networks

Aleksandra Krystecka

Abstract

The purpose of the thesis was to examine the possible applications of the neural network in the field of automatic music transcription. Such an application could turn out very helpful during the music composition process, improvisation recording and even learning to play on any instrument. An attempt to make use of neural networks, however popular nowadays, was caused by the will to simplify this sophisticated problem. At the beginning of the thesis the music transcription problem was presented and discussed, together with its most popular and widely known solutions. Various data preprocessing methods and usable neural network architectures were discussed. Afterwards the author’s own solution of the problem was described. It was restricted to only single sounds - a single voice line. The next part consisted of the data generation methods documentation. The data obtained from those methods, in the form of the wave files with the frequency equal to the frequency of the sounds within the range of two octaves, made up a solid base for the network learning process - right after the preprocessing, as described afterwards. The next step was to create the network model. The author pinpointed how types and parameters of the used network layers affect the accuracy of its calculations. Once the algorithm with the chosen architecture has learnt to the sufficient level of accuracy, it was tested with the use of known melodies in order to prove its correctness and possibilities. The algorithm’s limitations, their reasons and possible solutions for improving the results accuracy were also listed and described. The next milestone was an attempt to solve the problem of polyphonic music transcription. It required a major changes in the current approach. The problem range was narrowed down to only piano songs. The search for the proper data set took place. The new form of preprocessing was presented - the one better adapted to the universal problem formula. Next, the new architecture sketches and methods for its further development were introduced. All the mistakes that appeared during the thesis preparation were carefully pointed out, alongside with the ways for avoiding them in the future. At the end, the thesis effects and application functionalities were summed up, the results and conclusions were gathered. The possible ways of further development and extending the presented solutions were showed.
Diploma type
Engineer's / Bachelor of Science
Diploma type
Engineer's thesis
Author
Aleksandra Krystecka (FM) Aleksandra Krystecka,, Faculty of Mechatronics (FM)
Title in Polish
Automatyczna transkrypcja dźwięków z wykorzystaniem sieci neuronowych
Supervisor
Michał Bartyś (FM/IACR) Michał Bartyś,, The Institute of Automatic Control and Robotics (FM/IACR)Faculty of Mechatronics (FM)
Certifying unit
Faculty of Mechatronics (FM)
Affiliation unit
The Institute of Automatic Control and Robotics (FM/IACR)
Study subject / specialization
, Automatyka i Robotyka (Automation and Robotics)
Language
(pl) Polish
Status
Finished
Defense Date
07-02-2019
Issue date (year)
2019
Reviewers
Michał Bartyś (FM/IACR) Michał Bartyś,, The Institute of Automatic Control and Robotics (FM/IACR)Faculty of Mechatronics (FM) Anna Jankowska (FM/IACR) Anna Jankowska,, The Institute of Automatic Control and Robotics (FM/IACR)Faculty of Mechatronics (FM)
Keywords in Polish
transkrypcja, sieci neuronowe, music information retrieval
Keywords in English
transcription, neural networks, music information retrieval
Abstract in Polish
Celem niniejszej pracy było sprawdzenie możliwości stosowania sieci neuronowych do automatycznej transkrypcji muzyki. System, stworzony z wykorzystaniem takiego narzędzia, mógłby wspomóc proces komponowania muzyki, zapisu improwizacji, jak również nauki gry na instrumencie. Próba zastosowania do tego celu popularnych w ostatnich latach sieci neuronowych spowodowana była chęcią uproszczenia rozwiązania tego skomplikowanego problemu. Na początku pracy omówiony został problem transkrypcji muzyki, przedstawione zostały znane podejścia do rozwiązania problemu. Zaprezentowano różne metody preprocessingu danych oraz możliwe do zastosowania architektury sieci neuronowej. Następnie opisano własną metodę rozwiązania problemu, ograniczoną do transkrypcji pojedynczych dźwięków – pojedynczej linii głosowej. Pokazana została generacja danych, które były postawą do uczenia sieci, czyli przygotowanie zbioru plików w formacie wave o częstotliwości odpowiadającej częstotliwości dźwięków w zakresie dwóch oktaw. a także preprocessing Kolejnym krokiem było tworzenie modelu sieci. Wskazano, jaki wpływ na dokładność obliczeń sieci ma rodzaj stosowanych warstw, a także parametry tych warstw. Wyuczoną architekturę zastosowano do transkrypcji znanych melodii w celu przetestowania jej, a także pokazania jej możliwości. Wskazano także ograniczenia stosowanego algorytmu, ich przyczynę, jak również możliwe sposoby poprawy wyników. Kolejnym krokiem była próba rozwiązania problemu transkrypcji muzyki polifonicznej. Wymagało to zmiany dotychczasowego podejścia. Problem zawężono do utworów fortepianowych. Nastąpiły opisane w pracy poszukiwania odpowiedniego zbioru danych. Zaprezentowano nową postać preprocessingu, bardziej odpowiedniego do uogólnionego problemu. Po tym zawarte zostały szkice nowej architektury i opis metody jej rozbudowywania. Opisano błędy, napotkane podczas pracy, jak również ewentualne sposoby ich uniknięcia podczas dalszego rozwoju architektury. Na zakończenie podsumowano efekty pracy, działanie aplikacji oraz zebrano wnioski, nasuwające się w trakcie tworzenia pracy. Zarysowano także możliwe ścieżki rozbudowy przedstawionego rozwiązania.
File
  • File: 1
    276740_inz.pdf
Request a WCAG compliant version
Local fields
Identyfikator pracy APD: 31832

Uniform Resource Identifier
https://repo.pw.edu.pl/info/bachelor/WUT186799db15ab4c0baea575f09f1ba989/
URN
urn:pw-repo:WUT186799db15ab4c0baea575f09f1ba989

Confirmation
Are you sure?
Report incorrect data on this page