Knowledge base: Warsaw University of Technology

Settings and your account

Back

Predicting cryptocurrencies prices using sentiment analysis of social media

Mikołaj Andrzej Koszowski

Abstract

Predicting future for financial instruments in classical economic theory was considered to be impossible. However researchers from the domain of behavioural economics have proved that it could be done in many situations. They cast away old ways of thinking about rationality of human decisions and took more inspiration from social sciences like psychology and anthropology. The insights they had gained allowed them to make predictions about truly complex issues, like box office outcomes, or market index behaviour. This thesis contains a comprehensive survey of literature about modern economic theory, basic information around cryptocurrencies and essential information about Natural Language Processing in the context of sentiment analysis. This work also describes tools and methods used in data collection from social media and how to leverage gathered information for making future predictions. Last section is devoted to characterisation of a different approach for an evaluation metrics for a created models. During data collection for this analysis I have limited myself to the Twitter platform. Moreover, obtained tweets were filtered for containing the word 'bitcoin' in the text body. Data was collected between 1st Oct and 4th Dec 2018, with a 5 min resolution. This sums up to a 4M Tweets, or in other terms, to a 18k data points in the time series. The sentiment in the data was simply extracted from the text owing to already existing libraries. Nevertheless prepossessing of this data assumed inertia in emotional state of the public, what is an added value of this study. It was accomplished through a moving average function, which window size became another dimension of the conducted analysis. Standard machine learning classifiers like LDA, QDA and SVM were used for up or down trend prediction with specified time shift. What differentiate this work from similar studies, is an extensive analysis in the time shift horizon dimension, which ranged up to 7 days with 2 hour resolution. Prediction models were trained only on a social media data and tested with the use of Out-of-Sample testing schema. Finally, I propose a toy model of investment strategy which indicates strong possibility of profits for real implementation. Maximum of prediction accuracy is observed for 3 day time shift horizon and the best models predict direction of future trends with 80% F-score.
Diploma type
Engineer's / Bachelor of Science
Diploma type
Engineer's thesis
Author
Mikołaj Andrzej Koszowski (FP) Mikołaj Andrzej Koszowski,, Faculty of Physics (FP)
Title in Polish
Przewidywanie rynku kryptowalut za pomocą analizy sentymentu mediów społecznościowych
Supervisor
Julian Sienkiewicz (FP/LPESS) Julian Sienkiewicz,, Center of Physics in Economics and Social Sciences (FP/LPESS)Faculty of Physics (FP)
Certifying unit
Faculty of Physics (FP)
Affiliation unit
Center of Physics in Economics and Social Sciences (FP/LPESS)
Study subject / specialization
, Fizyka Techniczna
Language
(pl) Polish
Status
Finished
Defense Date
15-02-2019
Issue date (year)
2019
Reviewers
Piotr Fronczak (FP/PCSD) Piotr Fronczak,, Physics of Complex Systems Divison (FP/PCSD)Faculty of Physics (FP) Julian Sienkiewicz (FP/LPESS) Julian Sienkiewicz,, Center of Physics in Economics and Social Sciences (FP/LPESS)Faculty of Physics (FP)
Keywords in Polish
kryptowaluty, sentyment, media społecznościowe, predykcja
Keywords in English
bitcoin, sentiment, social media
Abstract in Polish
Przewidywanie wyników poszczególnych instrumentów finansowych jest przez klasyczną teorię ekonomii uznawane za niemożliwe. Jednakże badacze z dziedziny ekonomii behawioralnej dowiedli że jest to w wielu sytuacjach możliwe. Porzucili stare podejście myślenia o racjonalności ludzkich decyzji, na rzecz czerpania inspiracji z takich dziedzin nauk społecznych jak psychologia, czy antropologia. Zdobyte zrozumienie pozwoliło przewidzieć złożone zjawiska, jak wyniki finansowe premiery filmów, czy zachowanie indeksów giełdowych. Niniejsza praca zawiera obszerny przegląd literatury z dziedziny nowoczesnej teorii ekonomii, podstawowe informacje dotyczące kryptowalut, jak i elementy dziedziny przetwarzania języka naturalnego potrzebne do zrozumienia działania analizy sentymentu. Praca opisuje również narzędzia i metody stosowane przy agregacji danych z mediów społecznościowych i sposoby ich wykorzystania do celów przewidywania pożądanych parametrów. Ostatnia część jest poświęcona charakterystyce różnych metryk oceny jakości stworzonych modeli predykcyjnych. Podczas zbierania danych do analizy ograniczyłem się wyłącznie do sieci społecznościowej Twitter. Ponadto zbierane tweety filtrowałem pod względem zawierania słowa 'bitcoin' w wiadomości. Dane zbierałem pomiędzy 1 października a 4 grudnia 2018 r. z 5 minutową rozdzielczością, co pozwoliło na uzyskanie 4 mln tweetów, równoważnych 18 tys. punktów w szeregu czasowym. Dane o sentymencie wydobyłem za pomocą już gotowych bibliotek, niemniej jednak wstępna obróbka tych danych zakładała bezwładność stanu emocjonalnego badanej społeczności, co jest jedną z wartości dodanych tej pracy. Założenie to zrealizowałem za pomocą średniej ruchomej, której okno stało się kolejnym wymiarem przeprowadzonej analizy. W celu przewidzenia kierunku trendu dla określonego przesunięcia czasowego, wykorzystałem klasyczne metody klasyfikacyjne jak LDA, QDA i SVM. W odróżnieniu od podobnych podejść praca skupia się na dokładnej analizie we wspomnianym wymiarze przesunięcia horyzontu czasowego, który to sięgał do 7 dni z rozdzielczością 2 godzin. Modele predykcyjne trenowałem wyłącznie na danych uzyskanych z mediów społecznościowych, a testowałem za pomocą podejścia 'Out-of-Sampling'. Zaproponowałem prosty model strategii inwestycyjnej, który sugerował możliwość zysku dla potencjalnej rzeczywistej implementacji. Zaobserwowano maksimum skuteczności dla horyzontu czasowego wynoszącego 3 dni, a najlepsze modele przewidywały kierunek trendu ze wskaźnikiem F1 wynoszącym 80%.
File
  • File: 1
    Praca_Dyplomowa_Koszowski.pdf
Request a WCAG compliant version
Local fields
Identyfikator pracy APD: 27242

Uniform Resource Identifier
https://repo.pw.edu.pl/info/bachelor/WUTbbb87041a8a94f6aa0ef76f33c9ffa92/
URN
urn:pw-repo:WUTbbb87041a8a94f6aa0ef76f33c9ffa92

Confirmation
Are you sure?
Report incorrect data on this page