Knowledge base: Warsaw University of Technology

Settings and your account

Back

Data-mining of the Event Registry database

Krzysztof Dzienisiuk

Abstract

The aim of the thesis was to study spread of information in-between sources publishing press articles which are collected and preprocessed in the Eventregistry system. To achieve this data mining and statistics analysis methods has been used as well as the formalism of temporal networks. In the introduction there are sketched main components of thesis. The Eventregistry system and concept of data-mining is presented. Next, the main aim of thesis is framed, finding relations between information sources from which one could find those with most original characteristics. In the second chapter there is detailed description of Eventregistry system – characterization of functionalities in every of four phases. In the third chapter there are presented used tools and utilities in the thesis - programming languages such as Python for data downloading, Java for network creation, R for statistics analysis. In the fourth chapter the structure of downloaded data is presented, which are main element of analysis. In later chapters there is presented methodology of analysis: empirical distributions of articles and events as also implementation of temporal networks in information sources. There are described four main measure coefficients used in thesis: temporal degree, frequency of edge between vertices, average topological overlap and betweenness. Those coefficients specify the characteristics of information sources. In the results, power law character of event size distribution has been observed as well non-monotonicity and presence of local maxima in the distribution of event lifespan. No linear correlation between event size and lifespan has been founded. The distribution of sources ordered by ranking has power law character. Calculated coefficients shows most important sources in network, which has the highest contribution to information spreading. There are observed two, the most characteristic group of sources. Global sources which are publishing in English language and sources publishing in Chinese language, which has more compact and local character.
Diploma type
Engineer's / Bachelor of Science
Diploma type
Engineer's thesis
Author
Krzysztof Dzienisiuk (FP) Krzysztof Dzienisiuk,, Faculty of Physics (FP)
Title in Polish
Statystyczna eksploracja bazy danych systemu Event Registry
Supervisor
Robert Paluch (FP/LPESS) Robert Paluch,, Center of Physics in Economics and Social Sciences (FP/LPESS)Faculty of Physics (FP)
Janusz Hołyst (FP/LPESS) Janusz Hołyst,, Center of Physics in Economics and Social Sciences (FP/LPESS)Faculty of Physics (FP)
Certifying unit
Faculty of Physics (FP)
Affiliation unit
Center of Physics in Economics and Social Sciences (FP/LPESS)
Study subject / specialization
, Fizyka Techniczna
Language
(pl) Polish
Status
Finished
Defense Date
19-02-2016
Issue date (year)
2016
Reviewers
Robert Paluch (FP/LPESS) Robert Paluch,, Center of Physics in Economics and Social Sciences (FP/LPESS)Faculty of Physics (FP) Krzysztof Suchecki (FP/LPESS) Krzysztof Suchecki,, Center of Physics in Economics and Social Sciences (FP/LPESS)Faculty of Physics (FP)
Keywords in Polish
EventRegistry, sieci złożone, sieci czasowe, eksploracja danych
Keywords in English
EventRegistry, complex networks, temporal networks, data mining
Abstract in Polish
Celem pracy było zbadanie rozprzestrzeniania się informacji między źródłami publikującymi artykuły prasowe zbieranych w informatycznym systemie Eventregistry. Wykorzystano do tego metody eksploracji danych oraz formalizm sieci czasowych. We wstępie pracy zostają zarysowane główne elementy pracy. Przedstawiony zostaje system Eventregistry oraz pojęcie eksploracji danych. Sformułowana zostaje główna problematyka pracy, poszukiwanie relacji między źródłami informacji, które ukazałyby źródła o oryginalnych właściwościach. W drugim rozdziale następuje szczegółowy opis działania systemu Eventregistry – opis czterech głównych faz funkcjonowania. W trzecim rozdziale następuje przedstawienie wykorzystanych narzędzi – języki programowania Python do pobrania danych, Java do wygenerowania sieci, R do analizy statystycznej. W czwartym rozdziale przedstawiona zostaje struktura pobranych danych będących elementem analizy. W późniejszych rozdziałach następuje przedstawienie metodologii przeprowadzonych analiz: rozkłady empiryczne artykułów i wydarzeń oraz wprowadzenie sieci czasowych źródeł informacji. Opisane zostają cztery najważniejsze miary zastosowane w pracy: temporal degree, częstość występowania połączenia, average topological overlap oraz pośrednictwo. Miary te określają parametry charakterystyczne źródeł. W wynikach zaobserwowano potęgowy charakter rozkładu rozmiaru wydarzeń, a przy rozkładzie czasu życia wydarzeń niemonotoniczność i występowanie lokalnych maksimów. Nie stwierdzono korelacji liniowych między rozmiarem a czasem życia wydarzenia. Rozkład źródeł uszeregowanych względem ilości opublikowanych artykułów wykazują potęgowy charakter. Wyznaczone miary pokazują najważniejsze źródła, mające największy wkład w rozprzestrzenianie się informacji. Zaobserwowane zostają dwie najbardziej charakterystyczne grupy źródeł. Globalne źródła publikujące w języku angielskim oraz źródła publikujące w języku chińskim o zamkniętym, lokalnym charakterze.
File
  • File: 1
    Praca_dyplomowa_KrzysztofDzienisiuk.pdf
Request a WCAG compliant version
Local fields
Identyfikator pracy APD: 9920

Uniform Resource Identifier
https://repo.pw.edu.pl/info/bachelor/WUTe16f6edef5004c5a9235348f9af69ffe/
URN
urn:pw-repo:WUTe16f6edef5004c5a9235348f9af69ffe

Confirmation
Are you sure?
Report incorrect data on this page