Knowledge base: Warsaw University of Technology

Settings and your account

Back

Text Logs Analysis System Using a GPU Coprocessor

Artur Tomasz Niewiadomski

Abstract

The present thesis describes an original approach to the text logs analysis, with the application of graphical processors. The process involves scanning the log lines in the search for fields, marked by the occurrences of consecutive space characters, and afterwards processing them into values and measures. Among the parsed data there are IP addresses, the number of bytes sent, the type of operating system and web browser, etc. Afterwards, the gathered data is grouped according to selected values called dimensions, (e.g. the client's operating system), and subsequently aggregated. The reduction phase consists of summing the values, as well as calculating the number of distinct IP addresses encountered. On the basis of the processed data, the OLAP cubes are constructed, for the purposes of time series databases. The thesis consists of, apart from the description of the solution, the description of the iterative process of searching for the optimal algorithms and architecture, as well as the conducted experiments. Additionally, comparisons of different approaches to solving the problem are included. The prototype, while utilising generated data, has a processing speed of up to 13 million log lines per second, which allows the conclusion that the present approach can be employed in an industrial system.
Diploma type
Engineer's / Bachelor of Science
Diploma type
Engineer's thesis
Author
Artur Tomasz Niewiadomski (FMIS) Artur Tomasz Niewiadomski,, Faculty of Mathematics and Information Science (FMIS)
Title in Polish
Analiza logów tekstowych z użyciem koprocesora GPU
Supervisor
Krzysztof Kaczmarski (FMIS/DIPS) Krzysztof Kaczmarski,, Department of Information Processing Systems (FMIS/DIPS)Faculty of Mathematics and Information Science (FMIS)
Certifying unit
Faculty of Mathematics and Information Science (FMIS)
Affiliation unit
Department of Information Processing Systems (FMIS/DIPS)
Study subject / specialization
, Informatyka (Computer Science)
Language
(en) English
Status
Finished
Defense Date
06-02-2019
Issue date (year)
2019
Reviewers
Krzysztof Kaczmarski (FMIS/DIPS) Krzysztof Kaczmarski,, Department of Information Processing Systems (FMIS/DIPS)Faculty of Mathematics and Information Science (FMIS) Marcin Luckner (FMIS/DSMKP) Marcin Luckner,, Department of Structural Methods for Knowledge Processing (FMIS/DSMKP)Faculty of Mathematics and Information Science (FMIS) Marcin Luckner (FMIS/DSMKP) Marcin Luckner,, Department of Structural Methods for Knowledge Processing (FMIS/DSMKP)Faculty of Mathematics and Information Science (FMIS) Krzysztof Kaczmarski (FMIS/DIPS) Krzysztof Kaczmarski,, Department of Information Processing Systems (FMIS/DIPS)Faculty of Mathematics and Information Science (FMIS)
Keywords in Polish
GPU, analiza tekstu, przetwarzanie równoległe, OLAP
Keywords in English
GPU, text analysis, parallel processing, OLAP
Abstract in Polish
Niniejsza praca przedstawia autorskie rozwiązanie służące do analizy logów tekstowych z wykorzystaniem kart graficznych. W ramach analizy wyszukiwane są w liniach logów tekstowych pola, oznaczone przez wystąpienia kolejnych znaków spacji, a następnie przetwarzane na wartości oraz metryki. Wśród uzyskanych danych znajdują się między innymi adresy IP, ilość przesłanych bajtów czy rodzaj systemu operacyjnego i przeglądarki. Uzyskane dane są następnie grupowane według wybranych wartości nazywanych wymiarami (np. system operacyjny klienta) i agregowane. Do etapu redukcji zalicza się sumowanie wartości jak również zliczanie liczby napotkanych unikalnych adresów IP. Z tak przetworzonych informacji konstruowane są kostki OLAP'owe na potrzeby bazy danych szeregów czasowych. Praca zawiera, poza opisem rozwiązania, opis procesu poszukiwania optymalnych algorytmów i architektury oraz wykonanych eksperymentów. Dodatkowo zamieszczone są porównania różnych prób rozwiązania problemu. Prototyp, uruchomiomy na spreparowanych danych, przetwarza dane z przepustowością do 13 milionów linii logów tekstowych na sekundę, co pozwala wnioskować że takie podejście może mieć zastosowanie w systemie przemysłowym.
File
  • File: 1
    thesis.pdf
Request a WCAG compliant version
Local fields
Identyfikator pracy APD: 29653

Uniform Resource Identifier
https://repo.pw.edu.pl/info/bachelor/WUTf6a1145dc5f94f8598b0c655c4380b05/
URN
urn:pw-repo:WUTf6a1145dc5f94f8598b0c655c4380b05

Confirmation
Are you sure?
Report incorrect data on this page