Knowledge base: Warsaw University of Technology

Settings and your account

Back

Automated extraction and preprocessing of texts from internet forums

Piotr Mateusz Chodyko

Abstract

Despite immense amounts of data available in the Internet, the process of their extraction is often tedious and time-consuming. This thesis is devoted to automatization of the textual data extraction process from Internet forums and its transformation to vector representations. The automatization is fulfilled by an implemented, generic tool. Its requirements, assumptions and details were described. The tool serves for data downloading from the most popular forum engines and transforming the extracted texts to vector representations. Tests of extracting data from three most widely used forum platforms were presented. Exported vector representations of texts were analyzed with use of machine learning algorithms to demonstrate possible uses of extracted data. Possible applications of forum data as well as reasons that make forums interesting field for exploration in data analysis were also introduced.
Diploma type
Engineer's / Bachelor of Science
Diploma type
Engineer's thesis
Author
Piotr Mateusz Chodyko (FEIT/ICS) Piotr Mateusz Chodyko,, The Institute of Computer Science (FEIT/ICS)Faculty of Electronics and Information Technology (FEIT)
Title in Polish
Automatyzacja ekstrakcji i wstępnego przetwarzania danych tekstowych z internetowych forów dyskusyjnych
Supervisor
Paweł Cichosz (FEIT/ICS) Paweł Cichosz,, The Institute of Computer Science (FEIT/ICS)Faculty of Electronics and Information Technology (FEIT)
Certifying unit
Faculty of Electronics and Information Technology (FEIT)
Affiliation unit
The Institute of Computer Science (FEIT/ICS)
Study subject / specialization
, Informatyka (Computer Science)
Language
(pl) Polish
Status
Finished
Defense Date
08-02-2019
Issue date (year)
2019
Internal identifier
2/19 (2595)
Reviewers
Piotr Andruszkiewicz (FEIT/ICS) Piotr Andruszkiewicz,, The Institute of Computer Science (FEIT/ICS)Faculty of Electronics and Information Technology (FEIT) Paweł Cichosz (FEIT/ICS) Paweł Cichosz,, The Institute of Computer Science (FEIT/ICS)Faculty of Electronics and Information Technology (FEIT)
Keywords in Polish
ekstrakcja treści, wektorowa reprezentacja tekstu, klasyfikacja tekstu, grupowanie tekstu
Keywords in English
data extraction, vector representation of text, text classification, text clustering
Abstract in Polish
Mimo ogromnej ilości danych dostępnych w sieci internet, ich pozyskiwanie jest nierzadko zadaniem żmudnym i czasochłonnym. Praca jest poświęcona automatyzacji procesu pozyskiwania danych tekstowych z forów internetowych i ich transformacji do reprezentacji wektorowej. Przedstawione zostały wymagania, założenia oraz szczegóły opracowanej implementacji realizującej automatyzację. Narzędzie ekstrakcji umożliwia pobieranie treści z najbardziej popularnych platform forów oraz eksport wyznaczonych reprezentacji wektorowych tekstów. Przedstawione zostały rezultaty masowych testów pobierania z trzech najbardziej rozpowszechnionych platform forów. Zaprezentowano również eksperymenty dla wybranych wyeksportowanych zbiorów danych z użyciem algorytmów uczenia maszynowego, w celu demonstracji możliwości wykorzystania eksportowanych tekstów. Ponadto w pracy wskazano możliwe zastosowania danych z forów i zaprezentowano przesłanki, które czynią fora dyskusyjne interesującymi do eksploracji w dziedzinie analizy danych.
File
  • File: 1
    Automatyzacja_ekstrakcji_i_wstepnego_przetwarzania_danych_tekstowych_z_internetowych_forow_dyskusyjnych_-_Piotr_Chodyko.pdf
Request a WCAG compliant version
Local fields
Identyfikator pracy APD: 32021

Uniform Resource Identifier
https://repo.pw.edu.pl/info/bachelor/WUTacf39cd9f08b47af90479ad8bcdb90ad/
URN
urn:pw-repo:WUTacf39cd9f08b47af90479ad8bcdb90ad

Confirmation
Are you sure?
Report incorrect data on this page