Representation of Information News Web Sites for the Purpose of Their Classifkation

Jakub Jerzy Sękowski

Abstract

The topic of the dissertation is a study of a new kind of a web-site-based documents representation. The system which allows automatic classification of web sites based on the classification performed by users has been designed and implemented within the scope of this thesis. The system’s design includes two cooperating parts: a web application and a web browser plugin. The plugin allows users to manually classify web sites and provides the presentation of the results of the classification performed by the system. The web application’s task is to download web sites, create their representation and perform their classification. The hierarchical document representation proposed in the thesis was utilized in the implemented system. It made possible conducting the experiments which aim was to study the influence of the new type of representation over quality of the web sites classification with use of chosen classifiers. The experiments concerning document classification with use of the popular unigram representation have also been conducted. The experiments conducted within the scope of the thesis allowed to compare the results of the hierarchical document representation and rate its performance.
Diploma typeMaster of Science
Author Jakub Jerzy Sękowski II
Jakub Jerzy Sękowski,,
- The Institute of Computer Science
Title in PolishReprezentacje stron portali informacyjnych na potrzeby ich klasyfikacji
Supervisor Grzegorz M. Protaziuk II
Grzegorz M. Protaziuk,,
- The Institute of Computer Science
Certifying unitFaculty of Electronics and Information Technology (FEIT)
Affiliation unitThe Institute of Computer Science (IN)
Languagepl polski
StatusFinished
Issue date (year)2013
Internal identifierENII-PM.001740
Keywords in Polishklasyfikacja, klasyfikator, reprezentacja dokumentu, przetwarzanie wstępne
Keywords in Englishclassification, classifier, document representation, document preprocessing
Abstract in PolishNiniejsza praca dotyczy opracowania nowego rodzaju reprezentacji dokumentów, będących stronami WWW. W ramach pracy zaprojektowany oraz wykonany został system umożliwiający automatyczną klasyfikację stron internetowych na podstawie klasyfikacji dokonanych przez użytkowników. Projekt systemu obejmuje dwie współpracujące ze sobą części: aplikację WWW oraz plugin przeglądarki internetowej. Plugin umożliwia użytkownikom ręczną klasyfikację stron oraz zapewnia prezentację wyników klasyfikacji dokonanych przez system. Zadaniem aplikacji WWW jest pobieranie stron WWW, tworzenie dla nich reprezentacji oraz ich klasyfikacja. Zaproponowana w pracy hierarchiczna reprezentacja dokumentów WWW została wykorzystana w opracowanym systemie. Umożliwiło to przeprowadzenie eksperymentów mających na cetu zbadanie wpływu zastosowania nowego typu reprezentacji na jakość klasyfikacji stron WWW z wykorzystaniem wybranych klasyfikatorów. Wykonane zostały także eksperymenty dotyczące klasyfikacji dokumentów z zastosowaniem popularnej reprezentacji unigramowej, co pozwoliło na porównanie wyników oraz ocenę reprezentacji hierarchicznej.


Back