Knowledge base: Warsaw University of Technology

Settings and your account

Back

Detection of Relevant and Irrelevant Web Pages' Parts

Michał Mateusz Wójcik

Abstract

In this work HTML documents chosen analysis methods were presented, that allow to differ main content parts from others like advertisements, navigation elements etc. Thereafter a solution was put forward, which allows detection, content interpretation and relevancy determining of blocks of two types - record and textual. Method main capabilities, such as records and text headers detecting, were presented in detail. Also, the tool was described the proposed solution was implemented in. Internet pages of two types were tested by using it. First one bracketed together HTML documents in which most relevant part is a record group. Among them were search engines result pages and online shops pages with products list. Documents of second type were articles. Results of tests conducted on popular websites pages were detailed and concluded. Lastly, solution further development proposition was presented.
Record ID
WUT307788
Diploma type
Master of Science
Author
Michał Mateusz Wójcik (FEIT/ICS) Michał Mateusz Wójcik,, The Institute of Computer Science (FEIT/ICS)Faculty of Electronics and Information Technology (FEIT)
Title in Polish
Wykrywanie istotnych i nieistotnych fragmentów stron WWW
Supervisor
Piotr Gawrysiak (FEIT/ICS) Piotr Gawrysiak,, The Institute of Computer Science (FEIT/ICS)Faculty of Electronics and Information Technology (FEIT)
Certifying unit
Faculty of Electronics and Information Technology (FEIT)
Affiliation unit
The Institute of Computer Science (FEIT/ICS)
Language
(pl) Polish
Status
Finished
Issue date (year)
2012
Internal identifier
ENII-PM.001653
Keywords in Polish
fragmenty istotne stron, fragmenty nieistotne stron, internetowe rekordy danych, artykuły internetowe, wyszukiwanie informacji
Keywords in English
relevant pages' parts, irrelevant pages' parts, web data records, web articles, information retrieval, information extraction
Abstract in Polish
W pracy przedstawiono wybrane metody analizy dokumentów HTML, pozwalające na odróżnienie fragmentów, które stanowią właściwą treść, od pozostałych będących reklamami, elementami nawigacyjnymi etc. Dalej omówiono propozycję rozwiązania pozwalającego wykrywać, interpretować zawartość i określać stopień istotności bloków dwóch typów - rekordowych i tekstowych. Szczegółowo przedstawiono możliwości sugerowanej metody takie, jak wykrywanie nagłówków rekordów i tekstu. Opisano również narzędzie, w ramach którego zaimplementowano przedstawione rozwiązanie. Za jego pomocą zbadano dwa typy internetowych stron WWW. Do pierwszego z nich zaliczono te dokumenty, których najistotniejszym fragmentem była grupa rekordów. Wśród nich znalazły się strony wynikowe wyszukiwarek internetowych lub zawierające listę produktów sklepu internetowego. Do drugiego rodzaju przypisano dokumenty zawierające artykuły internetowe. Omówiono wyniki działania narzędzia dla stron z wybranych popularnych serwisów internetowych i sformułowano wnioski. Na koniec przedstawiono propozycje dalszego rozwoju proponowanej metody.
File
Request a WCAG compliant version

Uniform Resource Identifier
https://repo.pw.edu.pl/info/master/WUT307788/
URN
urn:pw-repo:WUT307788

Confirmation
Are you sure?
Report incorrect data on this page