Baza wiedzy: Politechnika Warszawska

Ustawienia i Twoje konto

Powrót

Pofównanie miar podobieństwa tekstu w grupowaniu dokumentów tekstowych

Tomasz Nowotarski

Abstract

Document clustering is one of the fields of text data mining. Clustering is a process of gathering similar objects together into different groups, or more precisely, the partitioning of a data set into subsets (clusters), so that the data in each subset share some common trait - often proximity according to some defined distance measure. There are many clustering algorithms but all of them have to use one of the distance measures to compute similarity between documents. This observation encouraged me to investigate the impact of distance measures ou document clustering. I chose the most popular distance measures and tested them on different data sets to see which of them allow obtaining the best results in document clustering.
Rodzaj dyplomu
Praca inżynierska / licencjacka
Typ dyplomu
Praca inżynierska
Autor
Tomasz Nowotarski (WEiTI/II) Tomasz Nowotarski Instytut Informatyki (WEiTI/II)Wydział Elektroniki i Technik Informacyjnych (WEiTI)
Tytuł w języku polskim
Pofównanie miar podobieństwa tekstu w grupowaniu dokumentów tekstowych
Promotor
Grzegorz M. Protaziuk (WEiTI/II) Grzegorz M. Protaziuk Instytut Informatyki (WEiTI/II)Wydział Elektroniki i Technik Informacyjnych (WEiTI)
Jednostka dyplomująca
Wydział Elektroniki i Technik Informacyjnych (WEiTI)
Jednostka prowadząca
Instytut Informatyki (WEiTI/II)
Język
(pl) polski
Status pracy
Obroniona
Data (rok) wydania
2007
Słowa kluczowe w języku polskim
grupowanie, miary podobieństwa tekstu, dokumenty tekstowe, UPGMA
Słowa kluczowe w języku angielskim
distance measures, document clustering, UPGMA
Streszczenie w języku polskim
Grupowanie dokumentów tekstowych jest jednym z działów eksploracji danych tekstowych. Grupowanie to proces tworzenia grup obiektów o podobnych cechach, w klasy, nazywane także klastrami lub skupieniami. Analizowane obiekty mogą być zarówno rzeczywiste jak i abstrakcyjne. Kluczowym zagadnieniem grupowania jest wybranie miary podobieństwa dokumentów tekstowych. Istnieje wiele algorytmów grupowania, ale każdy z nich musi na pewnym etapie porównać ze sobą dwa dokumenty, tak by określić stopień ich podobieństwa. wynika z tego, że miara podobieństwa jest jednym z kluczowych zagadnień klasteringu, a co za tym idzie wybór odpowiedniej miary może mieć bardzo duże znaczenie dla końcowych wyników grupowania. Ta przesłanka leży u podstaw mojej pracy, w której zdecydowałem się sprawdzić wpływ różnych miar podobieństwa na wyniki grupowania. wybrałem najpopularniejsze miary stosowane w eksploracji danych tekstowych, a następnie przetestowałem je na różnych zbiorach danych, w celu wybrania tych, które dają najlepsze rezultaty w grupowaniu dokumentów tekstowych.

Jednolity identyfikator zasobu
https://repo.pw.edu.pl/info/bachelor/WUTd844940cacbf4d01a1654ad2070b2af2/
URN
urn:pw-repo:WUTd844940cacbf4d01a1654ad2070b2af2

Potwierdzenie
Czy jesteś pewien?
Zgłoszenie uwag dotyczących tej strony