Knowledge base: Warsaw University of Technology

Settings and your account

Back

Comparison of Text Similarity Measures in Document Clustering

Tomasz Nowotarski

Abstract

Document clustering is one of the fields of text data mining. Clustering is a process of gathering similar objects together into different groups, or more precisely, the partitioning of a data set into subsets (clusters), so that the data in each subset share some common trait - often proximity according to some defined distance measure. There are many clustering algorithms but all of them have to use one of the distance measures to compute similarity between documents. This observation encouraged me to investigate the impact of distance measures ou document clustering. I chose the most popular distance measures and tested them on different data sets to see which of them allow obtaining the best results in document clustering.
Diploma type
Engineer's / Bachelor of Science
Diploma type
Engineer's thesis
Author
Tomasz Nowotarski (FEIT/ICS) Tomasz Nowotarski,, The Institute of Computer Science (FEIT/ICS)Faculty of Electronics and Information Technology (FEIT)
Title in Polish
Pofównanie miar podobieństwa tekstu w grupowaniu dokumentów tekstowych
Supervisor
Grzegorz M. Protaziuk (FEIT/ICS) Grzegorz M. Protaziuk,, The Institute of Computer Science (FEIT/ICS)Faculty of Electronics and Information Technology (FEIT)
Certifying unit
Faculty of Electronics and Information Technology (FEIT)
Affiliation unit
The Institute of Computer Science (FEIT/ICS)
Language
(pl) Polish
Status
Finished
Issue date (year)
2007
Keywords in Polish
grupowanie, miary podobieństwa tekstu, dokumenty tekstowe, UPGMA
Keywords in English
distance measures, document clustering, UPGMA
Abstract in Polish
Grupowanie dokumentów tekstowych jest jednym z działów eksploracji danych tekstowych. Grupowanie to proces tworzenia grup obiektów o podobnych cechach, w klasy, nazywane także klastrami lub skupieniami. Analizowane obiekty mogą być zarówno rzeczywiste jak i abstrakcyjne. Kluczowym zagadnieniem grupowania jest wybranie miary podobieństwa dokumentów tekstowych. Istnieje wiele algorytmów grupowania, ale każdy z nich musi na pewnym etapie porównać ze sobą dwa dokumenty, tak by określić stopień ich podobieństwa. wynika z tego, że miara podobieństwa jest jednym z kluczowych zagadnień klasteringu, a co za tym idzie wybór odpowiedniej miary może mieć bardzo duże znaczenie dla końcowych wyników grupowania. Ta przesłanka leży u podstaw mojej pracy, w której zdecydowałem się sprawdzić wpływ różnych miar podobieństwa na wyniki grupowania. wybrałem najpopularniejsze miary stosowane w eksploracji danych tekstowych, a następnie przetestowałem je na różnych zbiorach danych, w celu wybrania tych, które dają najlepsze rezultaty w grupowaniu dokumentów tekstowych.

Uniform Resource Identifier
https://repo.pw.edu.pl/info/bachelor/WUTd844940cacbf4d01a1654ad2070b2af2/
URN
urn:pw-repo:WUTd844940cacbf4d01a1654ad2070b2af2

Confirmation
Are you sure?
Report incorrect data on this page