Documents Clustering

Zbigniew Tadeusz Manasterski

Abstract

The thesis presents clustering of data topic, focusing mainly on documents clustering. The first part of the thesis describes basic ideas behind clustering, presents some common tasks that are part of clustering data algorithms, and some of the similarity metrics. Author states that clustering results validations is a very hard and complex task, and presents different criteria of document clustering validation methods, and some of the document clustering validation indices. In the following part of the thesis author describes some types of clustering techniques, how they can be used, what are the advantages and disadvantages of using them. Author provides an example algorithms that are implementing given clustering technique. One of the technique mentioned and described is a topic modelling technique used for data clustering . One of the algorithms considered as a topic modelling implementation is described and explained, and used in the last part of the thesis, to compare its results with the results of k-means algorithm results. In the next part of the thesis author presents problem of document clustering, what are the common steps to prepare documents, so that those are easier and more performant to analyse for the computer. Authors tells about issues with natural language processing, and describes tfidf index and its usage in document clustering procedure. Further author presents and explains implementation details of algorithms used during experiments. W ostatniej części pracy autor przedstawia wykonany eksperyment z grupowaniem artykułów naukowych za pomocą algorytmu modelowania tematycznego i podaje różne metryki oceny wyników takiego grupowania. Next author presents results of documents clustering with different sets of configurations; when only abstracts are used for grouping, when chapters are used, when whole documents are used and when keywords are used. The document datasets mentioned are also transformed by removing words with low value of their frequency variation, and again used for clustering. Configurations used for document clustering are evaluated with validation metrics described in previous chapters. Author believes that the k-means algorithm with configuration used is not giving the expected level of quality, but notes that k-means algorithm is much more faster than the topic modelling algorithm used, which did not give results of much better quality. Author also points to some of the possible directions of further work on that topic.
Diploma typeMaster of Science
Author Zbigniew Tadeusz Manasterski (FEIT)
Zbigniew Tadeusz Manasterski,,
- Faculty of Electronics and Information Technology
Title in PolishGrupowanie dokumentów
Supervisor Rajmund Kożuszek (FEIT / IN)
Rajmund Kożuszek,,
- The Institute of Computer Science
Certifying unitFaculty of Electronics and Information Technology (FEIT)
Affiliation unitThe Institute of Computer Science (FEIT / IN)
Study subject / specializationInformatyka (Computer Science)
Languagepl polski
StatusFinished
Defense Date28-03-2017
Issue date (year)2017
Internal identifier68/17 (2324)
Reviewers Łukasz Skonieczny (FEIT / IN)
Łukasz Skonieczny,,
- The Institute of Computer Science
, Rajmund Kożuszek (FEIT / IN)
Rajmund Kożuszek,,
- The Institute of Computer Science
Keywords in Polishgrupowanie, grupowanie dokumentów, wariancja informacji, wskaźnik Randa, ocena grupowania,tfidf, k-średnich, modelowanie tematów
Keywords in Englishclustering, document clustering, variation of information, Rand index, cluster validity, tfidf, k-means, topicmodeling
Abstract in PolishW pracy zostały przedstawione wybrane zagadnienia dotyczące grupowania danych, i w szczególności grupowania dokumentów. W pierwszej części pracy autor przybliża podstawy grupowania, przedstawia z jakich kroków składa się zadania grupowania, jakie są miary podobieństwa oraz formułuje tezę dotyczącą trudności oceny wyników grupowania. Opisuje również różne kryteria i metody oceny wyników grupowania, w tym niektóra wskaźnika zapewniające metrykę do takich ocen. W dalszej części pracy autor opisał niektóre rodzaje grupowania, ich zastosowania oraz wady i zalety, a także podał przykładowe algorytmy które określony rodzaj realizują. Autor wspomina również o modelowaniu tematów jako metodzie grupowania danych. Jeden z algorytmów modelujących tematy jest następnie opisany i autor używa go w dalszej części pracy do porównania wyników osiągniętych przez k- średnich. W kolejnej części pracy autor zajmuje się przedstawieniem problemu grupowania dokumentów. Omówione są kroki przygotowawcze potrzebne do przekształcenia dokumentów do postaci łatwej do przetworzenia przez komputer, wspomniane są problemy związane z przetwarzaniem języka naturalnego, oraz opisany jest współczynnik tfidf i jego sposoby wykorzystania w grupowaniu dokumentów. Później autor przybliża szczegóły implementacyjne algorytmów i procedur zastosowanych podczas eksperymentów. W ostatniej części pracy autor przedstawia wykonany eksperyment z grupowaniem artykułów naukowych za pomocą algorytmu modelowania tematycznego i podaje różne metryki oceny wyników takiego grupowania. Następnie prezentuje wyniki grupowania przy pomocy algorytmu k- średnich, w różnych wariantach. Grupowaniu poddawane są tylko streszczenia artykułów naukowych, tylko ich rozdziały, tylko słowa kluczowe lub całość artykułu. Zbiory te są również użyte po modyfikacjach polegających na usunięciu słów, których wariancja występowania była poniżej zadanego progu. Zastosowane konfiguracje grupowania dokumentów zostały ocenione przy użyciu opisanych wcześniej metod oceny wyników grupowania. Autor zauważa, że użyte metody nie dają oczekiwanych wyników, ale ich działania jest nieporównanie szybsze od działania bardziej skomplikowanych algorytmów. Autor wskazuje również kilka możliwości dalszych prac nad tym zagadnieniem.
File
ZbigniewManasterski_PracaMagisterska.pdf 1.14 MB
Local fieldsIdentyfikator pracy APD: 17576

Get link to the record

Back