Knowledge base: Warsaw University of Technology

Settings and your account

Back

Using latent semantic indexing in text document indexing

Krzysztof Salwa

Abstract

The thesis concerns a method of text document indexing called LSI (Latent Semantic Indexing). It describes both the Ł81 method and information retrieval system based on this method. The LSÍ method is an extension of the vector space model text document representation. In the method, through analysis of co-occurrence. relationships between tenns are discovered. Based on those relations new pseudo-terms are created. For this purpose in the method is applied speciał matrix transformation called singular value decomposition (5V])). The most important advantages of Ł51 in comparison to vector space model are: lesser sensitivity to polysemy and synonymy and smaller size of created index. The description of the inipłemented system contains: the system requirements and modules, the database model, and the most important Itagnents of the source code. Experiments described in the thesis were performed by using the system, and they proved the effectiveness of Ł81.
Diploma type
Engineer's / Bachelor of Science
Diploma type
Engineer's thesis
Author
Krzysztof Salwa (FEIT/ICS) Krzysztof Salwa,, The Institute of Computer Science (FEIT/ICS)Faculty of Electronics and Information Technology (FEIT)
Title in Polish
Wykorzystanie metody LS1 do indeksowania dokumentów tekstowych
Supervisor
Grzegorz M. Protaziuk (FEIT/ICS) Grzegorz M. Protaziuk,, The Institute of Computer Science (FEIT/ICS)Faculty of Electronics and Information Technology (FEIT)
Certifying unit
Faculty of Electronics and Information Technology (FEIT)
Affiliation unit
The Institute of Computer Science (FEIT/ICS)
Language
(pl) Polish
Status
Finished
Issue date (year)
2007
Keywords in Polish
wyszukiwanie informacji, eksploracja tekstu, indeksowanie tekstu, ukryte indeksowanie semantyczne
Keywords in English
information retrieval, text mining, text indexing, latent semantic indexing
Abstract in Polish
Niniejsza praca dotyczy indeksowania dokumentów tekstowych metodą LSI (ang. Latent Semantic Indexing - ukryte indeksowanie semantyczne). Opisuje zarówno samą metodę jak i utworzony w oparciu o nią system indeksowania i wyszukiwania infonnacji. Metoda Ł81 bazuje na modelu wektorowym reprezentacji dokumentów tekstowych. W tej metodzie poprzez analizę współwystępowania słów w dokumentach, odkrywa się zależności pomiędzy słowami, wiążąc je ze sobą i tworząc na ich podstawie nowe pseudo-słowa. Wykorzystywany jest do tego matematyczny mechanizm rozkładu macierzy na wartości osobliwe (SVD). Podstawowe zalety metody LSI w stosunku do zwykłego modelu wektorowego to mniejsza wrażliwość na polisemię i synonimię, a także mniejsze rozmiary tworzonego indeksu. Zawarty w pracy opis zaimplementowanego systemu dotyczy wymagań funkcjonalnych i niefunkcjonalnych, podziału na moduiy, projektu bazy danych, a także najważniejszych fragmentów kodu. Opisane w pracy eksperymenty dotyczâce metody LSI, przeprowadzone za pomocą wykonanego systemu, dowodzą jej skuteczności.

Uniform Resource Identifier
https://repo.pw.edu.pl/info/bachelor/WUT4721b6330db04375bf4ec6b699722139/
URN
urn:pw-repo:WUT4721b6330db04375bf4ec6b699722139

Confirmation
Are you sure?
Report incorrect data on this page