Knowledge base: Warsaw University of Technology

Settings and your account

Back

System for Structured Storage of Documents

Aleksandra Anna Kłapcińska

Abstract

Fast growth of World Wide Web in recent years caused massive increase in number of documents published, and read every day by regular users. System using natural language processing and information retrieval algorithms and techniques can help users in dealing with such a big amount of text data. In this thesis a system for structured storage of user text documents is presented. The main aim of the system is giving structure to collection of user documents, by creating links connecting related sentences. To improve that process two kinds of semantical statistics for polish language were built and used in the system. Some basic concepts of natural language processing, text mining and information retrieval are presented. Architecture and evaluation results of created system are described. Some results of created statistical semantics are presented as well as conclusions about proper usage of such a resource.
Record ID
WUT75b53b95155741a3adfae609b170041a
Diploma type
Master of Science
Author
Aleksandra Anna Kłapcińska (FEIT/ICS) Aleksandra Anna Kłapcińska,, The Institute of Computer Science (FEIT/ICS)Faculty of Electronics and Information Technology (FEIT)
Title in Polish
System do ustrukturalizowanego przechowywania dokumentów
Supervisor
Ilona Bluemke (FEIT/ICS) Ilona Bluemke,, The Institute of Computer Science (FEIT/ICS)Faculty of Electronics and Information Technology (FEIT)
Certifying unit
Faculty of Electronics and Information Technology (FEIT)
Affiliation unit
The Institute of Computer Science (FEIT/ICS)
Language
(pl) Polish
Status
Finished
Issue date (year)
2012
Internal identifier
ENII-PM.001582
Keywords in Polish
semantyka statystyczna, pozyskiwanie informacji, silnik wyszukujący, hipertekst, przetwarzanie języków naturalnych, analiza morfosyntaktyczna języka polskiego
Keywords in English
Statistical Semantics, Natural Language Processing, Information Retrieval, Morphosynthactic
Abstract in Polish
W ostatnich latach obserwujemy szybki rozwój sieci WWW, a co za tym idzie wzrost liczby dostępnych w niej dokumentów tekstowych. Powoduje to potrzebę stworzenia narzędzia, które pozwoli użytkownikowi na składowanie interesujących go dokumentów w przystępny dla niego sposób. W pracy został przedstawiony system służący do nadawania struktury zbiorowi dokumentów użytkownika, z wykorzystaniem semantyki statystycznej i metod pozyskiwania informacji. Opisane zostały podstawowe zagadnienia przetwarzania języka, eksploracji tekstu i budowy semantyk statystycznych, ze szczególnym uwzględnieniem przetwarzania i wykorzystania danych w języku polskim. Przedstawione zostały dwie, stworzone na potrzeby pracy semantyki statystyczne dla języka polskiego. Zaprezentowano także wnioski dotyczące wykorzystania semantyk statystycznych do określania podobieństw rzeczowników.

Uniform Resource Identifier
https://repo.pw.edu.pl/info/master/WUT75b53b95155741a3adfae609b170041a/
URN
urn:pw-repo:WUT75b53b95155741a3adfae609b170041a

Confirmation
Are you sure?
Report incorrect data on this page