Knowledge base: Warsaw University of Technology

Settings and your account

Back

Improving full-text search of Polish documents in Elasticsearch using lemmatizers

Robert Bernard Piwowarek

Abstract

The goal of this thesis is to improve the quality of Polish language analysis in full-text search engine called Elasticsearch created by Elastic. Existing open-source lemmatizers and analysers have been integrated with Elasticsearch as the means of improvement. As a necessity it was required to design and program a reliable way of testing and measurement of the integrated solutions as well as ways to generate enough proper documents as test data. The analyzers were tested against both "synthetic" and "real" data.
Diploma type
Engineer's / Bachelor of Science
Diploma type
Engineer's thesis
Author
Robert Bernard Piwowarek (FEIT/ICS) Robert Bernard Piwowarek,, The Institute of Computer Science (FEIT/ICS)Faculty of Electronics and Information Technology (FEIT)
Title in Polish
Poprawa jakości przeszukiwania tekstów w języku polskim w Elasticsearch za pomocą lematyzatorów
Supervisor
Jakub Janusz Koperwas (FEIT/ICS) Jakub Janusz Koperwas,, The Institute of Computer Science (FEIT/ICS)Faculty of Electronics and Information Technology (FEIT)
Certifying unit
Faculty of Electronics and Information Technology (FEIT)
Affiliation unit
The Institute of Computer Science (FEIT/ICS)
Study subject / specialization
, Informatyka (Computer Science)
Language
(pl) Polish
Status
Finished
Defense Date
14-02-2019
Issue date (year)
2019
Internal identifier
42/19 (2635)
Reviewers
Jakub Janusz Koperwas (FEIT/ICS) Jakub Janusz Koperwas,, The Institute of Computer Science (FEIT/ICS)Faculty of Electronics and Information Technology (FEIT) Piotr Andruszkiewicz (FEIT/ICS) Piotr Andruszkiewicz,, The Institute of Computer Science (FEIT/ICS)Faculty of Electronics and Information Technology (FEIT)
Keywords in Polish
język polski, wyszukiwanie pełnotekstowe, elasticsearch, przetwarzanie języka naturalnego
Keywords in English
polish language, full-text search, Elasticsearch, natural language processing
Abstract in Polish
Celem pracy jest poprawa jakości analizy tekstu pod kątem przetwarzania języka polskiego w silniku wyszukiwania pełnotekstowego Elasticsearch od firmy Elastic poprzez integrację istniejących lematyzatorów oraz analizatorów języka polskiego dostępnych otwarto-źródłowo. Koniecznym elementem jest opracowanie i zaprogramowanie miarodajnej metodyki testowania zintegrowanych rozwiązań oraz sposobu na pozyskanie odpowiednich do tego celu danych testowych. Rozwiązania zostaną przetestowane zarówno dla danych "syntetycznych" jak i dla przykładu rzeczywistych danych książkowych.
File
  • File: 1
    Poprawa_jakości_przeszukiwania_tekstów_w_języku_polskim_w_Elasticsearch_za_pomocą_lematyzatorów.pdf
Request a WCAG compliant version
Local fields
Identyfikator pracy APD: 32088

Uniform Resource Identifier
https://repo.pw.edu.pl/info/bachelor/WUTa97ad3a6730d4d67abedf8565e7ba0c1/
URN
urn:pw-repo:WUTa97ad3a6730d4d67abedf8565e7ba0c1

Confirmation
Are you sure?
Report incorrect data on this page