Knowledge base: Warsaw University of Technology

Settings and your account

Back

Applying Deep Learning for Named Entity Recognition

Danila Morozovskii

Abstract

Named Entity Recognition (NER) is a task for identifying entities and classifying them into groups, such as person, location, organization, etc. This task is challenging as meaning of the words can be different depending on the context that they are used in, as even a single word can change the meaning of the text completely. This work mainly focuses on NER. In this work, several models are presented: residual LSTM, character-level embeddings with LSTM and character-level embeddings with CNN. All three models use ELMo embeddings for words. For character-level models word embedding is concatenated with character-level embedding. 2-layers residual LSTM showed higher accuracy than other models: 90% F1 score has been achieved with CoNLL-2003 dataset, 80% with OntoNotes 5.0 and 68% with NLPBA-2004. Character-level embeddings with CNN showed similar accuracy for CoNLL- 2003 dataset, however, for OntoNotes 5.0 and NLPBA 2004 datasets it performed much worse.
Diploma type
Engineer's / Bachelor of Science
Diploma type
Engineer's thesis
Author
Danila Morozovskii (FEIT/ICS) Danila Morozovskii,, The Institute of Computer Science (FEIT/ICS)Faculty of Electronics and Information Technology (FEIT)
Title in Polish
Zastosowanie glębokiego uczenia w Named Entity Recognition
Supervisor
Piotr Andruszkiewicz (FEIT/ICS) Piotr Andruszkiewicz,, The Institute of Computer Science (FEIT/ICS)Faculty of Electronics and Information Technology (FEIT)
Certifying unit
Faculty of Electronics and Information Technology (FEIT)
Affiliation unit
The Institute of Computer Science (FEIT/ICS)
Study subject / specialization
, Informatyka (Computer Science)
Language
(en) English
Status
Finished
Defense Date
27-06-2019
Issue date (year)
2019
Internal identifier
83/19 (2676)
Reviewers
Piotr Andruszkiewicz (FEIT/ICS) Piotr Andruszkiewicz,, The Institute of Computer Science (FEIT/ICS)Faculty of Electronics and Information Technology (FEIT) Łukasz Skonieczny (FEIT/ICS) Łukasz Skonieczny,, The Institute of Computer Science (FEIT/ICS)Faculty of Electronics and Information Technology (FEIT)
Keywords in Polish
NER, NLP, ELMo, Głębokiego Uczenia, Residual LSTM, CNN, Wydobywanie Informacji
Keywords in English
NER, NLP, ELMo, Deep Learning, Residual LSTM, CNN, Information Extraction
Abstract in Polish
Named Entity Recognition (NER) to zadanie identyfikowania jednostek i klasyfikowania ich do grup, takich jak osoba, lokalizacja, organizacja itp. Zadanie to stanowi wyzwanie, ponieważ znaczenie słów może być różne w zależności od kontekstu, w którym są używane, ponieważ nawet jedno słowo może całkowicie zmienić znaczenie tekstu. Ta praca skupia się głównie na NER. W tej pracy przedstawiono kilka modeli: residual LSTM, embedding na poziomie znakow z LSTM i embedding na poziomie znakow z CNN. Wszystkie trzy modele używają embedding ELMo dla słów. W przypadku modeli znakowych embedding słów jest łączone z embeddingiem na poziomie znaków. 2-warstwowe pozostałości LSTM wykazały większą dokładność niż inne modele: 90% wynik F1 został osiągnięty z zestawem danych CoNLL- 2003, 80% z OntoNotes 5.0 i 68% z NLPBA-2004. Embedding na poziomie postaci z CNN wykazały podobną dokładność dla zestawu danych CoNLL-2003, jednak w przypadku zbiorów danych OntoNotes 5.0 i NLPBA 2004 działały znacznie gorzej.
File
  • File: 1
    Bachelor_thesis_Danila_Morozovskii.pdf
Request a WCAG compliant version
Local fields
Identyfikator pracy APD: 35255

Uniform Resource Identifier
https://repo.pw.edu.pl/info/bachelor/WUTf2c4d2f01f6b4643a21be38c4893e5c8/
URN
urn:pw-repo:WUTf2c4d2f01f6b4643a21be38c4893e5c8

Confirmation
Are you sure?
Report incorrect data on this page