Knowledge base: Warsaw University of Technology

Settings and your account

Back

Language processing: address parsing

Rafał Wołągiewicz

Abstract

The main goal of the work was to create an application to parse addresses in a continuous text coming from a file. Additionally it was supposed to make standardization, validation and geolocation of detected addresses. The application was written in the Python programming language. The work reviews the knowledge about natural language processing destined to parse addresses, available solutions and data. Basing on this knowledge, the most appropriate solution for Polish addresses has been chosen. In application have been used data containing street names, postal codes, places and territorial division units. Test data was prepared to check the correctness of application’s functionality. A custom algorithm was designed in purpose to parse addresses and process them in order to obtain the desired form. There were presented entire methodology and tools used to implement the solution. Application detects irregular addresses, in various formats, incomplete and having orthographic mistakes. It is possible to process text files of various length and to get results in excel or CSV file. In final stage the quality of returned results was assessed, development opportunities were presented and application was compared with the available solutions. The knowledge gained was also summarized by the formulation of succinct conclusions.
Diploma type
Engineer's / Bachelor of Science
Diploma type
Engineer's thesis
Author
Rafał Wołągiewicz (FM) Rafał Wołągiewicz,, Faculty of Mechatronics (FM)
Title in Polish
Przetwarzanie języka: detekcja adresów
Supervisor
Anna Sztyber (FM/IACR) Anna Sztyber,, The Institute of Automatic Control and Robotics (FM/IACR)Faculty of Mechatronics (FM)
Certifying unit
Faculty of Mechatronics (FM)
Affiliation unit
The Institute of Automatic Control and Robotics (FM/IACR)
Study subject / specialization
, Automatyka i Robotyka (Automation and Robotics)
Language
(pl) Polish
Status
Finished
Defense Date
08-02-2019
Issue date (year)
2019
Reviewers
Anna Sztyber (FM/IACR) Anna Sztyber,, The Institute of Automatic Control and Robotics (FM/IACR)Faculty of Mechatronics (FM) Kornel Rostek (FM/IACR) Kornel Rostek,, The Institute of Automatic Control and Robotics (FM/IACR)Faculty of Mechatronics (FM)
Keywords in Polish
Python, przetwarzanie danych, wykrywanie adresów
Keywords in English
Python, data processing, address parsing
Abstract in Polish
Celem pracy było stworzenie programu wykrywającego adresy w ciągłym tekście pochodzącym z pliku. Dodatkowo miała zostać przeprowadzona standaryzacja adresu, weryfikacja poprawności oraz zwrócenie współrzędnych geograficznych. Program został napisany w języku programowania Python. W pracy dokonano przeglądu wiedzy na temat przetwarzania języka naturalnego pod kątem wykrywania adresów, dostępnych rozwiązań, zbiorów danych oraz wybrano koncepcję najbardziej optymalnego rozwiązania dla polskich adresów. W programie zostały wykorzystane zbiory danych złożone z listy ulic, kodów pocztowych, miejscowości oraz jednostek podziału terytorialnego. Przygotowano dane umożliwiające sprawdzenie poprawności działania programu. Zaprojektowano własny algorytm wychwytywania adresów w tekście oraz ich przetwarzania, w celu uzyskania pożądanej formy. Przedstawiono metodykę jego wdrożenia oraz wykorzystane przy tym narzędzia. Przygotowane rozwiązanie wykrywa adresy zapisane w różnym formacie, niepełne oraz posiadające błędy w zapisie. Program umożliwia przetwarzanie dowolnie długiego pliku tekstowego i zwraca rezultaty w pliku o rozszerzeniu „.xlsx” lub „.csv”. W ostatnim etapie oceniono jakość działania programu, przedstawiono możliwości rozwoju oraz porównano jego funkcjonalność z dostępnymi rozwiązaniami. Podsumowano także zdobytą wiedzę sformułowaniem zwięzłych wniosków.
File
  • File: 1
    276785_inz.pdf
Request a WCAG compliant version
Local fields
Identyfikator pracy APD: 31719

Uniform Resource Identifier
https://repo.pw.edu.pl/info/bachelor/WUTf5dca069897c44e2bb21ccedaf477f91/
URN
urn:pw-repo:WUTf5dca069897c44e2bb21ccedaf477f91

Confirmation
Are you sure?
Report incorrect data on this page