Knowledge base: Warsaw University of Technology

Settings and your account

Back

Efficient implementation of induction of decisions rules

Damian Dawid Portasiński

Abstract

This thesis titled ''Efficient implementation of induction of decision rules" introduces different approaches for implementing the rule induction algorithm based on IREP++ and RIPPER algorithms. This algorithm is used to solve classification problems. Its main principle is to create rules, based on data, which will allow to assign class to an example clearly. The purpose of this thesis was to implement this algorithm in a way to obtain high performance together with high accuracy and effective model. Two different implementations are shown in this thesis, presenting varied approaches to data storage and the algorithm. The first one is quite simple and uses dictionaries. One dictionary is created for every conditional variable. Each dictionary contains pairs of values: example index and a value of a variable for this example. Afterwards, using all unique values of all variables, new literals are created and then transformed into rules. The second approach assumes creating a map for every unique value of a variable, which contains only indices of those examples, which have this value. Afterwards, maps are joined using conjunctions and alternatives in order to create rules. Those two ways are implemented in the Python language. Both implementations are tested on quality and performance level. Achieved results are presented in this thesis. There is a huge variety of data sets used in experiments in order to rate the performance and effectiveness of a model in a reliable way.
Diploma type
Engineer's / Bachelor of Science
Diploma type
Engineer's thesis
Author
Damian Dawid Portasiński (FEIT/ICS) Damian Dawid Portasiński,, The Institute of Computer Science (FEIT/ICS)Faculty of Electronics and Information Technology (FEIT)
Title in Polish
Wydajna implementacja metody indukcji reguł decyzyjnych
Supervisor
Paweł Zawistowski (FEIT/ICS) Paweł Zawistowski,, The Institute of Computer Science (FEIT/ICS)Faculty of Electronics and Information Technology (FEIT)
Certifying unit
Faculty of Electronics and Information Technology (FEIT)
Affiliation unit
The Institute of Computer Science (FEIT/ICS)
Study subject / specialization
, Informatyka (Computer Science)
Language
(pl) Polish
Status
Finished
Defense Date
08-02-2019
Issue date (year)
2019
Internal identifier
3/19 (2596)
Reviewers
Paweł Zawistowski (FEIT/ICS) Paweł Zawistowski,, The Institute of Computer Science (FEIT/ICS)Faculty of Electronics and Information Technology (FEIT) Paweł Cichosz (FEIT/ICS) Paweł Cichosz,, The Institute of Computer Science (FEIT/ICS)Faculty of Electronics and Information Technology (FEIT)
Keywords in Polish
reguły decyzyjne, uczenie maszynowe, eksploracja danych, klasyfikacja
Keywords in English
decision rules, machine learning, data mining, classification, rule induction
Abstract in Polish
Praca zatytułowana ''Wydajna implementacja metody indukcji reguł decyzyjnych" porównuje różne sposoby implementacji algorytmu tworzenia reguł decyzyjnych bazujące na metodach IREP++ oraz RIPPER. Algorytm ten jest wykorzystywany do rozwiązywania problemów klasyfikacji. Podstawową zasadą tego algorytmu jest tworzenie reguł na podstawie danych, które pozwolą nam w jednoznaczny sposób określić to, czy dany przykład należy do danej klasy, czy też nie. Celem było zaimplementowanie tego algorytmu w taki sposób, aby uzyskać jak najlepsze wyniki wydajnościowe przy utrzymaniu, lub nieznacznym spadku skuteczności przewidywania modelu. W pracy zaprezentowane są dwie różne implementacje wykorzystujące zróżnicowane podejścia do samego algorytmu jak i sposobu przechowywania danych. Pierwsza z nich, która jest stosunkowo prosta, została zaimplementowana przy użyciu słowników. Dla każdej zmiennej tworzony jest słownik, który zawiera parę wartości: indeks przykładu oraz wartość zmiennej. Następnie używając wszystkich unikalnych wartości danej zmiennej są tworzone literały, które w kolejnym kroku są łączone w reguły. W drugiej implementacji, dla każdej unikalnej wartości danej zmiennej jest tworzona mapa, w której przechowujemy tylko indeksy przykładów, które posiadają daną wartość zmiennej. Następnie łącząc mapy poprzez koniunkcje i alternatywy powstają reguły przewidujące daną klasę. Wszystkie wersje zostały zaimplementowane w języku Python. Te dwa warianty zostały przetestowane na płaszczyźnie wydajnościowej i jakościowej. W pracy zostały przedstawione otrzymane rezultaty. Do testów wykorzystane zostały różne zbiory danych z wielu dziedzin co pozwoliło w miarodajny sposób ocenić wydajność i skuteczność modeli predykcyjnych.
File
  • File: 1
    Wydajna_implementacja_metody_indukcji_regul_decyzyjnych_Damian_Portasinski.pdf
Request a WCAG compliant version
Local fields
Identyfikator pracy APD: 32037

Uniform Resource Identifier
https://repo.pw.edu.pl/info/bachelor/WUTe2830b5ca417472bb47ab3b29b27fc00/
URN
urn:pw-repo:WUTe2830b5ca417472bb47ab3b29b27fc00

Confirmation
Are you sure?
Report incorrect data on this page