Knowledge base: Warsaw University of Technology

Settings and your account

Back

Feature Selection in the Knowledge Discovery Process

Piotr Romański

Abstract

The concept of knowledge discovery is based on processing a vast aiiount of data in order to extract nontrivial information. The main subject of this thesis is the feature selection from data sets used in machine learning. This consists of removing from data sets these attributes (columns) which are redundant, insignificant and not necessarily influence the models constructed. In the created package, designed for the R environment, many functions responsible for the process of feature selection have been implemented. The research revealed that the usage of the package may have considerable influence both on the quality of the models constructed and on the time of the process itself The analysis conducted for the sake of this thesis proves that one the stages of the knowledge discovery process, which is data transformation, is a crucial element and highly influences the outcomes of the following stages.
Diploma type
Engineer's / Bachelor of Science
Diploma type
Engineer's thesis
Author
Piotr Romański (FEIT/ICS) Piotr Romański,, The Institute of Computer Science (FEIT/ICS)Faculty of Electronics and Information Technology (FEIT)
Title in Polish
Selekcja Atrybutów w Procesie Odkrywania Wiedzy
Supervisor
Jan Mulawka (FEIT/PE) Jan Mulawka,, The Institute of Electronic Systems (FEIT/PE)Faculty of Electronics and Information Technology (FEIT)
Certifying unit
Faculty of Electronics and Information Technology (FEIT)
Affiliation unit
The Institute of Computer Science (FEIT/ICS)
Language
(pl) Polish
Status
Finished
Issue date (year)
2009
Internal identifier
ENII-PI.1084
Keywords in Polish
odkrywanie wiedzy, eksploracja danych, selekcja atrybutów
Keywords in English
knowledge discovery, data mining, feature selection
Abstract in Polish
Odkrywanie wiedzy jest procesem polegajâcym na przetwarzaniu dużej ilości danych w celu odkrycia nietrywialnych informacji. Tematem niniejszej pracy jest selekcja atrybutów ze zbiorów danych użyanych w maszynowym uczeniu się. Polega ona na usuwaniu tych atrybutów (kolumn) ze zbiorów danych, które â redundantne, nieistotne oraz niekorzystnie wpływają na budowane modele. W utworzonym pakiecie środowiska R, zostało zaimplementowanych Wicie funkcji przeprowadzających proces selekcji atrybutów. Badania wykazały, że użycie pakietu może mieć znaczący wpływ na jakość budowanych modeli oraz na czas ićh tworzenia. Przeprowadzona na potrzeby niniejszej pracy analiza dowodzi, że jeden z etapów procesu odkrywania wiedzy, jakim jest transformacja danych, jest istotnym elementem i ma duży wpływ na wyniki kolejnych etapów.

Uniform Resource Identifier
https://repo.pw.edu.pl/info/bachelor/WUTce45589bd2be40f0abd13bed2dd74028/
URN
urn:pw-repo:WUTce45589bd2be40f0abd13bed2dd74028

Confirmation
Are you sure?
Report incorrect data on this page