Knowledge base: Warsaw University of Technology

Settings and your account

Back

Practical Application of R and WEKA Environments in Data Mining Process

Michał Plutecki

Abstract

Data mining is the computing power aid process of extracting hidden for a human being patterns in data samples. The main subject of this thesis is the application of two leading open source knowledge discovery tools in three practical data mining problems. R programming language and Weka environment have been used. The first problem was to investigate the quality of filtered rule sets generated ílom decision trees. The created R package includes rule set quality measure functions. Despite the fact that filtration seems not always be needed, it was shown which of the implemented functions give the best and the worst results. The second problem can be defined as the attempt to find a new, better than so- far-known, evaluation method of diagnostic test in Wilson disease. The attempt ended successfully. Two classification models were combined in Weka environment. The third problem was to find the factors that may stand behind the poorly understood non-alcoholic fatty liver disease (NAFLD). The results satisfied doctors who commissioned the research. Last chapters of this thesis sum up and compare used environments.
Diploma type
Engineer's / Bachelor of Science
Diploma type
Engineer's thesis
Author
Michał Plutecki (FEIT/ICS) Michał Plutecki,, The Institute of Computer Science (FEIT/ICS)Faculty of Electronics and Information Technology (FEIT)
Title in Polish
Praktyczne zastosowanie środowisk R oraz Weka w Procesie Eksploracji Danych
Supervisor
Jan Mulawka (FEIT/PE) Jan Mulawka,, The Institute of Electronic Systems (FEIT/PE)Faculty of Electronics and Information Technology (FEIT)
Certifying unit
Faculty of Electronics and Information Technology (FEIT)
Affiliation unit
The Institute of Computer Science (FEIT/ICS)
Language
(pl) Polish
Status
Finished
Issue date (year)
2009
Internal identifier
ENII-PI.1092
Keywords in Polish
R, Weka, odkrywanie wiedzy, eksploracja danych
Keywords in English
R. Weka, knowledge discovery, data mining
Abstract in Polish
Eksploracja danych to proces wykorzystujący moc obliczeniowa, komputera do znajdowania ukrytych dla człowieka prawidłowości w zgromadzonych danych. Tematem niniejšzej pracy jest wykorzystanie dwóch wiodących narzędzi typu open source z dziedziny odkrywania wiedzy w trzech postawionych problemach eksploracji danych. Zastosowane narzędzia to język R oraz środowisko Weka. Pierwszym problemem było badanie jakości odfiltrowanych zbiorów reguł wygenerowanych za pomocą drzew decyzyjnych. W stworzonym w języku R pakiecic zaimplementowane zostały m.in. funkcje badajâce jakość zbioru reguł. Analiza przeprowadzanych badań pokazała, że filtracja nie zawsze się opłaca oraz które z zaimplementowanych funkcji dają najlepsze i najgorsze rezultaty. Drugim problemem była zakończona sukcesem próba znalezienia nowego, lepszego od dotychczas znanych metod sposobu diagnozy choroby Wilsona. Sposób ten powstał poprzez połączenie w środowisku Weka dwóch modelőw klasyfikujących. Trzeci problem obejmował znalezienie tych atrybutów, hóre mogą być odpowiedzialne za słabo poznana, chorobę niealkoholowego stłuszczenia wątroby. Wyniki usatysfakcjonowały lekarzy, którzy zlecili badanie. Dodatkowo, ostatnie sekcje niniejszej pracy podsumowują i porównują użyte środowiska.

Uniform Resource Identifier
https://repo.pw.edu.pl/info/bachelor/WUTf06ecbd5792c4c57b015b4ee879e5193/
URN
urn:pw-repo:WUTf06ecbd5792c4c57b015b4ee879e5193

Confirmation
Are you sure?
Report incorrect data on this page