Methodology of analysis of results of fault simulations using knowledge discovery methods

Agnieszka Komorowska

Abstract

Fault simulators are one of the key tools used to examine dependability of computer systems. The results of fault simulations are huge datasets which are analized in order to discover features of the examined software with significant impact on its reliability. Despite wide usage of knowledge discovery methods in other fields where huge datasets are analyzed, in fault simulations still the most popular tools are statistical methods. The purpose of this thesis is to adapt knowledge discovery methods to analyze results of fault simulations. The thesis proposes an universal methodology of discovering knowledge from data from fault simulators. During analysis of the raw data it was determined that these data have some specific properties. The most important is that they are multidimensional and multilevel. Based on this knowledge the author performed the critical analysis of pre-processing and model construction algorithms in relevance to the fault simulations data with this features. As the result of this analysis, multidimensional multilevel decision rules were chosen as the final data mining model. Some modifications of the Apriori algorithm of construction of decision rules were also proposed in the thesis. These modifications made possible: incorporation of information about attributes’ hierarchies into rules’ discovery process, filtering redundant patterns and visualisations of rules. Model evaluation criteria were also presented. One of the main parts of the methodology is evaluation of interestingness of rules. A selection of criteria of an interestingness measures evaluation suitable for rules build based on data from fault injections was made in the thesis. A method of evaluating rules’ interestingness within their neighbourhoods is also worth noting. The method consists of: a multidimensional multilevel rules’ distance measure, neighbourhood with variable radius definition and rule’s interestingness within its neighbourhood definitions. The new definition of rule’s neighbourhood with variable radius is adjusted to characteristic of multidimensional multilevel rules. Finally the paper describes a prototype of a specialised application to analysis data from fault injection experiments which implements the proposed methodology. All experiments presenting usage of the methodology were conducted using this tool. The methodology was applied to data from two fault simulators: FITS and QEFI which have different purpose and format of results. These experiments demonstrated effectiveness and generality of the proposed methodology.
Rodzaj dyplomuPraca doktorska
Autor Agnieszka Komorowska (WEiTI / II)
Agnieszka Komorowska
- Instytut Informatyki
Tytuł w języku polskimMetodyka analizy wyników symulacji błędów z wykorzystaniem algorytmów odkrywania wiedzy
Językpl polski
Jednostka dyplomującaWydział Elektroniki i Technik Informacyjnych (WEiTI)
Dyscyplina naukiinformatyka / dziedzina nauk technicznych / obszar nauk technicznych
Data rozpoczęcia25-09-2012
Data obrony31-03-2015
Data zakończenia 21-04-2015
Promotor Janusz Sosnowski (WEiTI / II)
Janusz Sosnowski
- Instytut Informatyki
Recenzenci wewnętrzni Tadeusz Łuba (WEiTI / IT)
Tadeusz Łuba
- Instytut Telekomunikacji
Recenzenci zewnętrzni Krzysztof Sapiecha
Krzysztof Sapiecha
-
Paginacja 177
Słowa kluczowe w języku polskimsymulatory błędów, niezawodność oprogramowania, odkrywanie wiedzy,
Słowa kluczowe w języku angielskimfault injection, software dependability, knowledge discovery, multidimensional
Streszczenie w języku polskimSymulatory błędów są jednym z kluczowych narzędzi wykorzystywanych w badaniu niezawodności systemów komputerowych. W wyniku ich działania powstają duże zbiory danych, które następnie są poddawane analizie w celu odkrycia właściwości badanego oprogramowania mających wpływ na jego niezawodność. Mimo szerokiego zastosowania metod odkrywania wiedzy w innych obszarach, gdzie analizowane są duże zbiory danych, do analizy wyników symulacji błędów nadal najczęściej stosuje się metody statystyczne. Niniejsza praca poświęcona jest adaptacji metod odkrywania wiedzy do analizy danych z symulatorów błędów. Praca proponuje uniwersalna˛ metodykę odkrywania wiedzy z danych z symulatorów błędów. Na podstawie analizy profilu danych z symulatorów błędów ustalono, ˙ze dane te maja˛ specyficzne cechy. Stwierdzono między innymi, że mają charakter wielowymiarowy i wielopoziomowy. W związku z tym autorka dokonała krytycznej analizy algorytmów przetwarzania wstępnego i budowy modelu pod kątem możliwości zastosowania ich do danych o takich właściwościach. Po analizie problemu, jako ostateczny model eksploracji danych, wybrano wielopoziomowe wielowymiarowe reguły decyzyjne. W pracy zaproponowano różne modyfikacje algorytmu Apriori budowy reguł decyzyjnych, mające na celu włączenie do procesu odkrywania reguł informacji o hierarchiach atrybutów, odfiltrowanie nadmiarowych wzorców oraz umożliwienie wizualizacji utworzonych reguł. Zaprezentowano także propozycję kryteriów oceny gotowego modelu. Istotnym elementem metodyki jest wybór atrakcyjnych wzorców do analizy. W pracy dokonano wyboru kryteriów oceny miar atrakcyjności w kontekście reguł zbudowanych z danych z symulatorów błędów. Na szczególna˛ uwagę zasługuje metoda oceny atrakcyjności reguły w jej sąsiedztwie. Składają się na nią następujące oryginalne elementy: metryka odległości między wielopoziomowymi wielowymiarowymi regułami decyzyjnymi, definicja sąsiedztwa ze zmiennym promieniem, uwzględniająca specyfikę danych wielowymiarowych i wielopoziomowych oraz definicja atrakcyjności reguły w jej sąsiedztwie. W pracy opisano także prototyp specjalizowanego narzędzia analizy danych z symulatorów błędów, ułatwiającego stosowanie zaproponowanej metodyki. Z wykorzystaniem tego narzędzia przeprowadzono eksperymenty polegające na zastosowaniu metodyki do analizy danych pochodzących z dwóch symulatorów błędów: FITS i QEFI, o różnych zastosowaniach i różnej charakterystyce danych wyjściowych. Eksperymenty te wykazały skuteczność i uniwersalność zaproponowanej metodyki.
Klasyfikacja PKT4100
Klasyfikacja KBN28 Informatyka
Klasyfikacja europejska8030
Plik pracy
komorowska.pdf 3.07 MB

Pobierz odnośnik do tego rekordu

Powrót