Knowledge base: Warsaw University of Technology

Settings and your account

Back

Comparative evaluation of Spark and Flink in bioinformatics

Filip Łęczycki

Abstract

The subject of this thesis is an attempt to asses, which modern Big Data framework, Spark or Flink, is better suited for facing the problems of nowadays bioinformatics. In the age of expotential growth of data volumes, traditional applications used for data processing are no longer sufficient. Particularly, due to the developement of DNA sequencing technology, the need has arisen to develop new tools for analysis of bioinformatics data, that utilise the benefits of distributed computation. This thesis includes a description of functionalities and architecture of both Spark and Flink as well as a detailed outline of the conducted performance tests in which both frameworks have faced real bioinformatic problems. An attempt has been made to summarise gathered data and to draw conclusions.
Diploma type
Engineer's / Bachelor of Science
Diploma type
Engineer's thesis
Author
Filip Łęczycki (FEIT) Filip Łęczycki,, Faculty of Electronics and Information Technology (FEIT)
Title in Polish
Spark kontra Flink. Porównanie silników Big Data pod kątem wykorzystania w bioinformatyce
Supervisor
Piotr Gawrysiak (FEIT/ICS) Piotr Gawrysiak,, The Institute of Computer Science (FEIT/ICS)Faculty of Electronics and Information Technology (FEIT)
Certifying unit
Faculty of Electronics and Information Technology (FEIT)
Affiliation unit
The Institute of Computer Science (FEIT/ICS)
Study subject / specialization
, Informatyka (Computer Science)
Language
(pl) Polish
Status
Finished
Defense Date
18-02-2016
Issue date (year)
2016
Internal identifier
1/16 (2115)
Reviewers
Piotr Gawrysiak (FEIT/ICS) Piotr Gawrysiak,, The Institute of Computer Science (FEIT/ICS)Faculty of Electronics and Information Technology (FEIT) Dominik Paweł Ryżko (FEIT/ICS) Dominik Paweł Ryżko,, The Institute of Computer Science (FEIT/ICS)Faculty of Electronics and Information Technology (FEIT)
Keywords in Polish
Spark, Flink, Big Data, genomika, sekwencjonowanie DNA
Keywords in English
Spark, Flink, Big Data, genomics, DNA sequencing
Abstract in Polish
Tematem pracy jest próba oceny, który z nowoczesnych systemów przetwarzania danych typu Big Data, Spark czy Flink, lepiej rozwiązuje problemy dzisiejszej bioinformatyki. W dobie wykładniczo rosnących wolumenów danych, dotychczasowe sposoby do przetwarzania przestają być wystarczające. W szczególności, w związku z rozwojem technologii sekwencjonowania DNA zaistniała potrzeba stworzenia nowych narzędzi do analizy danych bioinformatycznych, wykorzystujących zalety obliczeń rozproszonych. W niniejszej pracy opisano dwa systemy do analizy Big Data, przedstawiono ich właściwości i architekturę, oraz zaprezentowano plan, wykorzystane narzędzia oraz wyniki przeprowadzonych testów wydajnościowych, podczas których oba systemy zmierzyły się z praktycznymi problemami analizy z dziedziny genomiki. Postarano się także podsumować przedstawione w pracy informacje oraz wysnuć z nich wnioski.
File
  • File: 1
    Filip_Leczycki_praca_inzynierska_z_zal.pdf
Request a WCAG compliant version
Local fields
Identyfikator pracy APD: 9745

Uniform Resource Identifier
https://repo.pw.edu.pl/info/bachelor/WUT5b1d2a021f3a4cac8d17003122a97f3f/
URN
urn:pw-repo:WUT5b1d2a021f3a4cac8d17003122a97f3f

Confirmation
Are you sure?
Report incorrect data on this page