Knowledge base: Warsaw University of Technology

Settings and your account

Back

Quality Control of FASTQ Data from Next Generation Sequencing Using Apache Spark

Monika Aleksandra Zielonka

Abstract

This work relates to a program which reimplements the NGS data quality check tool, operating on FASTQ file format. DNA sequencing is a technique of reading a sequence of nucleotide pairs in the DNA molecule which is the basic unit of genetic information. The latest sequencing technologies called NGS – Next Generation Sequencing – are based on parallelization of the sequencing process. One of the file formats storing data from DNA sequencers is a text-based FASTQ format. The size of a standard FASTQ file containing a sequenced genome may reach tens of gigabytes. Data contained in such file may not be fully valuable. Before the biological interpretation of the data, a basic quality control is required. Large size of the files being processed pose the need to develop efficient data analysis tool. An increase of computing performance can be reached by the use of parallel and distributed environment. Software which is the subject of this work implements 11 quality analysis modules. It uses acalculation engine offered by the Apache Spark framework, which allows parallel calculations on multiple threads, as well as the use of remote computing cluster.
Diploma type
Engineer's / Bachelor of Science
Diploma type
Engineer's thesis
Author
Monika Aleksandra Zielonka (FEIT) Monika Aleksandra Zielonka,, Faculty of Electronics and Information Technology (FEIT)
Title in Polish
Kontrola jakości danych w formacie FASTQ z sekwencjonowania NGS przy użyciu Apache Spark
Supervisor
Piotr Gawrysiak (FEIT/ICS) Piotr Gawrysiak,, The Institute of Computer Science (FEIT/ICS)Faculty of Electronics and Information Technology (FEIT)
Certifying unit
Faculty of Electronics and Information Technology (FEIT)
Affiliation unit
The Institute of Computer Science (FEIT/ICS)
Study subject / specialization
, Informatyka (Computer Science)
Language
(pl) Polish
Status
Finished
Defense Date
18-02-2016
Issue date (year)
2016
Internal identifier
5/16 (2119)
Reviewers
Piotr Gawrysiak (FEIT/ICS) Piotr Gawrysiak,, The Institute of Computer Science (FEIT/ICS)Faculty of Electronics and Information Technology (FEIT) Tomasz Gambin (FEIT/ICS) Tomasz Gambin,, The Institute of Computer Science (FEIT/ICS)Faculty of Electronics and Information Technology (FEIT)
Keywords in Polish
sekwencjonowanie nowej generacji, NGS, DNA, bioinformatyka, Apache Spark, FASTQ, big data
Keywords in English
Next Generation Sequencing, NGS, DNA, bioinformatics, Apache Spark, FASTQ, short reads quality check, big data
Abstract in Polish
Praca ta dotyczy opracowania programu stanowiącego reimplementację narzędzia do kontroli jakości danych w formacie FASTQ, które są wynikiem sekwencjonowania NGS. Sekwencjonowanie DNA jest techniką odczytywania sekwencji, czyli kolejności par nukleotydowych w cząsteczce DNA (kwasu deoksyrybonukleinowego). Najnowsze technologie w dziedzinie sekwencjonowania, nazywane technologiami NGS, opierają się na automatyzacji i zrównolegleniu procesu sekwencjonowania. Jednym z formatów plików, w których zapisywane są dane pochodzące z sekwencerów jest format FASTQ. Rozmiary standardowych plików zawierających zsekwencjonowany genom są rzędu kilkunastu lub kilkudziesięciu gigabajtów. Dane zawarte w takim pliku mogą nie być w pełni wartościowe. Przed interpretacją biologiczną dane te wymagają podstawowej kontroli jakości. Duże rozmiary przetwarzanych plików stwarzają potrzebę opracowania jak najwydajniejszego narzędzia służącego do analizy danych. Jedną z koncepcji zwiększenia wydajności obliczeń jest przeniesienie ich do środowiska równoległego i rozproszonego. Zrealizowane w ramach tej pracy oprogramowanie implementuje 11 miar jakości danych zawartych w plikach FASTQ. Wykorzystuje silnik obliczeniowy oferowany przez platformę Apache Spark, który umożliwia równoległe wykonywanie obliczeń na wielu wątkach, a także wykorzystanie zdalnego klastra obliczeniowego.
File
  • File: 1
    253157_Monika-Zielonka_praca-inzynierska.pdf
Request a WCAG compliant version
Local fields
Identyfikator pracy APD: 9757

Uniform Resource Identifier
https://repo.pw.edu.pl/info/bachelor/WUT96e1d726c08e4449bec5b9a93ec0618e/
URN
urn:pw-repo:WUT96e1d726c08e4449bec5b9a93ec0618e

Confirmation
Are you sure?
Report incorrect data on this page