Knowledge base: Warsaw University of Technology

Settings and your account

Back

Quality Control of Bam Data From Next Generation Sequencing Using Apache Spark

Bartosz Michał Mścichowski

Abstract

The development of new genome sequencing techniques (New Generation Sequencing) results in increasing amounts of sequencing and alignment data in the form of BAM files. The quality of such data has to be evaluated and existing quality control tools may not be efficient enough for larger sets of files. This work addresses this problem by proposing an implementation based on Apache Spark computation engine, resulting in a distributed and parallel alignment data quality control tool.
Diploma type
Engineer's / Bachelor of Science
Diploma type
Engineer's thesis
Author
Bartosz Michał Mścichowski (FEIT) Bartosz Michał Mścichowski,, Faculty of Electronics and Information Technology (FEIT)
Title in Polish
Kontrola jakości danych w formacie BAM z sekwencjonowania NGS przy użyciu Apache Spark
Supervisor
Piotr Gawrysiak (FEIT/ICS) Piotr Gawrysiak,, The Institute of Computer Science (FEIT/ICS)Faculty of Electronics and Information Technology (FEIT)
Certifying unit
Faculty of Electronics and Information Technology (FEIT)
Affiliation unit
The Institute of Computer Science (FEIT/ICS)
Study subject / specialization
, Informatyka (Computer Science)
Language
(pl) Polish
Status
Finished
Defense Date
22-02-2016
Issue date (year)
2016
Internal identifier
32/16 (2146)
Reviewers
Piotr Gawrysiak (FEIT/ICS) Piotr Gawrysiak,, The Institute of Computer Science (FEIT/ICS)Faculty of Electronics and Information Technology (FEIT) Robert Bembenik (FEIT/ICS) Robert Bembenik,, The Institute of Computer Science (FEIT/ICS)Faculty of Electronics and Information Technology (FEIT)
Keywords in Polish
sekwencjonowanie nowej generacji, uszeregowanie sekwencji, kontrola jakości, środowisko równoległe i rozproszone
Keywords in English
New Generation Sequencing, alignment data, quality control, distributed environment
Abstract in Polish
Wraz z rozwojem nowych technik sekwencjonowania genomu (sekwencjonowanie nowej generacji) rośnie ilość danych zawierających informacje o uszeregowaniu powstałych odczytów, przechowywanych w plikach w formacie BAM. Jakość takich danych powinna być poddawana procesowi kontroli jakości, a istniejące narzędzia tego przeznaczenia mogą okazać się niedostatecznie wydajne dla większych zestawów plików. W tej pracy zaproponowano implementację takiej analizy wykorzystującą silnik obliczeniowy Apache Spark, czego rezultatem jest narzędzie umożliwiające przeprowadzenie kontroli jakości danych w formacie BAM w środowisku równoległym i rozproszonym.
File
  • File: 1
    253113-Bartosz-Mścichowski-praca-inzynierska.pdf
Request a WCAG compliant version
Local fields
Identyfikator pracy APD: 9748

Uniform Resource Identifier
https://repo.pw.edu.pl/info/bachelor/WUT6991f391f846455d9de7f00cc229d903/
URN
urn:pw-repo:WUT6991f391f846455d9de7f00cc229d903

Confirmation
Are you sure?
Report incorrect data on this page