Baza wiedzy: Politechnika Warszawska

Ustawienia i Twoje konto

Powrót

Kontrola jakości danych w formacie BAM z sekwencjonowania NGS przy użyciu Apache Spark

Bartosz Michał Mścichowski

Abstract

The development of new genome sequencing techniques (New Generation Sequencing) results in increasing amounts of sequencing and alignment data in the form of BAM files. The quality of such data has to be evaluated and existing quality control tools may not be efficient enough for larger sets of files. This work addresses this problem by proposing an implementation based on Apache Spark computation engine, resulting in a distributed and parallel alignment data quality control tool.
Rodzaj dyplomu
Praca inżynierska / licencjacka
Typ dyplomu
Praca inżynierska
Autor
Bartosz Michał Mścichowski (WEiTI) Bartosz Michał Mścichowski Wydział Elektroniki i Technik Informacyjnych (WEiTI)
Tytuł w języku polskim
Kontrola jakości danych w formacie BAM z sekwencjonowania NGS przy użyciu Apache Spark
Promotor
Piotr Gawrysiak (WEiTI/II) Piotr Gawrysiak Instytut Informatyki (WEiTI/II)Wydział Elektroniki i Technik Informacyjnych (WEiTI)
Jednostka dyplomująca
Wydział Elektroniki i Technik Informacyjnych (WEiTI)
Jednostka prowadząca
Instytut Informatyki (WEiTI/II)
Kierunek / specjalność studiów
Informatyka (Computer Science)
Język
(pl) polski
Status pracy
Obroniona
Data obrony
22-02-2016
Data (rok) wydania
2016
Identyfikator wewnętrzny
32/16 (2146)
Recenzenci
Piotr Gawrysiak (WEiTI/II) Piotr Gawrysiak Instytut Informatyki (WEiTI/II)Wydział Elektroniki i Technik Informacyjnych (WEiTI) Robert Bembenik (WEiTI/II) Robert Bembenik Instytut Informatyki (WEiTI/II)Wydział Elektroniki i Technik Informacyjnych (WEiTI)
Słowa kluczowe w języku polskim
sekwencjonowanie nowej generacji, uszeregowanie sekwencji, kontrola jakości, środowisko równoległe i rozproszone
Słowa kluczowe w języku angielskim
New Generation Sequencing, alignment data, quality control, distributed environment
Streszczenie w języku polskim
Wraz z rozwojem nowych technik sekwencjonowania genomu (sekwencjonowanie nowej generacji) rośnie ilość danych zawierających informacje o uszeregowaniu powstałych odczytów, przechowywanych w plikach w formacie BAM. Jakość takich danych powinna być poddawana procesowi kontroli jakości, a istniejące narzędzia tego przeznaczenia mogą okazać się niedostatecznie wydajne dla większych zestawów plików. W tej pracy zaproponowano implementację takiej analizy wykorzystującą silnik obliczeniowy Apache Spark, czego rezultatem jest narzędzie umożliwiające przeprowadzenie kontroli jakości danych w formacie BAM w środowisku równoległym i rozproszonym.
Plik pracy
    Poproś o plik WCAG
    Pola lokalne
    Identyfikator pracy APD: 9748

    Jednolity identyfikator zasobu
    https://repo.pw.edu.pl/info/bachelor/WUT6991f391f846455d9de7f00cc229d903/
    URN
    urn:pw-repo:WUT6991f391f846455d9de7f00cc229d903

    Potwierdzenie
    Czy jesteś pewien?
    Zgłoszenie uwag dotyczących tej strony
    Schowek