Baza wiedzy: Politechnika Warszawska

Ustawienia i Twoje konto

Powrót

Kontrola jakości danych w formacie BAM z sekwencjonowania NGS przy użyciu Apache Spark

Bartosz Michał Mścichowski

Abstract

The development of new genome sequencing techniques (New Generation Sequencing) results in increasing amounts of sequencing and alignment data in the form of BAM files. The quality of such data has to be evaluated and existing quality control tools may not be efficient enough for larger sets of files. This work addresses this problem by proposing an implementation based on Apache Spark computation engine, resulting in a distributed and parallel alignment data quality control tool.
Rodzaj dyplomu
Praca inżynierska / licencjacka
Typ dyplomu
Praca inżynierska
Autor
Bartosz Michał Mścichowski (WEiTI) Bartosz Michał Mścichowski Wydział Elektroniki i Technik Informacyjnych (WEiTI)
Tytuł w języku polskim
Kontrola jakości danych w formacie BAM z sekwencjonowania NGS przy użyciu Apache Spark
Promotor
Piotr Gawrysiak (WEiTI/II) Piotr Gawrysiak Instytut Informatyki (WEiTI/II)Wydział Elektroniki i Technik Informacyjnych (WEiTI)
Jednostka dyplomująca
Wydział Elektroniki i Technik Informacyjnych (WEiTI)
Jednostka prowadząca
Instytut Informatyki (WEiTI/II)
Kierunek / specjalność studiów
Informatyka (Computer Science)
Język
(pl) polski
Status pracy
Obroniona
Data obrony
22-02-2016
Data (rok) wydania
2016
Identyfikator wewnętrzny
32/16 (2146)
Recenzenci
Piotr Gawrysiak (WEiTI/II) Piotr Gawrysiak Instytut Informatyki (WEiTI/II)Wydział Elektroniki i Technik Informacyjnych (WEiTI) Robert Bembenik (WEiTI/II) Robert Bembenik Instytut Informatyki (WEiTI/II)Wydział Elektroniki i Technik Informacyjnych (WEiTI)
Słowa kluczowe w języku polskim
sekwencjonowanie nowej generacji, uszeregowanie sekwencji, kontrola jakości, środowisko równoległe i rozproszone
Słowa kluczowe w języku angielskim
New Generation Sequencing, alignment data, quality control, distributed environment
Streszczenie w języku polskim
Wraz z rozwojem nowych technik sekwencjonowania genomu (sekwencjonowanie nowej generacji) rośnie ilość danych zawierających informacje o uszeregowaniu powstałych odczytów, przechowywanych w plikach w formacie BAM. Jakość takich danych powinna być poddawana procesowi kontroli jakości, a istniejące narzędzia tego przeznaczenia mogą okazać się niedostatecznie wydajne dla większych zestawów plików. W tej pracy zaproponowano implementację takiej analizy wykorzystującą silnik obliczeniowy Apache Spark, czego rezultatem jest narzędzie umożliwiające przeprowadzenie kontroli jakości danych w formacie BAM w środowisku równoległym i rozproszonym.
Plik pracy
  Poproś o plik WCAG
  Pola lokalne
  Identyfikator pracy APD: 9748

  Jednolity identyfikator zasobu
  https://repo.pw.edu.pl/info/bachelor/WUT6991f391f846455d9de7f00cc229d903/
  URN
  urn:pw-repo:WUT6991f391f846455d9de7f00cc229d903

  Potwierdzenie
  Czy jesteś pewien?
  Zgłoszenie uwag dotyczących tej strony
  Schowek