3gClust: Human Protein Cluster Analysis

Anup Halder , Piyali Chatterjee , Mita Nasipuri , Dariusz Plewczyński , Subhadip Basu

Abstract

We present a human protein cluster analysis by combining: 1) n-gram based amino acid frequency features, 2) optimal feature selection, 3) hierarchical clustering and 4) advanced partitioning techniques. Our method qualitatively and quantitatively groups proteins with increasing sequence similarity into similar clusters by calculating the frequency model of amino acids using n-grams. We experiment with $n = 1$ , i.e., unigrams, $n = 2$ i.e., bigrams and finally $n = 3$ , i.e., trigrams for optimal selection of features to design the 3gClust algorithm. The benchmarking results on 20,105 manually curated human proteins show that 3gClust ensures better cluster compactness in the case of proteins with similar functional groups, biological processes, structural alignment and shared domains (e.g. aquaporins, keratins). Quantitative analysis of non-singleton clusters shows significant improvement in their compactness in comparison to other state-of-the art methodologies. 3gClust is available at https://sites.google.com/site/bioinfoju/projects/3gclust for academic use along with supplementary materials and datasets.
Author Anup Halder
Anup Halder,,
-
, Piyali Chatterjee
Piyali Chatterjee,,
-
, Mita Nasipuri
Mita Nasipuri,,
-
, Dariusz Plewczyński (FMIS / DIPS) - University of Warsaw (UW)
Dariusz Plewczyński,,
- Department of Information Processing Systems
, Subhadip Basu
Subhadip Basu,,
-
Journal seriesIEEE-ACM Transactions on Computational Biology and Bioinformatics, ISSN 1545-5963, (A 30 pkt)
Issue year2018
Vol1
No1
Pages1-13
Publication size in sheets0.6
Keywords in Polishbiałka, identyfikacja cech, aminokwasy, algorytm klastrowania, bazy danych, pomiary, analiza ludzkich białek, częstości występowania aminokwasów, klastrowanie hierarchiczne, podział na klastry, funkcja biologiczna, podobieństwo strukturalne
Keywords in EnglishProteins, Feature extraction, Amino acids, Clustering algorithms, Databases, Measurement, Human protein cluster analysis, amino acid frequency features, hierarchical clustering, cluster partitioning, biological function, structural similarity
ASJC Classification2604 Applied Mathematics; 1311 Genetics; 1305 Biotechnology
Abstract in PolishPrezentujemy nienadzorowane klastrowanie białek, łącząc: 1) częstotliwości występowania n-gramów aminokwasowych, 2) optymalny dobór cech, 3) hierarchiczne grupowanie oraz 4) zaawansowane techniki klastrowania. Nasza metoda grupuje białka o wzrastającym podobieństwie sekwencji do podobnych klastrów, poprzez obliczanie częstotliwości występowania w nich aminokwasów reprezentowane za pomocą n-gramów. W celu wybrania optymalnej funkcji optymalizującej do zaprojektowania algorytmu 3gClust, używamy jedno, dwu i trzy-gramów. Wyniki testu porównawczego na dużym zbiorze 20,105 białek ludzkich pokazują, że 3gClust zapewnia lepszą spójność funkcjonalną co potwierdza podobieństwo w ramach klastrów grup funkcyjnych, procesów biologicznych, cech strukturalnych i wspólnych domen (np. akwaporyny, keratyny). Analiza ilościowa klastrów o więcej niż jednym obiekcie wykazuje znaczną poprawę w porównaniu z innymi metodami. 3gClust jest dostępny na stronie https://sites.google.com/site/bioinfoju/projects/3gclust do użytku akademickiego wraz z dodatkowymi materiałami i zestawami danych.
DOIDOI:10.1109/TCBB.2018.2840996
URL https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=8369342
Languageen angielski
Score (nominal)30
ScoreMinisterial score = 30.0, 23-09-2019, ArticleFromJournal
Publication indicators Scopus SNIP (Source Normalised Impact per Paper): 2017 = 0.948; WoS Impact Factor: 2017 = 2.428 (2) - 2017=2.064 (5)
Citation count*
Cite
Share Share

Get link to the record


* presented citation count is obtained through Internet information analysis and it is close to the number calculated by the Publish or Perish system.
Back
Confirmation
Are you sure?