Practical Web Spam Lifelong Machine Learning System with Automatic Adjustment to Current Lifecycle Phase

Marcin Luckner


Machine learning techniques are a standard approach in spam detection. Their quality depends on the quality of the learning set, and when the set is out of date, the quality of classification falls rapidly. The most popular public web spam dataset that can be used to train a spam detector—WEBSPAM-UK2007—is over ten years old. Therefore, there is a place for a lifelong machine learning system that can replace the detectors based on a static learning set. In this paper, we propose a novel web spam recognition system. The system automatically rebuilds the learning set to avoid classification based on outdated data. Using a built-in automatic selection of the active classifier the system very quickly attains productive accuracy despite a limited learning set. Moreover, the system automatically rebuilds the learning set using external data from spam traps and popular web services. A test on real data from Quora, Reddit, and Stack Overflow proved the high recognition quality. Both the obtained average accuracy and the F-measure were 0.98 and 0.96 for semiautomatic and full–automatic mode, respectively.
Author Marcin Luckner (FMIS / DSMKP)
Marcin Luckner,,
- Department of Structural Methods for Knowledge Processing
Journal seriesSecurity and Communication Networks, ISSN 1939-0114, [1939-0122], (A 20 pkt)
Issue year2019
Publication size in sheets0.75
Keywords in PolishBezpieczeństwo, web-spam, odrzucanie, deterministyczne automaty skończone, uczenie maszynowe
Keywords in EnglishSecurity, Web-spam, rejection, deterministic finite automata, machine learning
ASJC Classification1705 Computer Networks and Communications; 1710 Information Systems
Abstract in PolishStandardem w detekcji spamu jest stosowanie uczenia maszynwego. Jednakże opieranie się na starych zbiorach terningowych skutkuje słabymi wynikami klasyfikacji. Dlatego potrzebne są stale uczące się systemy detekcji. W pracy proponujemy system do rozpoznawania Web-spamu, który automatycznie przebudowuje zbiór uczący, aby uniknąć uczenia się na przestarzałych danych. Co więcej, system może całkowicie automatycznie budować zbiór uczący korzystająć z zewnętrznych źródeł danych. Testy na prawdziwych danych z serwisów Quora, Reddit i Stack Overflow pokazały wysoką skuteczność systemu. Zarówno skuteczność jak i F-measure wyniosły 0.98 i 0.96 odpowiednio dla semiautomatycznego i w pełni automatycznego systemu.
Languageen angielski
Score (nominal)20
ScoreMinisterial score = 20.0, 08-07-2019, ArticleFromJournal
Publication indicators Scopus SNIP (Source Normalised Impact per Paper): 2016 = 0.842; WoS Impact Factor: 2017 = 0.904 (2) - 2017=1.012 (5)
Citation count*
Share Share

Get link to the record

* presented citation count is obtained through Internet information analysis and it is close to the number calculated by the Publish or Perish system.