The application of Apache Hadoop and MongoDB environments for analysing data from social networking sites on Twitter example

Katarzyna Ewa Kwaśniewska

Abstract

The subject of this work is the application of Apache Hadoop and MongoDB environments for analyzing data from social networking sites on Twitter example. Work included setting up two environments consisting of Big Data tools. The purpose of configured environments was to perform analysis of Twitter data. First environment was based on Apache Hadoop with integrated Apache Hive. The second one included MongoDB. Performed Twitter data analysis was related to the presidential election in the United States in 2016. It was carried out on the basis of the results of queries executed on the collected volumes of data. Twitter data was fetched with the usage of Apache Flume and stored in a distributed file system, HDFS. Apache Hive and MongoDB are technologies used to execute queries. The second part of work includes comparison of created environments effectiveness and usefulness in the context of performed Twitter data analysis.
Diploma typeMaster of Science
Author Katarzyna Ewa Kwaśniewska (FEIT)
Katarzyna Ewa Kwaśniewska,,
- Faculty of Electronics and Information Technology
Title in PolishZastosowanie środowisk Apache Hadoop i MongoDB do analizy danych z serwisów społecznościowych na przykładzie serwisu Twiter
Supervisor Michał Rudowski (FEIT / IN)
Michał Rudowski,,
- The Institute of Computer Science

Certifying unitFaculty of Electronics and Information Technology (FEIT)
Affiliation unitThe Institute of Computer Science (FEIT / IN)
Study subject / specializationInformatyka (Computer Science)
Languagepl polski
StatusFinished
Defense Date28-03-2017
Issue date (year)2017
Internal identifier67/17 (2323)
Reviewers Michał Rudowski (FEIT / IN)
Michał Rudowski,,
- The Institute of Computer Science
, Piotr Parewicz (FEIT / IN)
Piotr Parewicz,,
- The Institute of Computer Science
Keywords in PolishHadoop, Twitter, Twitter Streaming API, Flume, Hive, MapReduce, Big Data, analiza danych.
Keywords in EnglishHadoop, Twitter, Twitter Streaming API, Flume, Hive, MapReduce, Big Data, data analysis
Abstract in PolishTematem niniejszej pracy magisterskiej jest zastosowanie środowisk Apache Hadoop i MongoDB do analizy danych z serwisów społecznościowych na przykładzie serwisu Twitter. W ramach pracy skonfigurowano wybrane narzędzia Big Data oraz stworzono dwa środowiska badań mające na celu analizę danych pochodzących z serwisu Twitter. Pierwsze środowisko oparte zostało na Apache Hadoop z zintegrowanym Apache Hive, a drugie na MongoDB. Porównano efektywność stworzonych środowisk w kontekście przeprowadzonej analizy. Analiza dotyczyła wyborów prezydenckich w Stanach Zjednoczonych w 2016 roku. Została przeprowadzona na podstawie wyników zapytań wykonanych na zgromadzonych wolumenach danych. Wpisy z Twittera zostały pobrane przy użyciu Apache Flume i zapisane w rozproszonym systemie plików HDFS. Apache Hive oraz MongoDB to technologie wykorzystane do wykonania wybranych zapytań. W drugiej części pracy zawarto porównanie ich użyteczności w kontekście przeprowadzonej analizy zgromadzonych danych.
File
236687_Kwasniewska_Katarzyna_pdmgr.pdf 1.14 MB
Local fieldsIdentyfikator pracy APD: 17522

Get link to the record

Back