Fajri, Muh. Athariq (2022) Implementasi Spark Streaming Untuk Transformasi Data Streaming Pada Apache Spark. Diploma thesis, Politeknik negeri Ujung Pandang.
IMPLEMENTASI SPARK STREAMING .. wtr.pdf - Published Version
Restricted to Registered users only
Download (4MB)
Abstract
RINGKASAN
Data secara real-time yang datang secara terus-menerus dalam berbagai aliran, cepat, dan waktu yang bervariasi disebut dengan data stream. Data stream menjadi tantangan dalam mengolah data, data yang dihasilkan dapat dari berbagai sumber yang beragam bentuk atau formatnya, kelengkapan data yang masuk, perubahan distribusi data, jumlah data yang besar, ukuran data besar dan pengalokasian sumber daya untuk memproses setiap tugas. Mengolah data stream dengan jumlah data yang besar dibutuhkan sebuah platform atau framework yang dapat mengelola dan memproses data tersebut. Salah satu platform untuk mengolah data yang berukuran besar (big data) secara paralel dan dapat berjalan diatas beberapa cluster adalah Apache Spark. Apache Spark dalam mengolah data memiliki komponen bernama Spark Streaming dan RDD (Resilient Distributed Dataset). Spark Streaming bekerja dengan cara mengumpulkan data stream dari suatu sumber dan mengubahnya menjadi rangkaian RDD yang disebut dengan Discretized Stream (Dstream). Karena Dstream merupakan rangkaian RDD, operasi transformasi dapat diterapkan pada tiap-tiap RDD. Pada penelitian ini, akan dilakukan serangkaian proses transformasi data dari beberapa sumber data Alat IoT pada Spark Streaming dan dirancang beberapa model infrastruktur Apache Spark dalam menguji proses transformasi data Spark Streaming. Hasil penelitian ini berhasil mengimplementasikan Spark Streaming dalam mentransformasi data dari sumber alat IoT ke bentuk RDD menggunakan createStream dan createPairedStream, serta pengujian kinerja model infrastruktur terdapat pada model penambahan jumlah core yang mengalami pemrosesan data paling cepat terhadap satu sumber data dialamai pada 1 master 1 worker dengan 4 core nilai waktu proses sebesar 206 ms.
Kata Kunci: Apache Spark, Spark Streaming, RDD (Resilient Distributed Dataset).
Item Type: | Thesis (Diploma) |
---|---|
Subjects: | T Technology > TK Electrical engineering. Electronics Nuclear engineering |
Divisions: | Jurusan Teknik Elektro > D4 Teknik Komputer dan Jaringan |
Depositing User: | Sahriana S.Sos |
Date Deposited: | 22 Jun 2023 06:31 |
Last Modified: | 22 Jun 2023 06:31 |
URI: | https://repository.poliupg.ac.id/id/eprint/3859 |