Seiring terus berkembangnya teknologi , muncul pula beberapa inovasi tools baru yang digunakan untuk membuat big data analytics semakin efektif, salah satunya adalah Hadoop.
Dibuat oleh Google dan Apache Software Foundation, framework ini tentunya canggih, sehingga tak heran ia banyak digunakan. Hadoop menawarkan solusi terhadap permasalahan pengolahan big data secara tradisional.
Dulu pengolahan big data sering bermasalah ketika data yang dimiliki bersifat heterogen, seperti structured data, semi-structured data, dan unstructured data. Karena dirasa semakin penting bagi perusahaan, terjadi kebutuhan pengolahan big data yang lebih efektif dan efisien. Maka, framework ini hadir dan memungkinkan pengolahan data lebih banyak, menyimpan data heterogen, dan meningkatkan kecepatan prosesnya.
Menurut AWS, Hadoop adalah framework open source yang efektif untuk menyimpan dataset dalam jumlah besar.
Tidak hanya menyimpan, framework ini juga tentunya bisa memproses data mulai dari ukuran gigabyte hingga petabyte secara efisien. Meskipun data yang diolah jumlahnya besar, prosesnya lebih cepat karena menggunakan komputer yang lebih banyak.
Data diolah secara terdistribusi dalam waktu yang bersamaan, sehingga kecepatan prosesnya bisa lebih singkat.
Framework ini memiliki empat modul utama, yaitu HDFS, YARN, MapReduce, dan Hadoop Common.
- Hadoop Distributed File System (HDFS): File system terdistribusi yang beroperasi di hardware standar maupun low-end.
- Yet Another Resource Negotiator (YARN): Sistem yang mengatur dan memonitor cluster node dan resource usage.
- MapReduce: Framework yang membantu program untuk melakukan komputasi data secara paralel.
- Hadoop Common: Penyedia library Java yang dapat digunakan oleh semua modul.
Cara Kerja Hadoop
Hadoop adalah framework yang bekerja dengan mendistribusi dataset dalam jumlah besar ke beberapa mesin berbeda. Data-data ini diproses di waktu yang bersamaan.
HDFS digunakan untuk menyimpan data dan MapReduce memproses data tersebut. Sementara, YARN berfungsi untuk membagi tugas.
Ekosistem Hadoop
Ekosistem Hadoop meliputi berbagai tool dan aplikasi yang membantu pengumpulan, penyimpanan, analisis, dan pengelolaan big data.
Beberapa aplikasi atau software yang populer berdasarkan framework ini adalah:
1. Spark
Spark adalah processing system terdistribusi yang bersifat open source. Sistem ini yang merupakan bagian ekosistem Hadoop ini digunakan untuk big data dan mampu beroperasi dengan cepat. Spark bisa melakukan batch processing, streaming analytics, machine learning, graph database, dan ad hoc query.
2. Presto
Presto bersifat open source. Presto merupakan SQL query engine terdistribusi yang digunakan untuk analisis data ad hoc low-latency. Dengan Presto, bisa memproses data dari sumber yang berbeda-beda, termasuk HDFS dan Amazon S3.
3. Hive
Hive digunakan untuk MapReduce dengan interface SQL. Tool ini cocok untuk analisis data jumlah besar.
4. HBase
HBase adalah database yang digunakan Amazon S3 dan HDFS. Tool ini dibuat untuk memproses tabel dengan baris dalam jumlah sangat banyak.
Selain keempat software atau aplikasi tersebut, Data Bricks menyampaikan bahwa ada juga Apache Impala, Pig, Zookeeper, Sqoop, dan Oozie.
Jenis Instalasi Hadoop
Hadoop berjalan pada sistem operasi komputer berbasis Unix atau Linux. Dapat diterapkan juga pada Windows, tetapi tidak disarankan. Tak hanya itu, hadoop juga memiliki sejumlah tipe instalasi dengan metode dan proses kerja yang berbeda-beda. Data scientist dapat memanfaatkannya sesuai kebutuhan masing-masing.
Berikut adalah daftar dan penjelasan jenis-jenis instalasi Hadoop, dikutip dari C-Sharp Corner.
1. Standalone mode
Ini adalah bentuk paling sederhana dari mode Hadoop yang berjalan pada satu node atau sistem. Memiliki proses JVM tunggal untuk mensimulasikan sistem terdistribusi. Jenis mode ini pun menggunakan sistem file lokal untuk keperluan penyimpanan.
HDFS tidak berjalan di mesin berbasis standalone mode dan semua manipulasi file akan berada di mesin lokal dengan tambahan HDFS – YARN. Keduanya tidak mendapatkan dukungan dalam mode ini. Standalone mode biasanya digunakan untuk menguji pekerjaan yang berorientasi dengan program MapReduce sebelum menjalankannya di sebuah cluster.
2. Pseudo-distributed mode
Jika ingin mensimulasikan cluster yang sebenarnya, data scientist bisa menggunakan pseudo-distributed mode instalasi Hadoop. Mode ini memiliki kualitas dari mode standalone dan cluster tingkat fully-distributed mode.
Bisa berjalan pada satu node, tetapi, ada dua proses JVM untuk mensimulasikan dua node, satu sebagai master dan satu lagi untuk penopang kerja. HDFS di sini digunakan untuk penyimpanan dan YARN dimanfaatkan untuk mengelola sumber daya di instalasi Hadoop.
Mode ini pun biasanya digunakan untuk lingkungan pengujian yang lengkap dan direkomendasikan untuk keperluan lain dengan sistem kerja yang sama.
3. Fully-distributed mode
Jenis instalasi Hadoop terakhir yang dapat dimanfaatkan oleh para scientist adalah fully-distributed mode. Mode ini merupakan lingkungan produksi yang berjalan pada sekelompok pengaturan mesin terdistribusi nyata yang berfungsi untuk traffic pengguna.
Jenis instalasi ini adalah yang paling penting, di mana beberapa node digunakan dan beberapa dari mereka menjalankan Daemon Master, yaitu Namenode dan Resource Manager. Sisa nodenya menjalankan Daemon Slave, yaitu DataNode dan Node Manager.
Manfaat Hadoop
1. Dapat ditingkatkan kapasitasnya
Hadoop adalah teknologi yang memberikan solusi pada sistem tradisional. Sistem tradisional memiliki data storage yang terbatas, sementara Hadoop bisa ditingkatkan kapasitasnya.
2. Ketahanan
HDFS sebagai bagian dari ekosistem Hadoop dinilai memiliki ketahanan tinggi dan meminimalkan risiko kegagalan hardware atau software. Kalaupun satu node rusak atau mengalami masalah, HDFS bisa menyediakan backup data untuk melanjutkan proses.
3. Fleksibilitas
Data bisa disimpan dalam format apa pun, baik structured atau unstructured. Hal ini karena bisa mengakses data dari sumber mana pun dan dengan tipe apa pun.