Monday, June 27, 2022

Tools ETL Open Source

 


ETL merupakan proses yang terdiri dari Extract, Transform, dan Load

Extract adalah proses memilih dan mengambil data dari satu atau beberapa sumber data dan membaca atau mengakses data yang telah terpilih tersebut.

Transform merupakan proses yang mana data yang telah terambil pada proses extract akan melaui proses cleansing

Lload adalah proses terakhir untuk memasukkan data ke dalam target akhir yaitu ke dalam data warehouse. Maka, ETL adalah sekumpulan proses yang harus dilalui dalam pembentukan data warehouse.

Tujuan ETL adalah mengumpulkan, menyaring, mengolah, dan menggabungkan data-data yang relevan dari berbagai sumber untuk disimpan ke dalam data warehouse.

Beberapa Tools ETL open source yang dapat digunakan untuk integrasi data, sebagai berikut:

Apache Kafka

Kafka Training in Brighton | Apache Kafka Training | FinTech Alliance

Mengutip dari medium.com, Apache Kafka merupakan salah satu aplikasi message service/broker atau publish subscribe yang paling banyak digunakan saat ini.

Belakangan ini kafka sudah menambahkan fitur streaming kedalam platformnya. Kafka sekarang berada pada naungan apache yang artinya bahwa kafka merupakan sebuah platform yang open source.


Apache Kafka adalah sebuah publish-subscribe messaging system. Messagging system adalah system yang bisa digunakan untuk mengirimkan message antar proses, aplikasi dan server.  Tugas utama kafka yaitu menggunakannya untuk membangun pipeline dan aplikasi data streaming dengan real-time, dan menjalankannya sebagai cluster pada satu atau beberapa server yang dapat menjangkau lebih dari satu pusat data.

Kafka kluster menyimpan stream record dalam kategori yang berupa topik, dan setiap record terdiri dari key, value, dan timestamp.

Apache Nifi

Apache NiFi

Apache Nifi adalah perangkat lunak sumber terbuka (open source) untuk mengotomatisasi dan mengelola aliran data antar sistem. Sangat handal dalam memproses dan mendistribusikan data. Penggunaan lebih mudah karena tersedia user interface berbasis web untuk membuat, memantau, dan mengendalikan aliran data.

Pentaho Data Integration (PDI)

How to solve Pentaho Data Integration (kettle) problems on Ubuntu 14.04

Pentaho adalah kumpulan aplikasi Business Intelligence (BI) yang berkembang dengan pesat dan bersifat free open source software (FOSS)  yang berjalan di atas platform Java.

Sedangkan Pentaho Data Integration adalah software dari Pentaho berguna untuk proses ETL (Extraction, Transformation dan Loading).

Penggunaan PDI yaitu untuk migrasi data, membersihkan data,  loading dari file ke database atau sebaliknya dalam volume besar. PDI menyediakan graphical user interface dan drag-drop komponen yang memudahkan user.

Talend Open Studio

Talend DI Tutorial: Installation of Talend Open Studio Data Integration -  Big Data & ETL
Talend Open Studio

Mengutip dari softbless.com, Talend merupakan open source untuk data integratio.

Biasanya Talend digunakan untuk integrasi antara sistem operasional, ETL (extract, transform dan load), dan migrasi data oleh beberapa sumber.

Selain itu, Talend akan membantu dalam mengelola semua aspek dari tahap ekstraksi data, transformasi data, dan loading data secara efisien dan efektif.

Talend sudah lengkap dengan beberapa fitur seperti berikut ini :

  • Memudahkan pemodelan data dengan menggunakan desain tool secara drag and drop
  • Terdapat lebih dari 900 komponen yang dapat menghubungkan semua sumber data
  • Manipulasi String
  • Penanganan Lookup Otomatis
  • Kemampuan untuk menjalankan extract, transform dan load

Talend Data Integration mencakup fitur untuk berbagai perusahaan seperti load balancing, automatic failover, dan tools untuk kolaborasi antar tim, serta dukungan teknis round-the-clock dari para ahli integrasi data pada aplikasi Talend ini.

Apache Airflow

Apache Airflow merupakan platform untuk membuat, menjadwalkan, dan monitoring workflow pemrograman.

Ketika Workflow di-define sebagai code, akan menjadi lebih ter-maintain, versionable, testable, dan collaborative. Apache Airflow menjadikan workflow sebagai directed acyclic graphs (DAGs) task.

Stitch

Stitch adalah platform open-source pertama di cloud yang memungkinkan untuk memindahkan data dengan cepat.

Selain itu, stitch adalah ETL sederhana dan dapat diperluas yang dibuat untuk tim data.

Apache Camel

Apache Camel adalah alat ETL open-source yang membantu dalam mengintegrasikan berbagai sistem yang memakan atau menghasilkan data dengan cepat.

Memunculkan Simbol & Emoji Pada OS Mac

  Memunculkan Simbol & Emoji  1. Buka aplikasi Pages / Notes pada Macbook. 2. Klik pada Menubar Edit --> Pilih Emoji and Symbols a...