FOCUS AND PRODUCTIVE - Istilah Big data pertama kali muncul pada tahun 2000 oleh seorang analis industri dari Barat bernama Doug Laney. Secara global pengertian Big data adalah data tentang banyak hal yang terkumpul dalam volume berukuran sangat besar dengan kecepatan yang cepat. Big data dapat dianalisa dan diolah untuk keperluan pengambilan keputusan (desicion making), strategi bisnis, dan prediksi bisnis.

Dalam termninologi manajemen data klasik, berkaitan dengan pertambahan volumenya, Big data dapat dianggap sebagai data yang tidak bisa dipecahkan dengan database (basis data) maupun aplikasi pengolah data tradisional. Kenapa kita jadi menyinggung database? Karena pada implementasinya, konsep Big data ini dapat disebut sebagai database yang sangat besar ukurannya, Very Large Database (VLDB) yang konfigurasinya menggunakan Database Management System (DBMS).

Di dalam suatu Big data, bercampur data antara data yang terstruktur maupun data yang tidak terstruktur. Jika Anda berpikir bahwa NoSQL itu cukup rumit, maka Big data berpuluh-puluh kali lebih rumit dari itu. Kalaupun ada program atau aplikasi yang dirancang khusus untuk mengelolanya, maka aplikasi tersebut memerlukan rancangan algoritma dan query yang tidak umum.

Framework dan aplikasi yang digunakan untuk mengelola data yang besar tersebut tidak secara langsung terhubung dengan semua data, melainkan menggunakan metode analisis. Framework atau aplikasi untuk mengelola data yang besar tersebut biasa disebut sebagai ‘big data application analysis framework‘ namun ada juga yang menyebutnya sebagai ‘big data tools‘ saja

Manfaat Big Data

Big data baru bisa bermanfaat setelah dilakukan analisis. Analisis di sini dapat kita analogikan dalam framework yang jauh lebih kecil, seperti ketika kita melakukan query terhadap database di SQL server. Namun, dalam skala data yang sangat besar dan masif, jenis datanya akan lebih bervariasi, volume datanya lebih besar, dan strukturnya lebih kompleks. Sejak konsep teknologi ini dicetuskan, diimplementasikan, dan dikembangkan framework-nya, Big data sudah mampu memberikan manfaat bagi kehidupan manusia.

Mengutip informasi dari techinasia.com, berikut ini sedikit rangkuman contoh pemanfaatan Big data di Indonesia yang dipresetasikan pada konferensi ‘Big Data Week Indonesia’ pada tahun 2015 (4 tahun yang lalu).

1. Sistem informasi pertanian

Regi Wahyu, CEO dari Mediatrac, sebuah perusahaan analisis Big data merekrut sejumlah mahasiswa berbakat dari Universitas Padjadjaran untuk melakukan riset di sebuah areal persawahan di Jawa Barat.

Informasi-informasi yang didapatkan dari hasil riset-riset tersebut dikumpulkan menjadi sebuah Big data yang bisa dimanfaatkan para petani untuk meningkatkan produksi panen, memprediksi waktu yang tepat untuk bercocok tanam, dan lainnya.

2. Sistem informasi perpajakan

Analisis Big data pada Direktorat Jenderal Pajak (Dirjen Pajak) masih dalam tahap pengembangan. Dengan analisis Big data diharapkan dapat menyelesaikan masalah berkaitan dengan rendahnya kesadaran masyarakat dalam membayar pajak.

Kepala Dirjen Pajak pada saat itu, Iwan Djuniardi, dalam demo presentasinya menampilkan visualisasi yang detail seperti analisis silsilah keluarga, jenis dan barang kekayaan, serta jenis pajak dan status pembayaran pajak.

3. Sistem informasi bencana

Quick Disaster merupakan aplikasi untuk Google Glass yang akan membantu pengguna saat dan setelah terjadi bencana. Misalnya saat terjadi gempa, Google Glass akan memberitahukan informasi tentang apa saja yang perlu dilakukan pengguna, lalu memberikan rekomendasi jalur-jalur evakuasi setelah bencana terjadi. Aplikasi Quick Disaster dikembangkan oleh seorang peneliti dari Universitas Gajah Mada (UGM) bernama Daniel Oscar Baskoro.

4. Sistem informasi kesehatan

Masih dari UGM, seorang peneliti sektor kesehatan bernama Anis Fuad, menjelaskan bahwa klinik dan rumah sakit di Indonesia masih menggunakan aplikasi sendiri-sendiri untuk mencatat data pasien. Data yang dikirim ke Dinas Kesehatan pun masih minim dan kurang lengkap.

Dengan memanfaatkan analisis Big data untuk sektor kesehatan akan meningkatkan akurasi prediksi penyakit dan tingkat kesehatan penduduk di seluruh tanah air secara terpusat. Saat ini, masalah tersebut perlahan ditindaklajuti dengan mulai dibangunnya database pada sistem BPJS online.

5. Sistem informasi bahasa

Ruli Manurung dari Universitas Indonesia (UI) mengutarakan bahwa kita bisa mengklasifikasi dan mengelompokkan jutaan kata-kata dalam Bahasa Indonesia menggunakan Big data. Selain itu juga bisa digunakan untuk melakukan pemetaan kalimat sebagai pendukung aplikasi penerjemahan bahasa asing ke bahasa Indonesia atau sebaliknya.

Karakteristik Big Data (5V)

Big data memiliki karakter dasar 3V yaitu VolumeVelocity, dan Variety. Namun, pada perkembangannya ditambahkan lagi Value dan Veracity, sehingga saat ini dikenal memiliki karakter dasar 5V. Berikut ini penjabaran kelima karakteristik tersebut.

1. Volume

Artinya sekumpulan data dalam jumlah dan volume yang sangat besar dan kadang tidak terstruktur. Contohnya feed Twitter, feed Istagram, data teks chat dan status Whatsapp, alur klik user dari halaman web. Arus data-data tersebut bisa berukuran hingga ribuan Terrabyte (TB) per detiknya.

2. Velocity

Data dapat diakses dengan kecepatan yang sangat cepat sehingga dapat langsung digunakan pada detik itu juga. Sejak era cloud storage dan cloud computing berkembang beberapa tahun terakhir, pengguna internet sudah merasakan fasilitas kecepatan akses data ini.

Salah satu buktinya antara lain, adanya sistem operasi online berbasis Microsoft Silverlight, aplikasi perkantoran (office) berbasis web seperti Office365, cloud storage seperti Dropbox dan GDrive, kecepatan akses halaman web berbasis Javascript, aplikasi menggambar desain berbasis web seperti Pixlr, aplikasi developer Android Apps berbasis web seperti Kodular dan MIT App Inventor, aplikasi perancang flowchart seperti Draw.io, dan masih banyak lagi.

3. Variety

Artinya memuat beragam jenis file, baik yang terstruktur maupun yang tidak terstruktur. Analisis terhadap data yang tidak terstruktur akan memerlukan algoritma yang agak berbeda, seperti data teks, gambar, suara, dan video.

Untuk data-data semacam itu akan memerlukan waktu lebih untuk memprosesnya, karena bisa jadi di dalam data yang tidak terstruktur tersebut masih ada data lain atau data baru yang bisa digali. Misalnya di dalam data MP3 terdapat IDv1 dan IDv2 tag, di dalam data JPEG terdapat data jenis kamera yang digunakan, di dalam data PDF terdapat nama aplikasi pembuatnya, dan masih banyak lagi.

4. Value (Nilai)

Maksud dari value adalah seberapa bernilainya atau bermaknanya data tersebut. Contohnya, biodata karyawan suatu perusahaan percetakan tidak akan bernilai untuk kepentingan analisis prediksi penerimaan karyawan di perusahaan farmasi.

Data tersebut mungkin tidak penting dan tidak bernilai untuk satu kasus, namun bisa sangat penting dan sangat bernilai untuk kasus yang lain. Data yang tidak memiliki nilai di kasus mana pun tidak akan terfilter di sistem aplikasi  analisis Big data.

5. Veracity (Kejujuran)

Karakter veracity mengarah kepada seberapa akurat dan dapat dipercaya suatu data. Melanjutkan satu contoh di poin value di atas, bisa jadi di dalam file MP3 tersebut IDv1 tag-nya sudah dimodif sehingga keaslian file MP3 tersebut dipertanyakan, perubahan IDv1 tag tersebut bisa jadi karena hasil output aplikasi pengolah suara atau converter file MP3. Data yang tidak memiliki karakter kejujuran atau keaslian tidak akan tersaring ke dalam sistem analisis.

Contoh Aplikasi Framework Analisis Big Data

Apache Hadoop merupakan sebuah koleksi aplikasi open-source yang dimanfaatkan untuk mengumpulkan dan menganalisis data-data layanan online. Banyak yang menyebutnya dengan sebutan Hadoop saja. Hadoop mulai dibuat sekitar tahun 2005, resmi dirilis pada 2006 dengan nama resminya Apache Hadoop.

Hadoop dirancang menggunakan bahasa pemrograman Java, jadi dapat dijalankan di berbagai platform/sistem operasi. Hadoop merupakan sebuah koleksi aplikasi yang dapat berlaku sebagai base modulesub module, ekosistem, atau koleksi dari satu paket perangkat lunak tambahan (additional) yang dapat di-install di atasnya atau berdampingan dengan sistem utama Hadoop itu sendiri. Koleksi aplikasi Hadoop tersebut antara lain: Apache Pig, Apache Hive, Apache HBase, Apache Phoenix, Apache Spark, Apache ZooKeeper, Cloudera Impala, Apache Flume, Apache Sqoop, Apache Oozie, and Apache Storm.

Sejarah dan konsep Big data diawali pada tahun 1970-an, itulah masa dimana insan teknologi informasi mulai membuka wawasannya terhadap analisis data dan kaitannya dengan ilmu statistika. Terus berlanjut hingga tahun 2000, masa dimana media sosial mulai tumbuh pesat, maka semakin membuat orang sadar mengenai pentingnya analisis data pada platform-platform media sosial tersebut.

Data-data yang masuk ke dalam media sosial tersebut terlalu besar untuk disimpan dan diolah dalam satu media simpan terpusat. Kemudian perlahan-lahan teknologi baru untuk mengatasi masalah ini muncul, lahirlah konsep NoSQL yang dikembangkan pada Apache Cassandra dan framework analisis Big data pada Apache Hadoop.