Dewasa ini banyak sekali yang menggunakan term big data sebagai bagian dari diksi yang dipakai untuk berbicara ataupun memberikan pidato, baik oleh pihak institusi swasta maupun oleh para pejabat publik.
Jika sudah menggunakan diksi big data, pembicaraan tampak advance dan seakan-akan makin seksi. Segendang sepermainan dengan diksi Revolusi Industri 4.0, Artificial Intelligence, dan Machine Learning. Namun sayangnya saat kita perhatikan, banyak sekali misleading saat mengelaborasi apa itu big data. Yang terbaru, Gubernur Jawa Barat Ridwal Kamil pun sempat miss saat memahami apa itu big data.
Agar mendapat pemahaman yang komprehensif, saya mencoba mengelaborasi dari apa yang telah saya pelajari dengan bahasa yang lebih udah dipahami.
Big data adalah sebuah keniscayaan di kala semua aktivitas kita sehari-hari telah terekam di penyimpanan cloud dengan pintu masuknya adalah segala gadget yang kita pegang, baik itu ponsel maupun laptop. Hal ini menjadi mungkin di kala terjadi pertemuan antara tingkat perekonomian suatu masyarakat semakin baik dan harga perangkat cerdas semakin murah.
Saat di dalamnya di-install aplikasi semisal media sosial, alat perekam aktivitas fisik, dan sejenisnya. Maka BOOM… timbunan data itu menjadi nyata. Inilah awal mula BIG DATA, sebuah landscape dokumentasi informasi yang berbeda jauh sebelum era internet.
Dalam perkembangannya, konsep big data ini kemudian diadopsi oleh perusahaan-perusahaan private dalam rangka mengefisienkan kinerja demi mendulang keuntungan yang lebih besar.
Melihat benefit dan potensi yang bisa dihasilkan oleh olah data dari big data, maka institusi publik didorong untuk memanfaatkannya juga sehingga muncul jargon-jargon big data oleh para birokrat dan pejabat.
Sebenarnya apa yang dikatakan big data merupakan sebuah kumpulan data dalam jumlah yang sangat sangat besar (sangatnya sampai dua kali karena memang tidak terbayangkan sebelum adanya era big data) yang terdiri dari data terstruktur (structured), semi terstruktur (semi-structured), tidak terstrukstur (unstructured), data internal, data eksternal, dan data dinamis (dynamic data).
Bentuk data ini bisa bermacam-macam, mulai dari teks, gambar, audio, video, percakapan di sosial media, aktivitas/log, hingga apapun kemungkinan data yang bisa terjadi. Yang kesemuanya itu tidak dapat ditangani oleh metode traditional relational database seperti biasa atau software yang pada umumnya kita gunakan (diistilahkan sebagai legacy software).
Maka jika ada orang yang ngomong big data tapi bisa diselesaikan dengan (misal) Microsoft Excel saja, artinya itu belumlah big data!
Data yang sebegitu besarnya ini harus dikumpulkan (collect atau mining), diseleksi, dan didokumentasikan dengan baik agar dapat dilakukan analisis untuk menciptakan suatu hasil (report/insight) yang berguna bagi pengguna.
Saking besarnya data, jenis, variabel, percabangan kemungkinan analisis dan kesimpulan yang dihasilkan, maka memerlukan alat bantu berupa algoritma tertentu yang biasanya berwujud sebagai machine learning yang merupakan bagian dari artificial intelligence (AI). Mengapa perlu bantuan ini semua? Sebab manusia biasa dengan perangkat gadget traditional tidak mampu meng-handle big data.
Selain itu, untuk memudahkan membedakan big data atau bukan, dalam salah satu literatur disebutkan bahwa big data memiliki ukuran data sebesar antara 10 Terabyte hingga 100 Petabyte (PB). Di mana 1 Petabyte adalah 1.000 Terabyte.
Jadi jikalau data yang diolah untuk menghasilkan insight tertentu masihlah di bawah 10 TB maka biasanya disebut dengan “not so big data” atau kalau diterjemahkan “belumlah benar-benar data yang besar”.
Jika berbicara big data, maka kita akan berbicara tentang karakteristik big data yang biasanya dikenal 5V yang terdiri Volume, Variety, Volocity yang kemudian dihimpun menjadi big data untuk menghasilkan 2V yang terakhir yakni Veracity dan Value.
Volume adalah besarnya ukuran data yang akan dikumpulkan. Ini penting diperhatikan untuk mempersiapkan metode pengumpulan data, besaran “wadah” yang harus disiapkan termasuk pemilihan “wadah” yang memungkinkan untuk dilakukan scalable jika dibutuhkan sewaktu-waktu.
Variety adalah variasi data yang akan dihimpun menjadi big data. Seorang data analis perlu mempertimbangkan variasi apa saja yang akan diolah menjadi sumber data big data. Variasi ini bisa dalam bentuk data (text, video, dll) ataupun parameter data yang kemudian biasanya dicari pola datanya. Variety ini juga yang menjadikan data yang dihimpun menjadi sangat kompleks sehingga metode tradisional tidak akan mampu untuk meng-handle-nya.
Velocity adalah kecepatan bagaimana data dikumpulkan, diproses, dan dihasilkan sesuai dengan kebutuhan. Jika kecepatan memproses ini terhitung lambat dan layaknya dikerjakan manual, maka itu bukanlah big data yang ideal.
Veracity dan Value berhubungan dengan kualitas data. Veracity mengacu pada akurasi dan keakuratan data sesuai dengan konteks yang dinginkan sehingga menghasilkan Value yang berguna.
Hasil dari pengolahan big data yang rumit ini kemudian disajikan dalam grafis-grafis yang mudah dikonsumsi oleh orang banyak, bahkan yang awam sekalipun.
Dalam mewujudkan konsep big data hingga mendapatkan hasil yang benar-benar insightful bagi pengguna dibutuhkan beragam keahlian spesifik terkait data. Beberapa di antaranya adalah keahlian di bidang data analytics, data engineering, data management, research method and project management, dan business analytics.
Jadi, untuk menguji apakah pihak yang mengungkapkan tentang big data itu benar-benar memahami apa yang sedang diomongkan atau tidak, kita bisa menelisik apakah penjelasannya telah memenuhi kriteria-kriteria di atas.
Kita perlu tahu agar istilah big data ini tidak overuse sehingga mengalami peyorasi sebagaimana revolusi mental yang sebenarnya keren, sekarang seperti menjadi olok-olok dan enggan untuk disebut lagi di tengah publik.
*)Artikel ini pernah diterbitkan dan menjadi Headline di Kompasiana pada tanggal 1 Februari 2021 dengan judul Memahami Big Data agar Tak Salah Kaprah. Sumber ilustrasi artikel: unsplash.com
Auditor pada salah satu Instansi Pemerintah Pusat. Alumni Sekolah Tinggi Akuntansi Negara (STAN) dan Universitas Jenderal Soedirman. Pengembang aplikasi monitoring pengawasan MRRP COVID-19. Online and Digital Enthusiast. Penikmat Buku dan Kopi. Suka bersepeda. Professional blogger at PinterIM.com
Cukup mencerahkan, tks mas