Menyiapkan Data File untuk Cloud Data Lakes

Strategi cloud data lake adalah evolusi alami bagi organisasi TI perusahaan yang memiliki banyak data yang pindah ke cloud, karena meningkatkan cloud dari loker penyimpanan data yang murah menjadi tempat di mana data dapat dimanfaatkan untuk nilai baru, dan dimonetisasi.

Jika tahun 2020 dan 2021 adalah tahun-tahun akselerasi cloud yang cepat, tahun 2022 akan menjadi tahun ketika perusahaan mulai serius untuk membawa data file yang tidak terstruktur ke dalam data lake cloud. Ada beberapa alasan di balik tren ini. Pertama, organisasi menggunakan petabyte data tidak terstruktur, yang terdiri dari setidaknya 80% dari 64 zetabyte data (dan terus bertambah) dalam penyimpanan di seluruh dunia saat ini. Sebagian besar adalah data file–dari gambar medis hingga video streaming, data sensor dari mobil listrik dan produk IoT, serta dokumen yang digunakan orang di setiap sektor untuk berkolaborasi dan berbisnis.

Kedua, data file menjadi tidak dapat dikelola, mahal untuk disimpan, dan CIO tahu bahwa mereka memiliki potensi tambang emas wawasan jika saja mereka dapat menentukan cara memasukkannya ke tempat yang tepat untuk analisis. Terakhir, platform cloud utama banyak berinvestasi dalam analisis data/alat ML/AI dan tingkat penyimpanan objek berbiaya lebih rendah untuk mendukung proyek data lake.

Lihat juga: Data Lake, Data Deret Waktu, dan Analisis Industri

Pendewasaan data lake menjadi cloud

Mengaktifkan data lake adalah salah satu tujuan utama yang diprioritaskan oleh manajer TI, bersama dengan keamanan, manajemen biaya, dan visibilitas, menurut penelitian terbaru yang kami lakukan. Cloud telah mengubah strategi data lake tradisional, yang dimulai ketika perusahaan ingin menganalisis data semi-terstruktur seperti CSV dan file log. Pada tahun 2006, Hadoop lahir, dan diadopsi secara luas tepat pada saat percakapan Big Data mulai beredar. Namun Hadoop akhirnya terbukti lebih lambat dan lebih mahal dari yang diharapkan, rumit untuk diatur, skala dan dikelola dan terutama dirancang untuk pemrosesan batch. Untuk mengatasi masalah ini, Apache Spark hadir, berjalan hingga 100x lebih cepat untuk beberapa beban kerja dan sangat cocok untuk analisis waktu nyata. Yang penting, fokus perusahaan seperti Databricks adalah menjalankan Spark di cloud, sedangkan Hadoop terutama diterapkan di lokasi.

Dalam beberapa tahun terakhir, platform data lake berbasis cloud telah matang dan sekarang siap untuk prime time. Penyimpanan objek skala besar yang lebih murah dari penyedia cloud menghadirkan platform untuk proyek skala petabyte besar yang tidak layak dilakukan di tempat. Data lake generasi berikutnya dibangun di Apache Spark untuk mendukung S3 atau penyimpanan data objek, sehingga memungkinkan untuk menyerap dan memproses data semi-terstruktur dan tidak terstruktur. Penyimpanan file juga bertransisi ke cloud dan perlu dimanfaatkan sebagai bagian dari data lake cloud, sehingga semua data mungkin tidak berada dalam penyimpanan objek.

Cara menjinakkan danau data awan

Meskipun ini masih awal untuk data lake cloud, termasuk data file di data lake Anda sangat penting, karena model pembelajaran mesin memerlukannya dalam jumlah besar untuk menghasilkan hasil yang berarti. Namun data tidak terstruktur ini tidak distandarisasi antara jenis file:file video, file audio, data sensor, log tidak memiliki struktur yang sama. Dan membuang semua data file ini mau tak mau ke platform cloud data lake bukanlah strategi yang bijak, tetapi berantakan untuk dibersihkan nanti. Terlepas dari janji mereka, ada banyak risiko dengan data lake, mulai dari biaya manajemen yang tinggi, kesenjangan keterampilan, masalah keamanan dan tata kelola, masalah portabilitas saat memindahkan data di antara cloud dan platform penyimpanan, dan kekhawatiran lama bahwa data lake menjadi rawa saat data menjadi terlalu besar dan kusut untuk ditelusuri dan dianalisis.

Berikut adalah beberapa pertimbangan saat memulai membawa data file ke data lake cloud untuk menghindari atau meminimalkan perselisihan .

Optimalkan data lake. Sebelum data apa pun dapat dianalisis, data tersebut harus dibersihkan, dinormalisasi, dan diklasifikasikan, yang dapat menjadi proses yang sangat manual yang berkontribusi pada pembengkakan biaya dan waktu yang lambat untuk menilai. Ini selalu menjadi tantangan bagi inisiatif gudang data dan hal yang sama berlaku untuk data lake dan data lakehouse. Data lake menarik karena mereka dapat menyerap data dalam format aslinya; membutuhkan pengoptimalan sebelum memasukkan data ke dalam danau menghancurkan kemudahan penggunaan ini. Bagaimana Anda dapat secara otomatis mengoptimalkan data file tanpa memerlukan perubahan pada perilaku pengguna? Kunci untuk mengoptimalkan data file adalah metadata:informasi tentang jenis file, tanggal dibuat dan terakhir diakses, pemilik, proyek, dan lokasi. Kemampuan untuk mengindeks dan menandai file secara otomatis pada properti metadata akan menghindari masalah rawa data dan mempermudah pencarian dan segmentasi nanti, dibandingkan dengan membiarkan data lake tidak dikelola.
Gunakan pengindeksan metadata untuk menemukan kumpulan data yang tepat untuk kebutuhan khusus. Alat yang dapat mengindeks file dan mencari metadata di seluruh penyimpanan (termasuk lokasi lokal, edge, dan cloud) dapat mempersempit miliaran file menjadi beberapa ribu sehingga Anda hanya mengirim file yang tepat yang ingin Anda analisis ke cloud.
Beri tag pada data saat Anda menggunakan untuk meningkatkan kemampuan penelusuran dan kegunaan . Setelah Anda menemukan file yang Anda butuhkan, Anda kemudian dapat menggunakan sistem pembelajaran mesin untuk lebih mempersempit pencarian dengan lebih banyak tag. Proses ini harus berkelanjutan dan otomatis, sehingga seiring waktu, struktur tambahan dikembangkan dan kemampuan penelusuran yang lebih mudah hadir di data lake Anda bersama dengan kualitas yang lebih tinggi secara keseluruhan.
Akomodasi tepi. Saat komputasi tepi tumbuh karena kasus penggunaan baru dari data sensor, streaming data dari tepi akan menjadi tidak dapat dipertahankan. Bagaimana Anda bisa memproses lebih banyak data di edge dan mengambil apa yang Anda butuhkan ke dalam data lake cloud? Pra-pemrosesan edge akan menjadi lebih penting seiring dengan bertambahnya volume data edge.
Buat taksonomi berdasarkan industri. Tidak ada nomenklatur penandaan standar untuk setiap industri. Memiliki beberapa klasifikasi penandaan umum berdasarkan sektor akan mempermudah pencarian dan ekstraksi data, terutama di lingkungan kolaboratif seperti penelitian dan ilmu hayati.
Alamat mobilitas data. Agar benar-benar mobile, data harus dapat berada di sistem yang berbeda di seluruh lingkungan cloud hybrid sementara juga mengakses layanan secara native di lingkungan tersebut. Membuka kunci data dari sistem penyimpanan berpemilik memberikan kontrol kembali ke TI dan menghilangkan biaya dan kerepotan memindahkan data dari satu platform ke platform berikutnya. Cara data digunakan dan diakses dan nilainya berubah seiring waktu. Dengan pemeriksaan data di masa mendatang, Anda dapat beradaptasi dengan perubahan dan persyaratan baru. Solusi manajemen dan mobilitas data independen dapat membantu di sini.
Bangun budaya yang tepat. Organisasi TI terkemuka terus mengidentifikasi budaya – orang, proses, organisasi, manajemen perubahan – sebagai hambatan terbesar untuk menjadi organisasi berbasis data, menurut penelitian tahun 2021 oleh New Vantage Partners. Budaya berbasis data perlu menjangkau tidak hanya analis dan lini bisnis, tetapi juga tim infrastruktur TI. Para pemimpin TI perlu berperan dalam membantu penyimpanan data, server dan profesional jaringan mengorientasikan kembali tanggung jawab dan tugas sehari-hari mereka menuju kerangka pengambilan keputusan yang berpusat pada data. Alat dan proses harus lintas-fungsi, memungkinkan pandangan holistik aset data organisasi dan kolaborasi seputar strategi untuk mengelola aset tersebut demi keuntungan organisasi.

Data lake cloud telah mendapatkan popularitas karena data dapat diserap dalam format aslinya tanpa pra-pemrosesan ekstensif yang diperlukan untuk gudang data. Sisi sebaliknya adalah bahwa data lake telah menjadi rawa data terutama untuk data file yang tidak terstruktur, karena data ini tidak memiliki struktur yang sama. Menganalisis data file menjadi lebih penting dengan meningkatnya mesin AI/ML yang mengandalkannya. Data lake cloud dapat dioptimalkan untuk data tidak terstruktur tanpa merusak daya tariknya dalam menyerap data dalam format asli dengan mengotomatiskan pengindeksan, penelusuran, pengumpulan, dan pengoptimalan data file.

Keluar dari Wajan dan Masuk ke Dapur Terhubung 4 Tren Metaverse Industri:Hiperbola atau Revolusi?

Teknologi Internet of Things

Tertanam

Sensor

Komputasi awan

Teknologi Internet of Things