Bisakah kita mengotomatisasi kualitas data untuk mendukung kecerdasan buatan dan pembelajaran mesin?
Dapatkah organisasi mengotomatiskan kualitas data untuk meningkatkan AI dan ML?
Selama dekade terakhir, perusahaan telah mulai memahami dan membuka potensi yang dapat dibawa oleh kecerdasan buatan (AI) dan pembelajaran mesin (ML). Saat masih dalam masa pertumbuhan, perusahaan mulai memahami dampak signifikan yang dapat ditimbulkan oleh teknologi ini, membantu mereka membuat keputusan yang lebih baik, lebih cepat, dan lebih efisien.
Tentu saja, AI dan ML bukanlah peluru perak untuk membantu bisnis merangkul inovasi. Faktanya, keberhasilan algoritme ini hanya sebagus fondasinya — khususnya, data berkualitas.
Tanpanya, bisnis akan melihat tujuan utama mereka menginstal AI dan ML untuk gagal, dengan konsekuensi tak terduga dari data buruk yang menyebabkan kerusakan permanen pada bisnis baik dari segi efisiensi maupun reputasinya.
Tapi ada area eksplorasi lain yang siap untuk dikembangkan; yaitu, dapatkah kualitas data ditingkatkan dan dipelihara dengan otomatisasi dan pembelajaran mesin itu sendiri?
Risiko kualitas data yang buruk
Dari layanan streaming film, hingga chatbot, hingga membantu menginformasikan cara supermarket mengatur rak mereka dan membimbing kita melalui pusat transportasi utama, ML memengaruhi kehidupan kita dengan cara yang tak terbayangkan satu dekade lalu.
Tetapi apa yang terjadi jika algoritme diatur untuk bekerja di atas dasar kualitas data yang buruk? Risikonya di masa depan bisa jauh lebih parah daripada disuguhi film yang tidak Anda sukai.
Jika kita mulai mempercayai pembelajaran mesin untuk meningkatkan penemuan dan pengujian obat-obatan, misalnya, apa yang akan terjadi jika obat diformulasikan tetapi ada kesalahan dalam data senyawa kimia yang digunakan untuk mensimulasikan pengujian? Implikasinya bisa sangat parah.
Aplikasi ML yang muncul yang juga dapat dipengaruhi oleh data dasar yang buruk adalah kendaraan yang dapat mengemudi sendiri. Dari peta dan alamat hingga bagaimana kendaraan bereaksi terhadap pengendara sepeda, data yang digunakan untuk mengajarkan alat berat akan sangat penting untuk adopsi konsumen dan regulator.
Algoritme ML – kumpulan aturan dan perhitungan yang membantu memecahkan masalah yang ditentukan — dapat mendukung peningkatan kualitas data atau dibuang oleh data yang tidak akurat jika kemungkinan data yang buruk tidak dipertimbangkan dalam pembuatannya.
Kualitas data otomatis
Seperti halnya transformasi digital, beralih dari manual ke otomatis dan kemudian manajemen kualitas data yang 'cerdas' akan memerlukan rencana jangka panjang. Experian telah mengidentifikasi empat tahap tentang perkembangan manajemen data, yang kami sebut Kurva Kematangan Manajemen Data. Tidak Sadar, Reaktif, Proaktif, dan Dioptimalkan &Diatur mencerminkan empat tahap yang mencakup siklus penuh strategi kualitas data.
Penilaian tersebut telah menunjukkan perkembangan yang stabil pada kurva kedewasaan, ketika organisasi mulai melepaskan potensi data yang mereka pegang dan menganggapnya lebih serius. Yang paling menarik dari semuanya, mereka yang menemukan diri mereka pada tahap Dioptimalkan &Dikelola, dapat melihat awal dari tingkat lain, sesuatu yang dapat disebut 'otomatis cerdas.'
'Otomatis cerdas' mengacu pada memiliki sistem dan proses untuk membantu orang yang bertanggung jawab atas kualitas data mengidentifikasi di mana masalah terbesar mereka berada. Kita semua sekarang harus meninjau metrik kinerja utama secara teratur untuk mengidentifikasi tren dalam kualitas data, mungkin melihat tingkat penyelesaian keseluruhan atribut utama, atau memantau masalah waktu apa pun dengan penerimaan data atau tahap pemuatan data. Namun, untuk benar-benar memahami kualitas data Anda, kami harus melihat konten lebih dalam.
Misalnya, apakah cukup untuk mengatakan bahwa Anda telah mengumpulkan tanggal lahir untuk memenuhi persyaratan data pihak ketiga dalam 99% kasus, ketika sebagian besar tanggal yang Anda kumpulkan berasal dari sistem dan oleh karena itu bukan tanggal lahir yang sebenarnya? Hal ini dapat menyebabkan masalah nyata dan konsekuensi yang tidak diinginkan dapat mengganggu proses pengambilan keputusan Anda.
Langkah selanjutnya
Sebagian besar program kualitas data sudah mengandung unsur otomatisasi dan pengujian dan pembelajaran. Tahap selanjutnya dalam evolusi ini adalah penggunaan pembelajaran mesin untuk secara otomatis mengenali dan merespons berbagai jenis data — 'otomatis secara cerdas.'
Misalnya, alat manajemen data yang dapat mengenali informasi standar seperti alamat, email, nomor kartu kredit, atau nomor asuransi nasional dengan sedikit pra-pelatihan atau penulisan aturan sebelum mengambil tindakan seperti memvalidasi entri atau menandai masalah kepatuhan ke manajer.
Tujuan utamanya adalah ML untuk kualitas data yang kemudian meningkat dengan sendirinya dari waktu ke waktu. Contoh bagusnya adalah nama perusahaan — apakah Tesco PLC sama dengan Tesco Stores Ltd? Bagaimana dengan bagian dari grup Tesco yang tidak memiliki kata 'Tesco' di nama perusahaannya?
Mengelompokkan entitas komersial dapat sesederhana mencari nama, atau lebih kompleks dengan melihat detail akun perusahaan, alamat kantor pusat, nama CEO, alamat web, dan metadata lainnya untuk menemukan asosiasi di seluruh dunia.
Hipotesis semacam ini adalah tantangan bisnis yang dapat didukung oleh strategi data yang kuat. Namun, dapatkah kita pindah ke tempat di mana kita dapat mengotomatiskan pembelajaran ini dan meningkatkan kualitas data kita dari waktu ke waktu dengan lebih sedikit upaya manual, sehingga memberikan lebih banyak waktu kepada orang-orang data kita untuk menganalisis dan mendukung bisnis?
Itulah tantangan bagi ML — mengambil aturan dasar untuk kualitas data, menerapkannya, lalu menyarankan peningkatan saat perubahan data dunia nyata menjadi terlihat sebagai pengecualian atau outlier. Ini adalah subjek yang muncul dan kami berharap untuk melihat banyak perkembangan di tahun-tahun mendatang.
Strategi data Anda
Pada dasarnya, setiap contoh ML bergantung pada data yang sesuai dengan tujuannya — jika bukan data tersebut, dan akibatnya, keputusan yang dibuat karenanya, tidak dapat dipercaya.
Untuk menghindari hal ini, organisasi perlu memastikan bahwa mereka memiliki strategi data yang kuat. Pikirkan tentang alasan untuk memulai ML; apa hasil yang dapat dijelaskan yang ingin mereka capai dan hindari?
Kemudian, dengan melakukan penilaian awal terhadap data Anda untuk memeriksa kualitas apa yang sudah mereka miliki, organisasi dapat mengambil tindakan dan merencanakan apa lagi yang mereka butuhkan untuk meningkatkan kualitas data mereka secara keseluruhan.
Mampu mengidentifikasi dan melacak keputusan yang dibuat melalui ML — dan semua proses pengambilan keputusan otomatis — sangat penting jika ingin diadopsi dan diimplementasikan dengan sukses.
Pemantauan kualitas data yang berkelanjutan juga penting. Dengan melakukan ini, Anda akan dapat mengidentifikasi dengan cepat area mana yang perlu diperhatikan dan diyakinkan bahwa Anda berada di posisi terbaik dengan inisiatif ML saat ini dan yang potensial.
Kemudian, organisasi akan berada dalam posisi ML untuk memungkinkan mereka mengelola kualitas data mereka secara lebih efisien, membuat proses pengambilan keputusan mereka lebih cepat dan lebih baik.
Mengambil kesimpulan logisnya, menggunakan pembelajaran mesin dapat membantu kami mengidentifikasi masalah data yang tetap tersembunyi hingga menjadi masalah nyata. Jika kami dapat melatih model untuk mengidentifikasi atribut utama yang dapat memengaruhi keputusan atau proses di masa mendatang, dan kemudian memantau fluktuasi atau pola terkait, kami bahkan dapat memprediksi dampak kekhawatiran data ini terhadap bisnis Anda.
Misalnya, jika kita mengetahui bahwa jumlah kamar tidur di sebuah properti secara langsung memengaruhi keputusan dalam bisnis kita, dan kita menetapkan bahwa kita memiliki data yang tidak lengkap atau perkiraan di bidang ini ke skala tertentu yang semakin buruk, dapatkah kita memprediksi, berdasarkan di mana kita tahu data yang digunakan, perkiraan pendapatan sewa, penilaian hipotek, atau prediksi konsumsi pemanas?
Dampak dari kekhawatiran kualitas data yang berkembang ini, dapat membantu membangun kasus bisnis untuk memperbaikinya sekarang daripada ketika itu menjadi masalah nyata.