Kecerdasan buatan (AI) ada di mana-mana akhir-akhir ini, baik dalam kenyataan atau hanya sebagai label hyped-up untuk beberapa keputusan sederhana berbasis aturan, dan ini telah menyebabkan beberapa masalah menarik, kata David Smith, kepala Teknologi GDPR, SAS Inggris &Irlandia .
Yang pertama adalah ketidakpercayaan, sebagaimana dicatat oleh presiden baru dari British Science Association, Profesor Jim Al-Khalili:“Ada bahaya nyata dari reaksi publik terhadap AI, yang berpotensi mirip dengan yang kami miliki dengan GM [modifikasi genetik] di masa-masa awal milenium”. Al-Khalili menyoroti bahwa agar AI mencapai potensi penuhnya, diperlukan transparansi dan keterlibatan publik yang lebih besar.
Isu potensial kedua adalah kontrol; jika model benar-benar dibiarkan berjalan tanpa pemantauan dan kontrol maka ada peluang untuk keputusan yang buruk. Contohnya adalah “Flash Crash” pada tahun 2010 ketika pasar saham AS turun sekitar 9% selama 36 menit. Meskipun regulator menyalahkan satu pedagang yang memalsukan pasar, sistem perdagangan algoritmik setidaknya sebagian harus disalahkan atas kedalaman kehancuran.
Memanfaatkan AI untuk kebaikan
Dikatakan, AI memiliki potensi besar untuk kebaikan, baik memberikan diagnosis kanker yang lebih baik melalui penyaringan gambar tumor yang lebih efisien atau melindungi spesies yang terancam punah dengan menafsirkan gambar jejak kaki hewan di alam liar. Tantangannya adalah memastikan bahwa manfaat ini terwujud, dan di sinilah kerangka kerja FATE (Fairness, Accountability, Transparency and Explainable), yang dirancang untuk memastikan bahwa AI digunakan dengan tepat. Saya akan fokus pada aspek transparansi, di mana pengelolaan data memiliki dampak terbesar.
AI hanya bisa sebaik data yang mengumpankannya, dan untuk membangun dan menggunakan aplikasi AI memerlukan sejumlah fase spesifik data:
Pembersihan kualitas data untuk memastikan bahwa pemodelan tidak dilakukan pada data yang berisi item yang tidak relevan atau salah
Mengubah, menggabungkan, dan menyempurnakan data sebelum proses pemodelan dimulai
Deployment, yang mengambil model dan menerapkannya ke data organisasi untuk mendorong pengambilan keputusan
Masing-masing akan menambah nilai tetapi juga berpotensi mengubah hasil proses AI. Misalnya, jika proses kualitas data menghilangkan outlier, itu mungkin memiliki dampak yang sangat berbeda. Jika penghapusan outlier sesuai, hasilnya akan menjadi model yang mencerminkan sebagian besar data dengan sangat baik. Di sisi lain, mungkin mengabaikan keadaan yang langka namun kritis dan kehilangan kesempatan untuk membawa manfaat nyata.
Ini ditunjukkan dalam penemuan Pulsars oleh Dame Jocelyn Bell Burnell, sejenis bintang neutron yang berputar. Dia sedang memeriksa bermil-mil data cetakan dari teleskop radio dan melihat sinyal kecil di satu dari setiap 100.000 titik data. Meskipun atasannya mengatakan kepadanya bahwa itu adalah gangguan buatan manusia, dia tetap bertahan dan membuktikan keberadaan mereka dengan berhasil mencari sinyal serupa di tempat lain. Jika outlier telah dihapus, dia tidak akan membuat penemuan.
Perjalanan data
Kualitas data juga harus diterapkan untuk mencegah keputusan yang memalukan. Jika Bank of America telah memeriksa validitas data Nama mereka, mereka mungkin tidak mengirimkan penawaran kartu kredit ke “Lisa Is A Slut McXxxxxx” (namanya disunting. Ed.) pada tahun 2014. Mereka memperoleh data dari Golden Key International Honor Society , yang mengakui prestasi akademik. Seseorang yang tidak dikenal telah mengedit namanya di daftar anggota.
Proses kemudian dilanjutkan dengan transformasi untuk menyiapkan data untuk pemodelan; sistem sumber biasanya sangat dinormalisasi dan memiliki informasi yang disimpan dalam beberapa tabel, sedangkan ilmuwan data menyukai tabel persegi tunggal untuk dianalisis. Mereka akan sering perlu menambahkan variabel turunan untuk membantu analisis mereka. Ini biasanya didefinisikan pada awalnya di lingkungan persiapan data ad-hoc oleh ilmuwan data, tetapi perlu dipindahkan ke lingkungan yang lebih terkontrol untuk tujuan produksi.
Dampak dari tahap transformasi data ini bisa sangat besar. Pertama, penting untuk memahami sumber data mana yang digunakan dalam analisis. Ini mungkin terkait dengan masalah peraturan seperti apakah data pribadi sedang digunakan, atau hanya untuk memastikan bahwa sumber data yang benar sedang diakses. Kedua, penting untuk memahami apakah transformasi telah tepat dan dilaksanakan dengan benar; kesalahan dalam implementasi bisa sama merusaknya dengan data berkualitas buruk.
Proses data terakhir yang berdampak langsung pada AI adalah penyebaran, memastikan bahwa data yang benar dimasukkan ke dalam model dan menggunakan hasilnya untuk membuat keputusan yang berdampak langsung pada kinerja organisasi. Model memiliki masa simpan yang pasti selama waktu tersebut mereka secara akurat memprediksi dunia nyata, jadi jika terlalu lama untuk menerapkan model ke dalam produksi, mereka tidak akan memberikan nilai penuhnya.
Proses penerapan yang terorganisir juga merupakan komponen penting untuk memenuhi persyaratan GDPR Pasal 22. Artikel ini mencegah penggunaan profil analitik pada data pribadi kecuali jika kondisi ketat dipatuhi (misalnya persetujuan lengkap). Penerapan terkontrol memungkinkan gambaran umum tentang data mana yang telah digunakan dalam proses AI dan model analitik mana yang telah diterapkan pada data pada satu waktu. Hal ini penting untuk menentukan apakah peraturan tersebut telah disusupi.
Secara keseluruhan, manajemen data sangat penting agar AI dapat mencapai potensi sebenarnya. Mampu memahami bagaimana pemrosesan data dicapai adalah bagian penting dalam menegakkan transparansi, salah satu pilar utama AI yang adil, tepercaya, dan efektif.
Penulis blog ini adalah David Smith, kepala Teknologi GDPR, SAS UK &Irlandia.