Cara menghindari jebakan dengan proyek analisis data
Sebuah studi Capgemini baru-baru ini menemukan bahwa 15% inisiatif big data di Eropa gagal. Untuk memastikan proyek Anda termasuk dalam 85% yang berhasil, saya telah merangkum empat perangkap utama yang harus diwaspadai. (Pos blog ini berisi dua perangkap pertama, dua lainnya akan dipublikasikan di entri blog yang berbeda.)
Menyadari hal ini dan mempertimbangkannya akan secara signifikan meningkatkan peluang proyek analitik data Anda menjadi sukses. Jangan khawatir:Anda bukan satu-satunya yang menghadapi tantangan dan jebakan ini. Dalam lokakarya analisis data awal kami, kami secara teratur melihat peserta yang menemui mereka, hingga akhir proyek. Di sini saya ingin berbagi wawasan dengan Anda dari banyak lokakarya dan proyek yang sukses, menunjukkan perangkap utama, dan mengilustrasikannya dengan contoh kasus penggunaan.
1. Pemrakarsa – TI vs. departemen
Analisis data dan data besar bukanlah satu dan sama – meskipun sering digunakan secara bergantian.
Departemen TI sering melihat proyek melalui "kacamata data besar". Mereka menyediakan infrastruktur untuk mengumpulkan data dalam jumlah besar; misalnya dalam bentuk database cluster. Basis data ini menyimpan volume data yang sangat besar, yang dengan sendirinya tidak menciptakan nilai tambah bagi perusahaan. Itulah mengapa proyek analisis data harus selalu memiliki tujuan teknologi dan komersial yang jelas. Mengumpulkan data hanya untuk kepentingan itu tidak membawa keuntungan sama sekali bagi perusahaan.
Nilai tambah hanya muncul ketika perusahaan memanfaatkan data dan wawasan yang dihasilkan. Di sinilah departemen (non-administratif) masuk. Mereka menentukan tujuan apa yang ingin mereka capai dengan analisis data – bukan dengan data besar. Mereka memberikan pemahaman teknis yang memungkinkan ilmuwan data untuk bekerja dengan data dengan cara yang ditargetkan. Oleh karena itu, kerjasama yang erat antara penyedia ide (departemen) dan ilmuwan data merupakan keharusan mutlak untuk mencapai tujuan proyek yang ditentukan.
Dengan kata lain:keberhasilan atau kegagalan proyek analitik data bergantung pada apa dan seberapa banyak pemahaman proses teknis diteruskan ke ilmuwan data. Insinyur analitik data juga memainkan peran penting di sini. Mereka mendukung "penerjemahan" dan transfer pengetahuan antara berbagai disiplin ilmu. Insinyur analitik data memanfaatkan pengalaman operasional mereka di bidang manufaktur atau logistik dan pemahaman dasar yang baik tentang pendekatan analitik data. Pakar data tidak hanya harus memahami tujuan proyek, tetapi juga dan khususnya korelasi dalam data. Lebih penting lagi, mereka harus melihat hubungannya dengan dunia nyata (mesin, sensor, dll.) dan langkah-langkah proses terkait.
Seperti yang ditunjukkan oleh studi Capgemini, departemen TI sering menjadi penggagas proyek analitik data. Ini sendiri tidak menjadi masalah, selama departemen lain terlibat erat dan menentukan tujuan teknis proyek.
2. Tidak semua data dibuat sama
Proyek dimulai, tujuannya ditentukan – pergi!
Berhenti!
Sebelum data scientist dapat memulai, Anda perlu memverifikasi kualitas dan kuantitas data.
a) Kualitas data
Di sini penting untuk mempertimbangkan dalam format apa data tersedia, di mana mencari data apa, dan apakah data tersebut transparan di berbagai sumber.
Contoh:
Untuk mengintegrasikan kumpulan data dari beberapa sumber, Anda memerlukan pengenal unik yang memungkinkan data disusun dengan benar. Ini mungkin cap waktu atau nomor bagian, misalnya. Menggunakan stempel waktu membuat integrasi menjadi lebih rumit jika format tanggal/waktu yang berbeda digunakan dalam sumber data individual (format tanggal Jerman vs. AS, waktu dalam UTS, dll.); namun, itu masih mungkin. Sebaliknya, hampir tidak mungkin jika basis waktu yang berbeda digunakan. Ini adalah kasus di mana tidak ada sinkronisasi waktu seragam yang menghasilkan cap waktu untuk semua sumber data.
b) Jumlah data
Semakin banyak, semakin baik – begitulah kata pepatah. Tetapi sehubungan dengan analitik data, ini hanya sebagian benar. Secara umum, tentu saja, semakin banyak data yang Anda miliki, semakin baik. Namun di sini juga, ada sejumlah aspek penting yang perlu dipertimbangkan.
Bergantung pada definisi tujuan teknis, mungkin, misalnya, penting agar data yang mendasari tidak hanya berisi hasil positif, tetapi juga sejumlah hasil negatif yang memadai.
Contoh:memprediksi hasil negatif
Jika tujuan proyek adalah mengembangkan model untuk memprediksi hasil negatif, kumpulan data pelatihan yang digunakan untuk melatih model prediksi harus berisi jumlah hasil negatif yang cukup. Jika tidak, model tidak dapat mempelajari hasil negatif ini dan karenanya tidak akan mampu memprediksinya – akibatnya, Anda tidak dapat mencapai tujuan proyek dengan kumpulan data ini! Untuk alasan ini, saat mengompilasi kumpulan data pelatihan, Anda harus memastikan bahwa data tersebut berisi jumlah parameter yang cukup untuk diprediksi (variabel target) – dalam contoh di atas, hasil negatif. Salah satu cara untuk mencapainya adalah dengan memperluas periode waktu pengumpulan data.
c) Data yang “benar”
Jadi jelas bahwa kuantitas data bukanlah satu-satunya kriteria. Yang terpenting, Anda membutuhkan data yang tepat!
Apa yang kami maksud dengan “data yang benar”?
Data harus berisi informasi relevan yang diperlukan untuk mencapai tujuan proyek teknis. Jika, misalnya, Anda ingin mengembangkan model untuk memprediksi kualitas produk seperti yang didefinisikan oleh pengukuran kekasaran permukaan, variabel ini harus direpresentasikan dalam kumpulan data. Jika Anda melakukan pengukuran tanpa kemudian menyimpan nilai terukur, Anda tidak akan dapat mengembangkan model yang sesuai. Ini juga bukan masalah yang tidak dapat dipecahkan, tetapi dapat menunda kemajuan karena basis data yang memadai harus dibuat terlebih dahulu (misalnya dengan bantuan teknologi sensor tambahan, menyimpan data yang relevan, dll.).
Siapa yang akan memastikan bahwa proyek analisis data Anda akan berhasil?
Sumber:Bosch.IO
Untuk membantu para ahli mencapai a), b), dan c), kami telah mengambil pengalaman yang kami peroleh di banyak proyek yang sukses dan menggabungkannya dalam pedoman kualitas data, yang kami berikan di awal proyek. Kami juga menangani topik ini dalam lokakarya awal dengan mengidentifikasi kasus penggunaan yang akan memberikan kemenangan cepat. Dengan cara ini, kami meningkatkan kesadaran pakar manufaktur tentang topik ini, yang selalu terbukti menjadi keuntungan nyata untuk langkah selanjutnya dalam proses.