Kekuatan AI dalam otomasi industri
Pendekatan paling canggih untuk sistem robot yang sepenuhnya cerdas
AI (kecerdasan buatan) memungkinkan otomatisasi semakin banyak proses bisnis dan aplikasi industri. Cakupan dan kecepatan otomatisasi pintar secara langsung bergantung pada kemajuan AI dan karenanya telah mengalami lompatan besar ke depan dalam beberapa tahun terakhir. Dikombinasikan dengan visi mesin 3D yang kuat, AI memungkinkan robot untuk mengenali, melokalkan, dan menangani semua jenis objek dan dengan demikian mengotomatiskan tugas yang terlalu berbahaya, monoton, atau menuntut manusia.
Tapi apa yang dimaksud dengan AI dalam otomasi industri, bagaimana cara kerjanya, dan kemungkinan apa yang terbuka untuk pabrik dan bisnis yang berjuang untuk modernitas, inovasi, dan peningkatan produktivitas? Pertama-tama, mari kita lihat awal mula AI dan perkembangan bertahapnya.
Dari arsitektur pertama hingga jaringan neural konvolusional
Istilah AI dapat mewakili sejumlah kemampuan dan proses mesin – mulai dari statistik sederhana hingga pohon keputusan hingga jaringan neural, seperti jaringan neural konvolusional, atau bahkan pendekatan yang lebih canggih seperti pembelajaran penguatan.
Sejarah perkembangan AI menyaksikan beberapa pendekatan tetapi jaringan saraf terbukti paling menjanjikan dan menarik berkat kemampuannya untuk menggeneralisasi.
Pada tahun 1990-an dan awal 2000-an, jaringan saraf mendapat perhatian besar berkat aplikasi pengenalan karakter pertama yang berhasil yang mencakup pembacaan angka tulisan tangan dalam cek bank dan kode pos surat. Jaringan saraf ini dilatih pada apa yang disebut kumpulan data MNIST (singkatan dari Institut Standar dan Teknologi Nasional yang Dimodifikasi ), yang merupakan kumpulan digit tulisan tangan dari 0 hingga 9 yang digunakan dalam pembelajaran mesin dan visi mesin untuk melatih sistem pemrosesan gambar. Kumpulan data MNIST berfungsi sebagai dasar untuk algoritme klasifikasi pembandingan dan masih digunakan hingga saat ini untuk tujuan pelatihan dan pengujian.
Meskipun jaringan saraf klasik ini dapat mempelajari hampir semua hal, mereka mewakili arsitektur lama yang terhubung sepenuhnya dan melatih mereka membutuhkan banyak waktu dan usaha . Ini karena semua neuron dalam satu lapisan terhubung sepenuhnya ke neuron di lapisan berikutnya – yang berarti sejumlah besar parameter untuk dipelajari, meningkat seiring dengan ukuran gambar. Meskipun kinerja komputer meningkat dari waktu ke waktu, masih membutuhkan waktu lama untuk melatih pengenalan gambar kecil sekalipun.
Titik balik dalam pengembangan AI ditandai dengan diperkenalkannya jaringan saraf convolutional (CNN) . CNN terutama digunakan untuk menganalisis citra visual, termasuk klasifikasi gambar atau pengenalan pola , dan membentuk tulang punggung banyak sistem visi mesin modern. Bidang aplikasi utama lainnya adalah pemrosesan bahasa alami.
Sebuah CNN, dengan sangat longgar, terinspirasi oleh sistem korteks visual di otak. Gagasan utama di balik CNN bukan untuk menghubungkan semua neuron satu sama lain, seperti halnya dengan jaringan yang sepenuhnya terhubung, tetapi hanya dengan neuron tetangga untuk menciptakan kedekatan, karena input tetangga, seperti piksel, membawa informasi terkait. Ini berarti bahwa CNN dapat memiliki beberapa lapisan dan neuron dalam satu lapisan hanya terhubung ke neuron di lapisan berikutnya yang secara spasial dekat dengannya . Hal ini mengurangi kerumitan, jumlah neuron dalam jaringan, dan akibatnya juga jumlah parameter yang harus dipelajari. Berkat ini, CNN lebih cepat dilatih, membutuhkan lebih sedikit sampel, dan juga dapat diterapkan ke gambar yang lebih besar.
Istilah “konvolusional” mengacu pada proses pemfilteran di mana CNN mendeteksi pola. Masing-masing lapisan berbelit , yaitu gabungkan , masukkan dan teruskan hasilnya ke lapisan berikutnya.
Kemajuan dalam pengembangan CNN juga telah dipercepat oleh kemajuan dalam graphics processing unit (GPU). Performa dan kekuatan kalkulasi mereka telah meningkat pesat selama beberapa tahun terakhir, membuka kemungkinan baru untuk melatih CNN.
Salah satu pemimpin yang paling dikenal di bidang AI, sering disebut sebagai “Godfather of AI”, adalah Geoffrey Hinton . Dia memiliki gelar dalam psikologi eksperimental dan kecerdasan buatan. Kombinasi ini memberinya wawasan luar biasa tentang cara melatih jaringan saraf tiruan.
Pada tahun 2012 muridnya Alex Krizhevsky menandai titik balik lain dalam AI ketika dia membuat CNN yang mampu meniru cara otak manusia mengenali objek. CNN bernama AlexNet dan untuk pertama kalinya dalam sejarah memungkinkan mesin untuk mengidentifikasi objek seperti seseorang.
Terobosan ini mempopulerkan jaringan saraf convolutional dan menunjukkan sejumlah besar aplikasi di mana CNN dapat digunakan.
Melatih jaringan neural konvolusional
Dalam pengenalan objek, CNN harus memiliki properti yang disebut invarian . Ini berarti bahwa penerjemahan, sudut pandang, ukuran, atau iluminasi tidak berubah untuk dapat menginterpretasikan pola input dan mengklasifikasikan objek terlepas dari tempat dan cara penempatannya dalam gambar. Untuk mencapai ini, CNN perlu dilatih tentang sejumlah contoh. Salah satu praktik terbaik untuk meningkatkan jumlah data yang relevan dalam set data adalah augmentasi data .
Augmentasi adalah praktik memodifikasi data input, yaitu gambar asli, untuk menghasilkan beberapa versi lain yang sedikit diubah. Teknik augmentasi mencakup pembalikan horizontal atau vertikal, rotasi, penskalaan, pemotongan, pemindahan gambar sepanjang arah X atau Y, dan lainnya.
Melatih CNN pada data yang diubah membuat neuronnya kebal terhadap augmentasi semacam itu dan mencegahnya mempelajari pola yang tidak relevan. Dengan demikian, burung beo yang terbalik akan tetap dikenali sebagai burung beo.
Apa yang sangat berguna di sini disebut pembelajaran transfer . Untuk menghilangkan jumlah data pelatihan, seseorang dapat menggunakan jaringan yang sudah ada dan sudah terlatih dan menerapkan beberapa filternya untuk mengenali jenis objek baru. Misalnya, jaringan yang dilatih untuk mengenali anjing juga dapat digunakan untuk mengenali kucing dengan mempertahankan beberapa filternya dan hanya memodifikasi bagian tertentu saja. Artinya, jaringan akan beradaptasi dengan pengenalan kucing.
Manfaat jaringan neural konvolusional modular
Nilai besar CNN terletak pada arsitekturnya dan fakta bahwa masing-masing modul melihat blok gambar tunggal. Modul tidak perlu dilatih secara bersamaan dan dapat digabungkan dengan mudah. Menggabungkan modul-modul yang terlatih dengan baik ini memunculkan arsitektur kompleks yang dapat digunakan untuk segmentasi .
Berbeda dengan AlexNet, yang hanya dapat mengenali apa yang ada di gambar, CNN kompleks ini dapat melakukan segmentasi objek dan menentukan lokasi objek di gambar .
Modularitas ini memungkinkan seseorang untuk menggunakan berbagai saluran input, yang berarti bahwa jika CNN digunakan untuk data hitam putih, dapat juga digunakan untuk data warna, dan jika digunakan untuk data warna, dapat diperluas dengan informasi kedalaman. Menambahkan informasi tambahan akan meningkatkan kinerja CNN , which includes increased accuracy and better recognition of objects and their positions.
From object recognition to smart automation solutions
Based on the above features and characteristics of convolutional neural networks, Photoneo took CNNs as a basis for its advanced robotic intelligence systems and automation solutions .
Photoneo’s CNN works with black &white data, color data, as well as depth information. The algorithms are trained on a large dataset of objects and if they come across new types of items, they can quickly generalize, that is, recognize and classify objects which it has not “seen” before.
Let’s take the concept of a box, for instance. The algorithms were trained on a large dataset of boxes so they understand that a box has a certain amount of faces, edges, and vertices. This principle will also work for boxes that the algorithms have not come across before, even squeezed or damaged ones. The greatest value of AI lies in the fact that it can generalize concepts that it was trained on without further retraining.
This enables Photoneo systems to recognize items of various shapes, sizes, colors, or materials – a robotic ability used for the localization and handling of mixed objects, including organic items such as fruit or fish, sorting of parcels, unloading of pallets laden with boxes, and many other industrial applications.
It might also happen that the algorithms come across objects with features that are fundamentally different from those the algorithms were trained on. This might confuse the CNN and cause a decrease in its performance. What can be done to solve this problem is either to prevent it by expecting exotic objects or to have a good retraining system. In the latter case, the performance will be temporarily lower but the CNN will be retrained to reach full performance rather quickly.
In case a customer needs to pick unusual items or non-commercial products such as industrial components, the CNN can be trained on a specific dataset containing these exotic items .
When it comes to the realization of a customer project, the customer receives Photoneo’s CNN for pilot testing and a feasibility study to ensure that the network can be used for that particular application. This CNN can then be improved and further trained on images from the pilot phase of the project, which will provide greater variability.
The greatest challenge in AI-powered object recognition and picking
The greatest challenge could also be described as the last puzzle piece that was missing in the range of pickable objects. This last piece was bags .
The difficulty lies in the nature of bags since they are extremely deformable and full of wrinkles, folds, and other irregularities. Despite the challenges that bags pose to AI, Photoneo developed a system that is able to recognize and pick bags, may they be full, half-empty, colored, transparent, or semi-transparent. This task is often challenging even for the human eye, which may find it difficult to recognize boundaries between bags that are chaotically placed in a container, especially if they are transparent.
However, good recognition and localization of bags are only part of the precondition for successful object picking. The other part relates to the mechanical side of an application – the robot gripper. The fact that bags are full of folds and wrinkles increases the risk that they will fall off the gripper. This risk can be prevented by using an appropriate vacuum gripper with feedback.
Future developments of AI
Despite significant advancements that have been made in AI in recent years, the field still offers a vast space for new achievements. For instance, so-called reinforcement learning receives great attention as it seems to be very promising in suggesting complex movements, for instance allowing a robot to adjust the position of an item before grasping it.
Reinforcement learning is not only able to cope with object recognition but also with mechanical problems of an application. This means that it not only enables a system to recognize items but also assess the individual steps of a robot action on the basis of rewards and punishments and “calculate” the chance of success or failure . In other words, AI algorithms are trained to make a sequence of decisions that will lead to actions maximizing the total reward. An example of the power of reinforcement learning is mastering and winning the board game of Go.
Despite its immense potential, reinforcement learning is closely linked to the environment it is set in and to the limitations it may pose. For example, the deployed gripper and its functionalities and limitations will always influence a system’s overall performance.
AI is the main driver of emerging technologies and its developments will be very dependent on a number of factors, including market demands, customer expectations, competition, and many others.