Manufaktur industri
Industri Internet of Things | bahan industri | Pemeliharaan dan Perbaikan Peralatan | Pemrograman industri |
home  MfgRobots >> Manufaktur industri >  >> Manufacturing Technology >> Teknologi Industri

AI Menghasilkan Gambar Makanan Selesai Dari Resep Sederhana Berbasis Teks

Menghasilkan gambar dari deskripsi visual singkat adalah tugas yang menantang dan memiliki banyak aplikasi dalam visi komputer. Studi terbaru membuktikan bahwa Generative Adversarial Networks (GAN) dapat secara efektif mensintesis gambar realistis berkualitas tinggi dengan resolusi rendah dan variabilitas rendah.

Kontribusi terbaru yang dibuat oleh tim peneliti di Universitas Tel Aviv, Israel, dapat membantu mempercepat penelitian di bidang ini. Mereka telah membangun model berbasis pembelajaran mendalam yang dapat secara otomatis membuat gambar dari deskripsi berbasis teks.

Secara khusus, mereka telah mendemonstrasikan sistem mereka yang menghasilkan gambar makanan jadi dari resep tertulis sederhana. Untuk melakukannya, sistem menggunakan kombinasi Stacked GAN yang canggih dan mempelajari penyematan lintas modal untuk resep memasak dan gambar makanan.

Jaringan Perlawanan Generatif Bersyarat

Pada dasarnya, GAN dibuat dari dua model (generator dan diskriminator) yang dilatih untuk saling bersaing. Generator dirancang untuk mensintesis gambar yang mirip dengan distribusi data asli, sedangkan tugas diskriminator adalah membedakan antara gambar asli dan sintetis.

Dalam karya ini, peneliti menggunakan GAN bersyarat di mana generator dan diskriminator dipaksa untuk mempertimbangkan kondisi tertentu. Mereka mengusulkan dua jenis teknik embedding:regularisasi semantik dan non-semantik. Teknik ini terdiri dari tiga langkah:

  1. Penyematan bahan dan petunjuk memasak awal.
  2. Gabungan penyisipan saraf dari seluruh resep.
  3. Integrasi kehilangan regularisasi semantik menggunakan tujuan klasifikasi tingkat tinggi.

GAN bersyarat dilatih pada 52.000 resep berbasis teks dan gambar yang sesuai. Ini dilatih menggunakan GPU NVIDIA TITAN X dengan perpustakaan CUDA Deep Neural Network. Setelah dilatih, sistem membuat gambar resep dari deskripsi panjang (yang tidak berisi informasi visual apa pun).

Referensi: arXiv:1901.02404 | Universitas Tel-Aviv

Evaluasi Manusia

Jaringan mengambil resep sebagai masukan dan membuat gambar (dari awal) yang paling mencerminkan deskripsi makanan berbasis teks. Apa yang benar-benar mengesankan di sini adalah sistem tidak memiliki akses ke judul resep — jika tidak, pekerjaan akan menjadi terlalu mudah — dan teks resep cukup panjang. Ini membuat tugas menjadi sulit bahkan untuk manusia.

Hormat peneliti

Untuk mengevaluasi gambar yang disintesis dengan lebih baik, tim meminta 30 orang untuk menilai gambar yang paling menarik pada skala 1 hingga 5. Mereka mempresentasikan 10 pasangan gambar yang dihasilkan (dipilih secara acak) yang dihasilkan oleh setiap teknik penyematan.

Hasil penelitian menunjukkan bahwa metode regularisasi non-semantik mengungguli regularisasi semantik dengan menghasilkan gambar yang lebih hidup dengan detail fotorealistik. Faktanya, beberapa orang merasa sangat sulit untuk membedakan antara gambar asli dan sintetis.

Baca:AI Dapat Menghasilkan Jutaan Kombinasi Artistik Untuk Hasil Fotorealistik

Apalagi kedua teknik penyematan berhasil menghasilkan gambar makanan 'mirip bubur' (seperti salad, sup, dan nasi) tetapi berjuang untuk membuat gambar makanan yang memiliki bentuk khas (seperti ayam, hamburger, dan minuman).


Teknologi Industri

  1. Sirkuit Sangat Sederhana
  2. Komputer yang Sangat Sederhana
  3. Op-Amp Sederhana
  4. Kunci Kombinasi Sederhana
  5. Resonansi Seri Sederhana
  6. Gambar 3D Pertama Dari Retak Mikroskopis Pada Paduan
  7. Mesin Baru Menghasilkan Listrik Dari Bola Salju
  8. Memperoleh Perangkat Lunak CMMS Sederhana
  9. Panduan Sederhana untuk Benchmarking Pemeliharaan
  10. Pustaka berbasis REST sederhana untuk menggunakan variabel di PLCnext AXC F 2152 PLC dari Python