Tim robotika Google DeepMind sedang mengajarkan robot untuk belajar seperti seorang intern manusia: dengan menonton video. Tim ini telah menerbitkan sebuah makalah baru yang menunjukkan bagaimana robot RT-2 milik Google yang dilengkapi dengan model AI generatif Gemini 1.5 Pro dapat menyerap informasi dari video untuk belajar beradaptasi dan bahkan menjalankan permintaan di tujuan mereka.
Berkat jendela konteks panjang dari model Gemini 1.5 Pro, melatih robot seperti seorang intern baru menjadi mungkin. Jendela ini memungkinkan AI memproses sejumlah besar informasi secara bersamaan. Para peneliti akan merekam video tur di area yang ditentukan, seperti rumah atau kantor. Kemudian, robot akan menonton video tersebut dan belajar tentang lingkungan tersebut.
Detail dalam video tur memungkinkan robot menyelesaikan tugas berdasarkan pengetahuan yang dipelajarinya, menggunakan keluaran verbal dan gambar. Ini adalah cara yang mengesankan untuk menunjukkan bagaimana robot dapat berinteraksi dengan lingkungannya dengan cara yang mirip dengan perilaku manusia. Anda dapat melihat bagaimana cara kerjanya dalam video di bawah ini, serta contoh berbagai tugas yang mungkin dilakukan oleh robot.
Keahlian AI Robot
Demonstrasi tersebut bukan kejadian langka. Dalam pengujian praktis, robot yang didukung Gemini beroperasi dalam area seluas 9.000 kaki persegi dan berhasil mengikuti lebih dari 50 instruksi pengguna dengan tingkat keberhasilan 90 persen. Tingkat akurasi yang tinggi ini membuka banyak potensi penggunaan robot bertenaga AI di dunia nyata, membantu di rumah dengan pekerjaan rumah tangga atau di tempat kerja dengan tugas-tugas menial atau bahkan lebih kompleks.
Salah satu aspek yang paling menonjol dari model Gemini 1.5 Pro adalah kemampuannya untuk menyelesaikan tugas multi-langkah. Penelitian DeepMind menemukan bahwa robot dapat mengetahui cara menjawab pertanyaan seperti apakah ada minuman tertentu dengan menavigasi ke lemari es, memproses secara visual apa yang ada di dalamnya, dan kemudian kembali dan menjawab pertanyaan tersebut.
Ide merencanakan dan melaksanakan seluruh rangkaian tindakan menunjukkan tingkat pemahaman dan eksekusi yang melampaui standar saat ini dari perintah satu langkah untuk sebagian besar robot.
Namun, jangan berharap untuk melihat robot ini dijual dalam waktu dekat. Sebab, dibutuhkan hingga 30 detik untuk memproses setiap instruksi, yang jauh lebih lambat daripada melakukan sesuatu sendiri dalam kebanyakan kasus. Kekacauan di rumah dan kantor nyata akan jauh lebih sulit dinavigasi oleh robot daripada lingkungan yang terkendali, tidak peduli seberapa canggih model AI-nya.