Demo agen AI mungkin tampak menakjubkan, tetapi membuat teknologi bekerja dengan andal dan tanpa kesalahan yang mengganggu atau merugikan dalam kehidupan nyata dapat menjadi sebuah tantangan. Model saat ini dapat menjawab pertanyaan dan berkomunikasi dengan keterampilan yang hampir mirip manusia dan merupakan tulang punggung chatbot seperti ChatGPT OpenAI dan Gemini Google. Mereka juga dapat melakukan tugas di komputer ketika diberi perintah sederhana dengan mengakses layar komputer serta perangkat input seperti keyboard dan trackpad atau melalui antarmuka perangkat lunak tingkat rendah.

Anthropic mengatakan bahwa Claude mengungguli agen AI lainnya dalam beberapa tolok ukur utama termasuk bangku SWEyang mengukur keterampilan pengembangan perangkat lunak agen dan OSDuniayang mengukur kapasitas agen untuk menggunakan sistem operasi komputer. Klaim tersebut belum diverifikasi secara independen. Anthropic mengatakan Claude melakukan tugas di OSWorld dengan benar 14,9 persen. Angka ini jauh di bawah manusia, yang umumnya mendapat skor sekitar 75 persen, namun jauh lebih tinggi dibandingkan agen terbaik saat ini, termasuk GPT-4 OpenAI, yang berhasil mencapai sekitar 7,7 persen.

Anthropic mengklaim bahwa beberapa perusahaan sudah menguji Claude versi agen. Ini termasuk kanvasyang menggunakannya untuk mengotomatiskan tugas desain dan pengeditan dan Membalasyang menggunakan model untuk mengkodekan tugas-tugas. Pengguna awal lainnya termasuk Perusahaan Peramban, Asana Dan Gagasan.

Tentang persseorang peneliti postdoctoral di Universitas Princeton yang membantu mengembangkan SWE-bench, mengatakan bahwa AI agen cenderung kurang memiliki kemampuan untuk membuat rencana jauh ke depan dan sering kesulitan untuk pulih dari kesalahan. “Untuk menunjukkan manfaatnya, kita harus memperoleh kinerja yang kuat pada tolok ukur yang tangguh dan realistis,” katanya, seperti merencanakan berbagai perjalanan dengan andal bagi pengguna dan memesan semua tiket yang diperlukan.

Kaplan mencatat bahwa Claude sudah dapat memecahkan beberapa kesalahan dengan sangat baik. Ketika dihadapkan pada kesalahan terminal saat mencoba memulai server web, misalnya, model mengetahui cara merevisi perintahnya untuk memperbaikinya. Ternyata ia harus mengaktifkan popup ketika menemui jalan buntu saat menjelajahi web.

Banyak perusahaan teknologi kini berlomba mengembangkan agen AI untuk mengejar pangsa pasar dan keunggulan. Faktanya, mungkin tidak lama lagi banyak pengguna akan memiliki agen di ujung jari mereka. Microsoft, yang telah menggelontorkan lebih dari $13 miliar untuk OpenAI, menyatakan hal tersebut agen pengujian yang dapat menggunakan komputer Windows. Amazon, yang telah banyak berinvestasi di Anthropic, adalah mengeksplorasi bagaimana agen dapat merekomendasikan dan akhirnya membeli barang untuk pelanggannya.

Sonya Huang, partner di perusahaan ventura Sequoia yang berfokus pada perusahaan AI, mengatakan meskipun banyak kegembiraan seputar agen AI, sebagian besar perusahaan sebenarnya hanya melakukan rebranding pada alat yang didukung AI. Berbicara kepada WIRED sebelum berita Anthropic, dia mengatakan bahwa teknologi saat ini bekerja paling baik ketika diterapkan dalam domain sempit seperti pekerjaan yang berhubungan dengan pengkodean. “Anda harus memilih ruang bermasalah yang jika modelnya gagal, tidak apa-apa,” katanya. “Itu adalah ruang masalah di mana perusahaan agen asli akan muncul.”

Tantangan utama AI agen adalah bahwa kesalahan bisa jauh lebih bermasalah dibandingkan balasan chatbot yang kacau. Anthropic telah memberikan batasan tertentu pada apa yang dapat dilakukan Claude, misalnya membatasi kemampuannya menggunakan kartu kredit seseorang untuk membeli barang.

Jika kesalahan dapat dihindari dengan baik, kata Press dari Universitas Princeton, pengguna dapat belajar melihat AI—dan komputer—dengan cara yang benar-benar baru. “Saya sangat gembira dengan era baru ini,” katanya.