Bergabunglah dengan buletin harian dan mingguan kami untuk mendapatkan berita terkini dan konten eksklusif tentang liputan AI terkemuka di industri. Pelajari lebih lanjut


Fase berikutnya dari agen AI mungkin hanya evaluasi dan pemantauan, karena perusahaan ingin agen yang mereka mulai terapkan agar lebih terlihat.

Meskipun Tolok ukur untuk agen AI bisa menyesatkansangat berguna untuk melihat apakah agen bekerja sesuai keinginan Anda. Untuk mencapai tujuan ini, perusahaan mulai menawarkan platform di mana pelanggan dapat melakukan sandbox pada agen AI atau mengevaluasi kinerja mereka.

Tenaga Penjualan pada hari Rabu merilis Agentforce Testing Center, sebuah platform evaluasi agen, untuk masa percobaan terbatas. Ketersediaan umum diharapkan pada bulan Desember. Pusat pengujian ini memungkinkan perusahaan untuk mengamati dan membuat prototipe agen AI untuk memastikan mereka mencapai alur kerja dan data yang diperlukan.

Kemampuan Pusat Pengujian baru mencakup pengujian yang didukung AI untuk Agentforce, pengujian Sandbox untuk Agentforce dan Data Cloud, serta pemantauan dan pelacakan Agentforce.

Pengujian yang dihasilkan AI memungkinkan perusahaan menggunakan model AI untuk menciptakan “ratusan interaksi sintetik” untuk menguji apakah agen sering merespons sesuai keinginan perusahaan. Seperti namanya, sandbox menawarkan lingkungan terisolasi bagi agen untuk melakukan pengujian sekaligus mencerminkan data perusahaan agar lebih mencerminkan cara agen bekerja untuk mereka. Pelacakan dan penelusuran memungkinkan perusahaan untuk melakukan sandbox pada jejak audit ketika agen mulai berproduksi.

Patrick Stokes, wakil presiden eksekutif pemasaran produk dan industri di Salesforce, mengatakan kepada VentureBeat bahwa pusat pengujian adalah bagian dari kelas agen baru yang disebut perusahaan sebagai Agent Lifecycle Management.

“Kami mengidentifikasi apa yang kami pikir akan menjadi subkategori agen baru yang besar,” kata Stokes. “Ketika kita berbicara tentang siklus hidup, yang kami maksud adalah keseluruhan mulai dari awal hingga pengembangan hingga penerapan, dan kemudian iterasi penerapan seiring berjalannya waktu.”

Stokes mengatakan Pusat Tes saat ini tidak memiliki wawasan terkait alur kerja di mana pengembang dapat melihat API tertentu, pilihan data, atau model agen yang digunakan. Namun, Salesforce mengumpulkan data tersebut di Einstein Trust Layer-nya.

“Kami sedang membangun alat pengembang untuk memaparkan metadata tersebut kepada pelanggan kami sehingga mereka benar-benar dapat menggunakannya untuk membangun agen mereka sendiri dengan lebih baik,” kata Stokes.

Salesforce bergantung pada agen AI dengan mencurahkan banyak energi untuk mereka penawaran agen Agentforce. Pelanggan Salesforce dapat menggunakan agen yang telah ditentukan sebelumnya atau membuat agen khusus di Agentforce untuk terhubung ke instans mereka.

Mengevaluasi agen

Agen AI menyentuh banyak titik dalam suatu organisasi, dan ekosistem agen yang baik bertujuan untuk mengotomatiskan sebagian besar alur kerja dan memastikan bahwa alur kerja tersebut berfungsi dengan baik. menjadi penting.

Jika agen memutuskan untuk menggunakan API yang salah, hal ini dapat menimbulkan bencana bagi bisnis. Agen AI bersifat stokastik, sama seperti model yang mengendalikannya, dan mempertimbangkan setiap kemungkinan yang mungkin terjadi sebelum memberikan hasil. Stokes mengatakan Salesforce menguji agen dengan memblokir agen dengan versi pernyataan atau pertanyaan yang sama. Responsnya dievaluasi sebagai lulus atau gagal, sehingga memungkinkan agen untuk belajar dan meningkatkan diri dalam lingkungan aman yang dapat dikontrol oleh pengembang.

Platform yang membantu perusahaan mengevaluasi agen AI dengan cepat menjadi jenis penawaran produk baru. Juni perusahaan AI pengalaman pelanggan Sierra meluncurkan tolok ukur agen kecerdasan buatan memanggil bangku TAU untuk melihat aktivitas agen wawancara. Perusahaan otomasi Jalur Ui melepaskan miliknya Platform Agent Builder pada bulan Oktober yang juga memberikan kesempatan untuk mengevaluasi kinerja agen sebelum penerapan penuh.

Menguji aplikasi AI bukanlah hal baru. Banyak repositori model AI, seperti AWS Bedrock dan Microsoft Azure, telah memungkinkan pelanggan menguji model batuan dasar dalam lingkungan terkendali untuk melihat mana yang paling sesuai untuk kasus penggunaan mereka, selain melakukan tolok ukur kinerja model.


Source link