Bergabunglah dengan buletin harian dan mingguan kami untuk mendapatkan berita terkini dan konten eksklusif tentang liputan AI terkemuka di industri. Pelajari lebih lanjut
Halusinasiatau tanggapan yang tidak akurat secara faktual terus mengganggu model bahasa besar (LLM). Model menjadi lemah ketika dihadapkan dengan tugas yang lebih kompleks dan ketika pengguna mencari jawaban yang spesifik dan sangat rinci.
Ini adalah tantangan yang sulit diatasi oleh para ilmuwan data, dan sekarang menjadi tantangan bagi para peneliti Google DeepMind mengklaim bahwa mereka selangkah lebih dekat dengan realisme sejati dalam model pondasi. Mereka memperkenalkan FACTS Grounding, sebuah tolok ukur yang menilai kemampuan LLM dalam menghasilkan jawaban faktual yang akurat berdasarkan dokumen jangka panjang. Model juga dievaluasi apakah tanggapannya cukup rinci untuk memberikan tanggapan yang berguna dan relevan terhadap petunjuk.
Bersamaan dengan tolok ukur baru, para peneliti merilis a papan peringkat FACTS Kaggle untuk komunitas ilmu data.
Gemini 2.0 Flash menduduki puncak papan peringkat minggu ini dengan skor aktualitas 83,6%. Lainnya di 9 teratas termasuk Google Gemini 1.0 Flash dan Gemini 1.5 Pro; Clade 3.5 Soneta Anthropic dan Claude 3.5 Haiku; dan pratinjau OpenAI GPT-4o, 4o-mini, o1-mini dan o1. Semuanya memiliki akurasi lebih dari 61,7%.
Para peneliti mengatakan bahwa papan peringkat akan dipelihara secara aktif dan terus diperbarui untuk menyertakan model-model baru dan iterasi yang berbeda.
“Kami percaya tolok ukur ini mengisi celah dalam mengukur variasi perilaku model yang lebih luas terkait dengan aktualitas dibandingkan dengan tolok ukur yang berfokus pada kasus penggunaan yang lebih sempit seperti generalisasi saja,” tulis para peneliti. makalah teknis diterbitkan minggu ini.
Menghilangkan jawaban yang salah
Memastikan akurasi sebenarnya Respons LLM rumit karena faktor pemodelan (arsitektur, pelatihan, dan inferensi) dan pengukuran (metodologi evaluasi, data, dan metrik). Para peneliti mencatat bahwa biasanya, pra-pelatihan dirancang untuk memprediksi token berikutnya berdasarkan token sebelumnya.
“Meskipun tujuan ini dapat melatih model untuk memperoleh pengetahuan penting tentang dunia, hal ini tidak secara langsung mengoptimalkan model untuk berbagai skenario dunia nyata, namun mendorong pembuatan model secara umum.” mungkin teks,” tulis para peneliti.
Untuk mengatasi hal ini, kumpulan data FACTS berisi 1.719 contoh – 860 contoh pemerintah dan 859 contoh swasta – yang masing-masing memerlukan tanggapan jangka panjang berdasarkan konteks dokumen yang diberikan. Setiap contoh meliputi:
- Prompt sistem (system_instruction) dengan arahan umum dan instruksi untuk merespons hanya sesuai dengan konteks yang diberikan;
- Tugas (permintaan_pengguna) berisi pertanyaan spesifik yang harus dijawab;
- Dokumen panjang (context_document) dengan informasi yang diperlukan.
Agar berhasil dan diberi label “target”, model harus memproses dokumen berdurasi panjang dan menghasilkan respons berdurasi panjang berikutnya yang lengkap dan dapat diatribusikan sepenuhnya pada dokumen tersebut. Jawaban ditandai sebagai “tidak akurat” jika pernyataan model tidak didukung langsung oleh dokumen dan tidak terlalu relevan atau berguna.
Misalnya, pengguna dapat meminta model untuk merangkum alasan utama mengapa pendapatan perusahaan turun pada kuartal ketiga dan memberinya informasi terperinci, termasuk laporan keuangan tahunan perusahaan, yang membahas pendapatan, pengeluaran, rencana investasi, dan analisis pasar kuartal tersebut. .
Jika model kemudian mengatakan, katakanlah, “Perusahaan menghadapi tantangan pada kuartal ketiga yang berdampak pada pendapatannya,” hal ini dianggap tidak akurat.
“Respon yang diberikan adalah menghindari menyebutkan alasan apa pun, seperti tren pasar, meningkatnya persaingan, atau kegagalan operasional, yang kemungkinan besar ada dalam dokumen tersebut,” kata para peneliti. “Ini tidak menunjukkan upaya untuk melibatkan atau mengekstraksi informasi yang relevan.”
Sebaliknya, jika pengguna bertanya, “Apa sajakah tips untuk menghemat uang?” dan memberikan serangkaian tips menghemat uang untuk mahasiswa, jawaban yang benar akan sangat rinci: “Manfaatkan kegiatan gratis di kampus, beli dalam jumlah besar, dan masak di rumah. Selain itu, tetapkan tujuan pengeluaran, hindari kartu kredit, dan hemat sumber daya.
DeepMind menggunakan LLM untuk mengevaluasi LLM
Untuk mengakomodasi beragam masukan, para peneliti memasukkan dokumen dengan panjang yang bervariasi, hingga 32.000 token (atau setara dengan 20.000 kata). Ini termasuk bidang-bidang seperti keuangan, teknologi, ritel, kedokteran dan hukum. Permintaan pengguna juga luas, termasuk pembuatan pertanyaan dan jawaban, permintaan ringkasan dan penulisan ulang.
Setiap sampel dievaluasi dalam dua tahap. Jawaban pertama-tama dinilai kesesuaiannya: jika tidak memenuhi pertanyaan pengguna, jawaban akan didiskualifikasi. Kedua, jawaban harus bebas dari halusinasi dan didukung penuh oleh dokumen yang disediakan.
Skor aktualitas ini dihitung oleh tiga juri LLM berbeda – khususnya Gemini 1.5 Pro, GPT-4o, dan Claude 3.5 Sonnet – yang memberikan skor individu berdasarkan persentase hasil model yang akurat. Selanjutnya, temuan akhir fakta didasarkan pada rata-rata nilai ketiga juri.
Para peneliti mencatat bahwa model tersebut sering kali bias terhadap anggota keluarga model lainnya (dengan peningkatan rata-rata sekitar 3,23 persen), sehingga kombinasi juri yang berbeda sangat penting untuk memastikan bahwa jawabannya memang benar.
Terakhir, para peneliti menekankan bahwa faktualitas dan latar belakang merupakan faktor kunci keberhasilan dan kegunaan LLM di masa depan. “Kami percaya bahwa teknik benchmarking yang komprehensif dikombinasikan dengan penelitian dan pengembangan yang sedang berlangsung akan terus memajukan sistem AI,” tulis mereka.
Namun mereka juga mengakui, “Kami menyadari bahwa kemajuan dapat dengan cepat melampaui tolok ukur, sehingga memperkenalkan tolok ukur dan papan peringkat FACTS Grounding kami hanyalah permulaan.
Source link