Bergabunglah dengan buletin harian dan mingguan kami untuk mendapatkan berita terkini dan konten eksklusif tentang liputan AI terkemuka di industri. Pelajari lebih lanjut
Peneliti di departemen AI mengembangkan sistem hemat sumber daya yang dapat menghasilkan ratusan model bahasa yang berspesialisasi dalam berbagai tugas. Ditelepon SiklusQDteknik ini menggunakan algoritma evolusioner untuk menggabungkan keterampilan model yang berbeda tanpa memerlukan proses pelatihan yang mahal dan lambat.
CycleQD dapat menciptakan sekumpulan agen khusus tugas yang menawarkan alternatif yang lebih berkelanjutan terhadap paradigma saat ini yaitu peningkatan ukuran model.
Memikirkan Kembali Pelatihan Model
Pola bahasa yang besar (LLM) telah menunjukkan kemampuan luar biasa dalam berbagai tugas. Namun, melatih LLM untuk memperoleh berbagai keterampilan masih menjadi tantangan. Saat menyempurnakan model, insinyur harus menyeimbangkan data dari keterampilan yang berbeda dan memastikan bahwa satu keterampilan tidak mendominasi keterampilan lainnya. Metode saat ini sering kali melibatkan pelatihan model yang semakin besar, sehingga menyebabkan peningkatan kebutuhan komputasi dan sumber daya.
“Kami percaya bahwa alih-alih bertujuan untuk membangun satu model besar yang mampu melakukan semua tugas dengan baik, pendekatan berbasis populasi untuk membangun berbagai model khusus mungkin menawarkan alternatif, cara yang lebih berkelanjutan untuk memperluas pengembangan agen AI dengan kemampuan tingkat lanjut.” “, tulis ilmuwan Sakana dalam postingan blog.
Membuat populasi modelpara peneliti mendapat inspirasi dari keragaman kualitas (QD), sebuah paradigma komputasi evolusioner yang bertujuan untuk menemukan beragam solusi dari sampel populasi awal. QD bertujuan untuk membuat instance dengan “karakteristik perilaku” (BC) berbeda yang mewakili domain keterampilan berbeda. Hal ini dicapai dengan menggunakan algoritma evolusioner (EA), yang memilih sampel awal dan menggunakan operasi crossover dan mutasi untuk menghasilkan sampel baru.
SiklusQD
CycleQD melibatkan QD dalam pelatihan LLM pasca pelatihan untuk membantu mereka memperoleh keterampilan baru yang menantang. CycleQD berguna ketika Anda memiliki beberapa model kecil yang telah disesuaikan untuk keterampilan yang sangat spesifik seperti pengkodean atau kinerja. basis data dan sistem operasi operasi dan ingin membuat variasi baru yang memiliki kombinasi berbeda dari keterampilan tersebut.
Dalam sistem CycleQD, masing-masing keterampilan ini dianggap sebagai karakteristik atau kualitas perilaku yang akan dioptimalkan oleh model generasi berikutnya. Pada setiap generasi, algoritme berfokus pada satu keterampilan tertentu sebagai metrik kualitasnya, dan menggunakan keterampilan lain sebagai BC.
“Hal ini memastikan bahwa setiap keterampilan terfokus, yang akan memungkinkan LLM tumbuh secara lebih seimbang dan mampu,” jelas para peneliti.
CycleQD dimulai dengan kumpulan LLM ahli, masing-masing berspesialisasi dalam satu keterampilan. Algoritme tersebut kemudian menerapkan operasi crossover dan mutasi untuk memasukkan populasi ke dalam model baru dengan kualitas lebih tinggi. Crossover menggabungkan karakteristik dua pola asli untuk menciptakan pola baru, sedangkan mutasi membuat perubahan acak pada pola untuk mengeksplorasi kemungkinan-kemungkinan baru.
Operasi crossover dibenarkan menghubungkan modelnyametode yang menggabungkan parameter dua LLM untuk membuat model baru dengan gabungan keterampilan. Ini adalah cara yang hemat biaya dan cepat untuk membuat model yang menyeluruh tanpa memerlukan penyesuaian.
Operasi mutasi menggunakan dekomposisi makna tunggal (SVD) adalah teknik faktorisasi yang memecah matriks apa pun menjadi komponen-komponen yang lebih sederhana agar elemen-elemennya lebih mudah dipahami dan dimanipulasi. CycleQD menggunakan SVD untuk memecah keterampilan model menjadi komponen atau keterampilan utama. Ketika keterampilan sekunder ini disempurnakan, proses mutasi menciptakan model yang mengeksplorasi kemungkinan-kemungkinan baru di luar model aslinya. Hal ini membantu mencegah model terjebak dalam pola yang dapat diprediksi dan mengurangi risiko overfitting.
Evaluasi kinerja CycleQD
Para peneliti menerapkan CycleQD pada kit tersebut Hubungi 3-8B model ahli diterapkan pada pengkodean, operasi basis data, dan operasi sistem operasi. Tujuannya adalah untuk melihat apakah pendekatan evolusioner dapat menggabungkan keterampilan ketiga model untuk menciptakan model yang lebih baik.
Hasilnya menunjukkan bahwa CycleQD mengungguli metode penyesuaian tradisional dan fusi pola dalam semua tugas yang dievaluasi. Khususnya, model yang dipasang pada semua kumpulan data hanya memiliki kinerja sedikit lebih baik dibandingkan model pakar keterampilan tunggal, meskipun telah dilatih dengan lebih banyak data. Selain itu, proses pelatihan tradisional jauh lebih lambat dan lebih mahal. CycleQD juga mampu membuat berbagai model dengan tingkat kinerja berbeda untuk tugas target.
“Hasil ini jelas menunjukkan bahwa CycleQD mengungguli metode tradisional dengan menunjukkan efektivitasnya dalam mengajar LLM untuk memperoleh berbagai keterampilan,” tulis para peneliti.
Para peneliti percaya bahwa CycleQD dapat memungkinkan pembelajaran seumur hidup dalam sistem AI, memungkinkan mereka untuk terus tumbuh, beradaptasi, dan mengumpulkan pengetahuan dari waktu ke waktu. Hal ini dapat berdampak langsung pada penerapan di dunia nyata. Misalnya, CycleQD dapat digunakan untuk terus menggabungkan keterampilan model ahli alih-alih melatih model besar dari awal.
Arah menarik lainnya adalah pengembangan sistem multi-agen, di mana sekumpulan agen khusus yang berevolusi melalui CycleQD dapat bekerja sama, bersaing, dan belajar satu sama lain.
“Dari penemuan ilmiah hingga penyelesaian masalah di dunia nyata, tim agen khusus dapat mendefinisikan kembali batasan AI,” tulis para peneliti.
Source link