Diskusi tentang tolok ukur AI – dan cara AI Laboratories melaporkannya – temukan pendekatan publik.
Karyawan Openai minggu ini terdakwa Elon Musk Ai Ai Xai dari model AI terbaru Miss Greading. Igor Babushkin, salah satu pendiri XAI, dituntut bahwa perusahaan itu berada di sebelah kanan.
Kebenaran terletak di antara mereka.
A Posting blog XAIPerusahaan telah mengumumkan grafik yang menunjukkan Grok 3 Performance AIME 2025, kumpulan masalah matematika yang kompleks dari ujian matematika panggilan baru -baru ini. Beberapa ahli memiliki mempertanyakan validitas AIME sebagai tolok ukur; Namun demikian, AIME 2025 dan versi tes yang lebih lama biasanya digunakan untuk menentukan kemampuan matematika model.
Jadwal XAI menampilkan dua varian Grok 3, Grok 3 Reasoning Beta dan Gok 3 Mini Reasoning, mengatasi model OpenOS terbaik, O3-mini-tinggiAIME 2025. Tetapi staf OpenAI X dengan cepat menekankan bahwa grafik XAI tidak mengandung skor AIIME 2025 O3-mini-tinggi di Cons@64.
Apa itu kontra@64, Anda bisa bertanya? Nah, ini adalah consunsus singkat@64 dan pada dasarnya menyediakan model 64 yang mencoba menjawab setiap masalah dengan tolok ukur, dan jawaban yang biasanya dihasilkan sebagai jawaban akhir. Seperti yang dapat Anda bayangkan, kontra@64 cenderung meningkatkan model tolok ukur, dan jika itu terlihat dari grafik, satu model akan melampaui yang lain ketika ini bukan masalahnya.
GROK 3 Penalaran “beta” dan “gok 3 mini” penalaran “AIME 2025” skor@1-ini berarti skor pertama yang diterima model pada tolok ukur di bawah skor tinggi O3-mini. Grok 3 penalaran beta Model O1 Diatur ke dalam perhitungan “rata -rata”. Namun demikian, Xai Iklan “Grok 3” Sebagai “yang paling cerdas di dunia”.
Babuhkin berpendapat x “OpenAI” itu telah diumumkan di masa lalu dengan grafik referensi yang serupa – meskipun grafik yang membandingkan kinerja model mereka. Pesta diskusi yang lebih netral membentuk grafik “lebih akurat” yang menunjukkan kinerja hampir setiap model di CON@64:
Ceria ketika beberapa orang melihat alur cerita saya sebagai “terbuka” dan yang lainnya sebagai serangan terhadap lulusan
(Saya benar-benar percaya bahwa gram terlihat bagus di sana, dan chicanery TTC openai untuk o3-mini-*tinggi*-pass@”” “1 ″” “layak untuk memeriksa lebih banyak.) https://t.co/djqljpcjh8 pic.twitter.com/3wh8fouofic– Teasaxes ▶ 2025 20 Februari
Tapi sebagai peneliti AI Nathan Lambert mencatat catatan ituMungkin metrik yang paling penting tetap menjadi misteri: biaya penghitungan (dan uang), yang dibutuhkan masing -masing model untuk mencapai hasil terbaik. Ini hanya menunjukkan betapa sedikit benchmark AI melaporkan pembatasan model dan kekuatan mereka.