Alibaba Cloud | cover |
QVQ adalah model bobot terbuka untuk penalaran multimoda yang telah memberikan kinerja luar biasa di berbagai tolok ukur. Khususnya, model ini mencapai skor mengesankan sebesar 70,3% pada tolok ukur Multimodal Massive Multi-task Understanding (MMMU), yang menggarisbawahi pemahaman multidisiplin dan kemampuan penalarannya yang kuat.
Selain itu, QVQ menunjukkan kemajuan signifikan dalam MathVision, satu set uji penalaran matematika multimoda dengan hasil yang melampaui pendahulunya, model Qwen2-VL-72B.
"Kinerjanya yang luar biasa pada tolok ukur OlympiadBench, satu set uji tolok ukur sains multimoda dwibahasa tingkat kompetisi Olimpiade, semakin menyoroti kemampuan QVQ untuk mengatasi masalah yang kompleks dan menantang secara efektif," tulis perusahaan raksasa China itu di laman resminya, dikutip (4/1/2025).
Melalui penalaran langkah demi langkah, QVQ menunjukkan kemampuan yang lebih baik dalam tugas penalaran visual, khususnya dalam skenario yang menuntut pemikiran analitis tingkat lanjut.
Namun, meskipun kinerjanya menjanjikan, QVQ memiliki keterbatasan tertentu. Misalnya, selama penalaran visual multi-langkah, model tersebut dapat secara bertahap kehilangan fokus pada konten gambar, yang dapat menyebabkan halusinasi.
Bulan lalu, Alibaba Cloud merilis model penalaran AI QwQ (Qwen with Questions). Versi QwQ-32B-Preview yang dirilis , model penelitian eksperimental sumber terbuka dengan 32 miliar parameter, memamerkan kemampuan analitis yang mengesankan dan unggul dalam memecahkan masalah kompleks dalam matematika dan pemrograman.
"Saat ini, lebih dari 78.000 model turunan telah dikembangkan di Hugging Face berdasarkan keluarga model Qwen sejak pertama kali dijadikan sumber terbuka pada tahun 2023, yang menunjukkan posisinya sebagai salah satu model sumber terbuka yang paling banyak diadopsi secara global," ungkapnya.