Dapatkah Anda melakukannya lebih baik daripada model AI tingkat atas pada tes penglihatan dasar ini?
Apa pun yang Anda lakukan, jangan tanyakan kepada AI berapa banyak garis horizontal dalam gambar ini.
Memperbesar / Apa pun yang Anda lakukan, jangan tanyakan kepada AI berapa banyak garis horizontal dalam gambar ini.

Gambar Getty

Dalam beberapa tahun terakhir, kita telah melihat luar biasa kemajuan dalam sistem AI ketika menyangkut mengenali Dan menganalisa isi gambar yang rumit. Namun, sebuah makalah baru menyoroti betapa banyak “Model Pembelajaran Visi” (VLM) yang canggih sering gagal dalam tugas analisis visual tingkat rendah yang mudah dilakukan manusia.

Dalam makalah pra-cetak yang diberi judul provokatif “Model bahasa visi adalah buta (yang memiliki versi PDF yang termasuk emoji kacamata hitam dalam judul), para peneliti dari Universitas Auburn dan Universitas Alberta membuat delapan tes ketajaman penglihatan sederhana dengan jawaban yang benar secara objektif. Tes ini berkisar dari mengidentifikasi seberapa sering dua garis berwarna berpotongan hingga mengidentifikasi huruf mana dalam kata panjang yang telah dilingkari hingga menghitung berapa banyak bentuk bersarang yang ada dalam sebuah gambar (contoh dan hasil representatif dapat dilihat di dilihat di halaman web tim peneliti).

Yang terpenting, tes ini adalah dihasilkan oleh kode khusus dan tidak bergantung pada gambar atau tes yang sudah ada sebelumnya yang dapat ditemukan di Internet publik, sehingga “meminimalkan peluang VLM dapat menyelesaikan dengan menghafal,” menurut para peneliti. Tes tersebut juga “memerlukan pengetahuan dunia minimal hingga nol” di luar bentuk 2D dasar, sehingga sulit untuk menyimpulkan jawaban dari “pertanyaan dan pilihan tekstual saja” (yang telah diidentifikasi sebagai masalah untuk beberapa tolok ukur AI visual lainnya).

Apakah Anda lebih pintar dari siswa kelas lima?

Setelah menjalankan beberapa pengujian pada empat model visual yang berbeda—GPT-4o, Gemini-1.5 Pro, Sonnet-3, dan Sonnet-3.5—para peneliti menemukan bahwa keempatnya jauh di bawah tingkat akurasi 100 persen yang mungkin Anda harapkan untuk tugas analisis visual yang sederhana (dan yang tidak akan sulit dicapai oleh sebagian besar manusia yang memiliki penglihatan). Namun, ukuran kinerja AI yang buruk sangat bervariasi, tergantung pada tugas spesifiknya. Misalnya, ketika diminta untuk menghitung jumlah baris dan kolom dalam kotak kosong, model dengan kinerja terbaik hanya memberikan jawaban yang akurat kurang dari 60 persen dari waktu. Di sisi lain, Gemini-1.5 Pro mencapai akurasi hampir 93 persen dalam mengidentifikasi huruf yang dilingkari, mendekati kinerja tingkat manusia.

Bahkan perubahan kecil pada tugas juga dapat menyebabkan perubahan besar pada hasil. Sementara keempat model yang diuji mampu mengidentifikasi lima lingkaran berongga yang tumpang tindih dengan benar, akurasi di semua model turun hingga jauh di bawah 50 persen ketika melibatkan enam hingga sembilan lingkaran. Para peneliti berhipotesis bahwa ini “menunjukkan bahwa VLM bias terhadap logo Olimpiade yang terkenal, yang memiliki 5 lingkaran.” Dalam kasus lain, model terkadang berhalusinasi jawaban yang tidak masuk akal, seperti menebak “9,” “n”, atau “©” sebagai huruf yang dilingkari dalam kata “Subdermatoglyphic.”

Secara keseluruhan, hasil tersebut menyoroti bagaimana model AI yang dapat bekerja dengan baik pada penalaran visual tingkat tinggi memiliki beberapa “titik buta” yang signifikan (maaf) dalam hal gambar abstrak tingkat rendah. Semuanya agak mengingatkan pada kesenjangan kemampuan serupa yang sering kita lihat dalam model bahasa besar terkini, yang dapat membuat ringkasan yang sangat meyakinkan dari teks yang panjang sementara pada saat yang sama gagal dalam hal yang sangat mendasar. Matematika Dan ejaan pertanyaan.

Kesenjangan dalam kemampuan VLM ini dapat disebabkan oleh ketidakmampuan sistem ini untuk melakukan generalisasi di luar jenis konten yang secara eksplisit dilatihkan. Namun, ketika para peneliti mencoba menyempurnakan model menggunakan gambar tertentu yang diambil dari salah satu tugas mereka (uji “apakah dua lingkaran saling bersentuhan?”), model tersebut hanya menunjukkan peningkatan yang sederhana, dari akurasi 17 persen hingga sekitar 37 persen. “Nilai kerugian untuk semua eksperimen ini sangat mendekati nol, yang menunjukkan bahwa model tersebut terlalu sesuai dengan set pelatihan tetapi gagal melakukan generalisasi,” tulis para peneliti.

Para peneliti mengusulkan bahwa kesenjangan kemampuan VLM mungkin terkait dengan apa yang disebut “penggabungan akhir” encoder penglihatan ke model bahasa besar yang telah dilatih sebelumnya. Sebuah pendekatan pelatihan “fusi awal” yang memadukan pengodean visual di samping pelatihan bahasa dapat menghasilkan hasil yang lebih baik pada tugas tingkat rendah ini, demikian saran para peneliti (tanpa memberikan analisis apa pun mengenai pertanyaan ini).

Sumber