AI terbuka diumumkan awal pekan ini bahwa sebagian besar pengguna harus melakukannya tunggu sampai musim gugur untuk mendapatkan akses ke fitur Suara Tingkat Lanjut GPT-4otetapi tampaknya beberapa orang yang beruntung mendapat kesempatan mengintip apa saja yang mungkin dilakukan dengan asisten suara generasi berikutnya.
Pengguna reddit RozziSang Pencipta adalah salah satu dari sedikit orang yang beruntung. Mereka membagikan rekaman baru Suara GPT-4o kita belum pernah mendengar cerita horor sebelumnya, lengkap dengan efek suara yang terkait dengan cerita seperti guntur dan langkah kaki. Penulis AI Sambhav Gupta pertama kali menyorot klip di Xmembawanya ke perhatian yang lebih luas.
Tampaknya Rozzi mendapatkan akses adalah sebuah kesalahan. OpenAI memberi tahu saya dalam pernyataannya bahwa beberapa pengguna diberi akses ke model secara tidak sengaja, tetapi hal ini sekarang telah diperbaiki.
Apa yang bisa kita dengar di video yang bocor?
Setiap video yang kami miliki tentang suara tingkat lanjut GPT-4o sejauh ini berada di bawah kendali OpenAI, dan meskipun kedengarannya menakjubkan, hal itu terbatas pada kasus penggunaan tertentu.
Video baru oleh RozziTheCreator tampaknya memperlihatkan kemampuan tersebut dengan cara yang lebih alami, termasuk fitur efek suara yang belum pernah kita dengar sebelumnya.
Bayangkan ini, ada sebuah kota kecil, semua orang saling kenal dalam video dan ada sebuah rumah kecil di ujung jalan.
GPT-4o
Saya mengirim pesan kepada RozziTheCreator tentang pengalaman tersebut dan mereka berkata: “Tiba-tiba muncul, memang terlihat sama, satu-satunya perbedaan adalah suaranya.” Penemuan ini terjadi pada larut malam ketika RozziTheCreator mencoba mengajukan pertanyaan kepada chatbot: “Boom, saya menemukan perubahannya.”
Itu hanya berlangsung beberapa menit dan, menurut RozziTheCreator, “itu sangat bermasalah” sehingga tidak ada waktu untuk mengeluarkan banyak hal, tetapi mereka berhasil merekam cuplikan dari cerita yang luar biasa ini.
“Saya mulai jadi gila mengulang-ulang dan membalas hal-hal yang tidak saya katakan,” menurut RozziTheCreator, sebelum kembali ke suara dasar normal yang sudah bisa digunakan semua orang.
Dalam video tersebut, Anda dapat mendengar GPT-4o dengan penuh semangat menceritakan kisahnya dengan santai, didukung oleh efek suara. Ia menjelaskan: “Bayangkan ini, ada kota kecil ini, semua orang tahu semua jenis video dan ada rumah kecil di ujung jalan.”
Film ini melanjutkan kisah dua remaja yang memeriksa rumah selama badai dengan “hanya berbekal senter dan ponsel sebagai penerangan”.
Jadi apa yang salah dengan peluncurannya?
OpenAI meluncurkan sejumlah fitur baru secara perlahan. Pengguna Plus pertama seharusnya mendapatkan suara canggih GPT-4o bulan ini, namun karena beberapa masalah keamanan dan kekhawatiran mengenai apakah mereka memiliki infrastruktur perangkat keras — hal ini tertunda.
Saya bertanya kepada OpenAI apa yang terjadi sehingga RozziTheCreator mendapatkan akses, dan seorang juru bicara mengatakan kepada saya: “Saat menguji fitur ini, kami secara tidak sengaja mengirimkan undangan ke sejumlah kecil ObrolanGPT pengguna. Ini adalah kesalahan dan kami telah memperbaikinya.”
Mereka mengonfirmasi bahwa beberapa pengguna Plus pertama akan mendapatkan akses bulan depan, tetapi bagi kebanyakan orang, itu akan memakan waktu lebih lama. Penjelasan peluncuran awal adalah untuk “mengumpulkan umpan balik, dan berencana untuk memperluas berdasarkan apa yang kami pelajari.”
Jadi, belum ada suara GPT-4o, tetapi ini adalah contoh terbaru dari serangkaian contoh GPT-4o yang tampaknya ingin melepaskan diri dari batasannya dan menggunakan kemampuan penuhnya. Saya sendiri pernah melihat contoh GPT-4o menganalisis file audio secara langsung pada satu menit, lalu menjalankannya melalui kode pada menit berikutnya.
Hal ini membuat saya makin bersemangat dengan kemampuan penuhnya dan makin kesal dengan penundaannya — betapapun dapat dimengerti.