Gambar diam diambil dari video yang dihasilkan oleh Google Veo.
Memperbesar / Gambar diam diambil dari video yang dihasilkan oleh Google Veo.

Google / Benj Edwards

Pada hari Selasa di Google I/O 2024, Google mengumumkan Veomodel sintesis video AI baru yang dapat membuat video HD dari teks, gambar, atau perintah video, mirip dengan OpenAI Sora. Ini dapat menghasilkan video 1080p berdurasi lebih dari satu menit dan mengedit video berdasarkan instruksi tertulis, tetapi belum dirilis untuk penggunaan luas.

Veo dilaporkan mencakup kemampuan untuk mengedit video yang ada menggunakan perintah teks, menjaga konsistensi visual di seluruh bingkai, dan menghasilkan rangkaian video yang berdurasi hingga dan lebih dari 60 detik dari satu perintah atau serangkaian perintah yang membentuk sebuah narasi. Perusahaan mengatakan dapat menghasilkan adegan mendetail dan menerapkan efek sinematik seperti selang waktu, bidikan udara, dan berbagai gaya visual

Sejak peluncuran DALL-E 2 pada bulan April 2022, kita telah melihat parade model sintesis gambar dan video baru yang bertujuan untuk memungkinkan siapa saja yang dapat mengetikkan deskripsi tertulis untuk membuat gambar atau video mendetail. Meskipun belum ada teknologi yang sepenuhnya disempurnakan, baik generator gambar maupun video AI terus berkembang menjadi lebih mumpuni.

Pada bulan Februari, kami meliput pratinjau Sora dari OpenAI generator video, yang pada saat itu diyakini mewakili sintesis video AI terbaik yang dapat ditawarkan industri. Hal itu cukup mengesankan bagi Tyler Perry menempatkan ekspansi studio filmnya tertahan. Namun, sejauh ini, OpenAI belum menyediakan akses umum ke alat tersebut—sebaliknya, mereka membatasi penggunaannya hanya pada kelompok penguji tertentu.

Sekarang, Veo Google sekilas tampak mampu menghasilkan video yang mirip dengan Sora. Kami belum mencobanya sendiri, jadi kami hanya bisa melihat video demonstrasi pilihan yang disediakan perusahaan di situs webnya. Itu berarti siapa pun yang melihatnya harus menerima klaim Google dengan sangat hati-hati, karena hasil yang dihasilkan mungkin tidak seperti biasanya.

Contoh video Veo mencakup seorang koboi menunggang kuda, tembakan cepat di jalan pinggiran kota, kebab yang dipanggang di atas panggangan, selang waktu pembukaan bunga matahari, dan banyak lagi. Yang paling jelas tidak ada adalah penggambaran manusia secara mendetail, yang secara historis sulit dibuat oleh model gambar dan video AI tanpa deformasi yang jelas.

Google mengatakan bahwa Veo dibuat berdasarkan model pembuatan video perusahaan sebelumnya, termasuk Generative Query Network (GQN), DVD-GAN, Gambar-Video, PhenakiWALT, VideoPoet, dan Lumiere. Untuk meningkatkan kualitas dan efisiensi, data pelatihan Veo menyertakan teks video yang lebih detail, dan menggunakan representasi video “laten” terkompresi. Untuk meningkatkan kualitas pembuatan video Veo, Google menyertakan teks yang lebih detail untuk video yang digunakan untuk melatih Veo, sehingga memungkinkan AI untuk menafsirkan perintah dengan lebih akurat.

Veo juga nampaknya terkenal karena mendukung perintah pembuatan film: “Saat diberikan perintah input video dan pengeditan, seperti menambahkan kayak ke bidikan udara garis pantai, Veo dapat menerapkan perintah ini ke video awal dan membuat video baru yang telah diedit, ” kata perusahaan itu.

Meskipun demonya tampak mengesankan pada pandangan pertama (terutama dibandingkan dengan Will Smith makan spageti), Google mengakui pembuatan video AI itu sulit. “Menjaga konsistensi visual dapat menjadi tantangan bagi model pembuatan video,” tulis perusahaan tersebut. “Karakter, objek, atau bahkan keseluruhan adegan dapat berkedip, melompat, atau berubah secara tidak terduga di antara bingkai, sehingga mengganggu pengalaman menonton.”

Google telah mencoba untuk mengurangi kelemahan tersebut dengan “transformator difusi laten mutakhir”, yang pada dasarnya hanyalah pembicaraan pemasaran yang tidak berarti tanpa hal yang spesifik. Namun perusahaan cukup percaya diri dengan modelnya bekerja dengan aktor Donald Glover dan studionya, Gilga, untuk membuat film demonstrasi buatan AI yang akan segera debut.

Awalnya, Veo akan dapat diakses oleh pembuat konten terpilih melalui VideoFX, alat eksperimental baru yang tersedia di situs web AI Test Kitchen Google, labs.google. Kreator dapat bergabung dalam daftar tunggu VideoFX agar berpotensi mendapatkan akses ke fitur Veo dalam beberapa minggu mendatang. Google berencana untuk mengintegrasikan beberapa kemampuan Veo ke dalam YouTube Shorts dan produk lainnya di masa depan.

Belum ada kabar dari mana Google mendapatkan data pelatihan untuk Veo (jika kami harus menebak, kemungkinan besar YouTube terlibat). Namun Google menyatakan bahwa mereka mengambil pendekatan “bertanggung jawab” dengan Veo. Menurut perusahaan, “Video yang dibuat oleh Veo diberi watermark menggunakan SynthIDalat mutakhir kami untuk memberi tanda air dan mengidentifikasi konten yang dihasilkan AI, serta melewati filter keamanan dan proses pemeriksaan hafalan yang membantu mengurangi risiko privasi, hak cipta, dan bias.”

Sumber