Google menyerang balik OpenAI dengan prototipe agen AI “Project Astra”.
Cuplikan video demo Project Astra pada keynote konferensi Google I/O di Mountain View pada 14 Mei 2024.
Memperbesar / Cuplikan video demo Project Astra pada keynote konferensi Google I/O di Mountain View pada 14 Mei 2024.

Google

Hanya satu hari setelah OpenAI terungkap GPT-4oyang dianggap mampu memahami apa yang terjadi di umpan video dan membicarakannya, Google mengumumkan Proyek Astra, prototipe penelitian yang menampilkan kemampuan pemahaman video serupa. Hal ini diumumkan oleh CEO Google DeepMind Demis Hassabis pada hari Selasa di keynote konferensi Google I/O di Mountain View, California.

Hassabis menyebut Astra sebagai “agen universal yang membantu dalam kehidupan sehari-hari”. Selama demonstrasi, model penelitian menunjukkan kemampuannya dengan mengidentifikasi objek yang menghasilkan suara, memberikan aliterasi kreatif, menjelaskan kode pada monitor, dan menemukan lokasi item yang salah tempat. Asisten AI juga menunjukkan potensinya pada perangkat yang dapat dipakai, seperti kacamata pintar, yang dapat menganalisis diagram, menyarankan perbaikan, dan menghasilkan respons cerdas terhadap perintah visual.

Google menyebut Astra menggunakan kamera dan mikrofon di perangkat pengguna untuk memberikan bantuan dalam kehidupan sehari-hari. Dengan terus memproses dan menyandikan bingkai video dan masukan ucapan, Astra membuat garis waktu peristiwa dan menyimpan informasi dalam cache untuk dipanggil kembali dengan cepat. Perusahaan mengatakan bahwa hal ini memungkinkan AI untuk mengidentifikasi objek, menjawab pertanyaan, dan mengingat hal-hal yang telah dilihatnya yang tidak lagi ada dalam bingkai kamera.

Project Astra: Visi Google untuk masa depan asisten AI.

Meskipun Project Astra masih merupakan fitur tahap awal tanpa rencana peluncuran khusus, Google telah mengisyaratkan bahwa beberapa kemampuan ini mungkin diintegrasikan ke dalam produk seperti aplikasi Gemini akhir tahun ini (dalam fitur yang disebut “Gemini Live”), yang menandai sebuah langkah signifikan. maju dalam pengembangan asisten AI yang bermanfaat. Ini merupakan upaya untuk menciptakan agen dengan “agensi” yang dapat “berpikir ke depan, bernalar, dan membuat rencana atas nama Anda”, seperti yang diungkapkan oleh CEO Google Sundar Pichai.

Di tempat lain di Google AI: 2 juta token

Selama Google I/O, perusahaan meluncurkan sejumlah besar pengumuman terkait AI, beberapa di antaranya mungkin akan kami bahas dalam postingan terpisah di masa mendatang. Namun untuk saat ini, berikut ikhtisar singkatnya.

Di bagian atas keynote, Pichai menyebutkan versi bulan Februari yang “lebih baik”. Gemini 1.5 Pro (nomor versi yang sama, anehnya) yang akan segera hadir. Ini akan menampilkan jendela konteks 2 juta token, yang berarti dapat memproses sejumlah besar dokumen atau video yang dikodekan dalam jangka waktu lama sekaligus. Token adalah fragmen data yang digunakan model bahasa AI untuk memproses informasi, dan jendela konteks menentukan jumlah maksimum token yang dapat diproses oleh model AI sekaligus. Saat ini, 1.5 Pro mencapai 1 juta token (OpenAI GPT-4 Turbo memiliki jendela 128.000 token sebagai perbandingan).

Kami bertanya kepada peneliti AI, Simon Willison—yang tidak bekerja untuk Google tetapi ditampilkan dalam video promo selama keynote—apa pendapatnya tentang pengumuman jendela konteks. “Dua juta token itu menarik,” jawabnya melalui SMS sambil duduk sebagai pembicara utama. “Tetapi perlu diingat bahwa $7 per juta token berarti satu permintaan dapat dikenakan biaya $14!” Google biaya $7 per juta token masukan untuk 1,5 pada permintaan lebih dari 150.000 token melalui API-nya.

Selama keynote Google I/O 2024, Google mengatakan Gemini Advanced memilikinya
Memperbesar / Selama keynote Google I/O 2024, Google mengatakan Gemini Advanced memiliki “jendela konteks terpanjang di dunia” dengan 1 juta token—segera menjadi 2 juta.

Google

Berbicara tentang token, Google mengumumkan bahwa jendela konteks 1 juta token yang diumumkan sebelumnya untuk Gemini 1.5 Pro akhirnya akan hadir Gemini Tingkat Lanjut pelanggan. Sebelumnya, ini hanya tersedia di API.

Google juga mengumumkan model AI baru yang disebut Gemini 1.5 Kilat, yang disebut sebagai versi Gemini 1.5 yang ringan, lebih cepat, dan lebih murah. “1.5 Flash adalah tambahan terbaru pada rangkaian model Gemini dan model Gemini tercepat yang disajikan di API. Ini dioptimalkan untuk tugas bervolume tinggi dan berfrekuensi tinggi dalam skala besar,” kata Google.

Willison juga memberikan komentar tentang Flash: “Model Gemini Flash baru menjanjikan di sana, model ini dimaksudkan untuk menyediakan hingga 2 juta token dengan harga lebih rendah.” Flash berharga $0,35 per juta token untuk permintaan hingga 128.000 token dan $0,70 per juta token untuk permintaan lebih dari 128.000. Harganya sepersepuluh dari 1,5 Pro.

“35 sen per juta token! Itu berita terbesar hari ini, IMO,” kata Willison kepada kami.

Google juga mengumumkan Permatayang tampaknya merupakan pandangan terhadap OpenAI GPT. Permata adalah peran khusus untuk chatbot Google Gemini yang akan memainkan peran yang Anda tetapkan, memungkinkan Anda mempersonalisasi Gemini dengan cara berbeda. Google mencantumkan contoh Permata potensial sebagai “teman gym, sous chef, mitra coding, atau panduan menulis kreatif”.

Model AI generatif baru

Tangkapan layar situs web Google Imagen 3.
Memperbesar / Tangkapan layar situs web Google Imagen 3.

Google

Juga pada keynote Google I/O pada hari Selasa, Google mengumumkan beberapa model AI generatif baru untuk membuat gambar, audio, dan video. Gambar 3 adalah model sintesis gambar terbaru, yang menurut Google adalah “model teks-ke-gambar dengan kualitas tertinggi, yang mampu menghasilkan gambar dengan detail lebih baik, pencahayaan lebih kaya, dan artefak yang lebih sedikit mengganggu dibandingkan model kami sebelumnya.”

Google juga memamerkan Music AI Sandbox-nya, yang disebut Google sebagai “serangkaian alat AI untuk mengubah cara pembuatan musik.” Ini menggabungkannya Proyek musik YouTube dengan itu Lyria Generator musik AI menjadi alat bagi musisi.

Perusahaan juga mengumumkan Google Veoyang merupakan generator teks-ke-video yang membuat video 1080P dari perintah dengan kualitas yang tampaknya cocok dengan OpenAI Sora. Google mengatakan pihaknya bekerja sama dengan aktor Donald Glover untuk membuat film demonstrasi buatan AI yang akan segera debut. Itu jauh dari Google pembuat video AI pertamatapi sejauh ini tampaknya ini adalah yang paling mumpuni.

Contoh video di atas, yang disediakan oleh Google, menggunakan kalimat, “Seorang koboi yang sendirian mengendarai kudanya melintasi dataran terbuka saat matahari terbenam yang indah, cahaya lembut, warna-warna hangat.”

Google mengatakan mulai hari ini, alat kreatif AI barunya hanya tersedia untuk pembuat konten tertentu dalam pratinjau pribadi, tetapi daftar tunggu tetap terbuka.

Sumber