Chang She, yang sebelumnya merupakan VP bidang teknik di Tubi dan seorang veteran Cloudera, memiliki pengalaman bertahun-tahun dalam membangun infrastruktur dan peralatan data. Namun ketika Dia mulai bekerja di bidang AI, dia segera mengalami masalah dengan infrastruktur data tradisional — masalah yang menghalangi dia untuk membawa model AI ke dalam produksi.

“Insinyur pembelajaran mesin dan peneliti AI sering kali terjebak dengan pengalaman pengembangan di bawah standar,” katanya kepada TechCrunch dalam sebuah wawancara. “Perusahaan infra data tidak begitu memahami masalah data pembelajaran mesin pada tingkat mendasar.”

Jadi Chang — yang merupakan salah satu pencipta Pandas, perpustakaan ilmu data Python yang sangat populer — bekerja sama dengan insinyur perangkat lunak Lei Xu untuk meluncurkan bersama LanceDB.

LanceDB sedang membangun perangkat lunak database sumber terbuka bernama LanceDB, yang dirancang untuk mendukung model AI multimodal — model yang melatih dan menghasilkan gambar, video, dan lainnya selain teks. Didukung oleh Y Combinator, LanceDB bulan ini mengumpulkan $8 juta dalam putaran pendanaan awal yang dipimpin oleh CRV, Essence VC, dan Swift Ventures, sehingga total pengumpulannya menjadi $11 juta.

“Jika AI multimodal sangat penting bagi kesuksesan masa depan perusahaan Anda, Anda ingin tim AI Anda yang sangat mahal fokus pada model tersebut dan menjembatani AI dengan nilai bisnis,” kata Chang. “Sayangnya, saat ini, tim AI menghabiskan sebagian besar waktunya menangani detail infrastruktur data tingkat rendah. LanceDB memberikan landasan yang dibutuhkan tim AI sehingga mereka dapat dengan bebas fokus pada hal-hal yang benar-benar penting bagi nilai perusahaan dan menghadirkan produk AI ke pasar jauh lebih cepat daripada yang mungkin dilakukan sebelumnya.”

LanceDB pada dasarnya adalah database vektor — database yang berisi rangkaian angka (“vektor”) yang menyandikan makna data tidak terstruktur (misalnya gambar, teks, dan sebagainya).

Seperti yang baru-baru ini ditulis oleh rekan saya Paul Sawers, database vektor sedang mengalami momen ketika siklus hype AI mencapai puncaknya. Hal ini karena mereka berguna untuk semua jenis aplikasi AI, mulai dari rekomendasi konten di e-niaga dan platform media sosial hingga pengurangan halusinasi.

Persaingan basis data vektor sangat ketat — lihat Qdrant, Vespa, Weaviate, Pinecone, dan Chroma untuk menyebutkan beberapa vendor (tidak termasuk Besar Teknologi petahana). Jadi apa yang membuat LanceDB unik? Fleksibilitas, kinerja, dan skalabilitas yang lebih baik, menurut Chang.

Pertama, kata Chang, LanceDB — yang dibangun di atas Panah Apache — didukung oleh format data khusus, Lance Format, yang dioptimalkan untuk pelatihan dan analisis AI multimodal. Lance Format memungkinkan LanceDB menangani hingga miliaran vektor dan petabyte teks, gambar, dan video, serta memungkinkan para insinyur mengelola berbagai bentuk metadata yang terkait dengan data tersebut.

“Sampai saat ini, belum pernah ada sistem yang dapat menyatukan pelatihan, eksplorasi, pencarian, dan pengolahan data skala besar,” kata Chang. “Lance Format memungkinkan peneliti dan insinyur AI memiliki satu sumber kebenaran dan mendapatkan kinerja secepat kilat di seluruh jalur AI mereka. Ini bukan hanya tentang menyimpan vektor.”

LanceDB menghasilkan uang dengan menjual versi perangkat lunak sumber terbuka yang dikelola sepenuhnya dengan fitur tambahan seperti akselerasi perangkat keras dan kontrol tata kelola — dan bisnis tampaknya berjalan dengan baik. Daftar pelanggan perusahaan mencakup platform teks-ke-gambar Midjourney, chatbot unicorn Character.ai, startup mobil otonom WeRide, dan Airtable.

Chang bersikeras bahwa dukungan VC LanceDB baru-baru ini tidak akan mengalihkan perhatiannya dari proyek open source, yang menurutnya kini mencapai sekitar 600.000 unduhan per bulan.

“Kami ingin menciptakan sesuatu yang 10x lebih mudah bagi tim AI untuk bekerja dengan data multimodal berskala besar,” katanya. “LanceDB menawarkan – dan akan terus menawarkan – serangkaian integrasi ekosistem yang sangat kaya untuk meminimalkan upaya adopsi.”

Sumber