Bergabunglah dengan buletin harian dan mingguan kami untuk mendapatkan pembaruan terkini dan konten eksklusif tentang liputan AI terkemuka di industri. Pelajari Lebih Lanjut


Genmosebuah perusahaan AI yang berfokus pada pembuatan video, telah mengumumkan peluncuran pratinjau penelitian untuk Mochi 1, model sumber terbuka yang inovatif untuk menghasilkan video berkualitas tinggi dari perintah teks — dan mengklaim kinerja yang sebanding, atau melebihi, sumber tertutup terkemuka /saingan eksklusif seperti Gen-3 Alpha di landasan pacu, Mesin Impian Luma AI, Kling Kuaishou, Hailuo dari Minimaxdan banyak lainnya.

Tersedia di bawah lisensi Apache 2.0 yang permisif, Mochi 1 menawarkan kepada pengguna akses gratis ke kemampuan pembuatan video mutakhir — sedangkan harga untuk model lain dimulai pada tingkatan gratis terbatas namun mencapai $94,99 per bulan (untuk model lainnya). Tingkat Hailuo Tidak Terbatas).

Selain peluncuran model, Genmo juga menyediakan taman bermain yang dihosting, memungkinkan pengguna bereksperimen dengan fitur Mochi 1 secara langsung.

Model 480p tersedia untuk digunakan saat ini, dan versi definisi lebih tinggi, Mochi 1 HD, diperkirakan akan diluncurkan akhir tahun ini.

Video awal yang dibagikan dengan VentureBeat menunjukkan pemandangan dan gerakan yang sangat realistis, terutama dengan subjek manusia seperti yang terlihat dalam video seorang wanita lanjut usia di bawah ini:

Memajukan kecanggihan

Mochi 1 menghadirkan beberapa kemajuan signifikan dalam bidang pembuatan video, termasuk gerakan dengan ketelitian tinggi dan kepatuhan cepat yang kuat.

Menurut Genmo, Mochi 1 unggul dalam mengikuti instruksi pengguna secara mendetail, memungkinkan kontrol yang tepat atas karakter, pengaturan, dan tindakan dalam video yang dihasilkan.

Genmo telah memposisikan Mochi 1 sebagai solusi yang mempersempit kesenjangan antara model pembuatan video terbuka dan tertutup.

“Kita sudah 1% menuju masa depan video generatif. Tantangan sebenarnya adalah membuat video yang panjang, berkualitas tinggi, dan lancar. Kami sangat fokus pada peningkatan kualitas gerakan,” kata Paras Jain, CEO dan salah satu pendiri Genmo, dalam sebuah wawancara dengan VentureBeat.

Jain dan salah satu pendirinya memulai Genmo dengan misi menjadikan teknologi AI dapat diakses oleh semua orang. “Jika menyangkut video, yang merupakan garda terdepan bagi AI generatif, kami hanya berpikir bahwa sangat penting untuk menyampaikan hal ini ke tangan orang-orang nyata,” Jain menekankan. Ia menambahkan, “Kami pada dasarnya yakin bahwa sangat penting untuk mendemokratisasi teknologi ini dan memberikannya kepada sebanyak mungkin orang. Itulah salah satu alasan kami menjadikannya open source.”

Genmo sudah mengklaim bahwa dalam pengujian internal, Mochi 1 mengungguli sebagian besar model AI video lainnya — termasuk pesaing berpemilik Runway dan Luna — dalam hal kepatuhan dan kualitas gerakan.

Pendanaan Seri A sebesar $28,4 juta

Bersamaan dengan pratinjau Mochi 1, Genmo juga mengumumkan telah mengumpulkan putaran pendanaan Seri A senilai $28,4 juta, dipimpin oleh NEA, dengan partisipasi tambahan dari The House Fund, Gold House Ventures, WndrCo, Eastlink Capital Partners, dan Essence VC. Beberapa angel investor, termasuk Abhay Parasnis (CEO Typespace) dan Amjad Masad (CEO Replit), juga mendukung visi perusahaan untuk generasi video tingkat lanjut.

Perspektif Jain tentang peran video dalam AI lebih dari sekadar hiburan atau pembuatan konten. “Video adalah bentuk komunikasi utama—30 hingga 50% korteks otak kita dikhususkan untuk pemrosesan sinyal visual. Begitulah cara manusia beroperasi,” katanya.

Visi jangka panjang Genmo mencakup pembuatan alat yang dapat menggerakkan masa depan robotika dan sistem otonom. “Visi jangka panjangnya adalah jika kita berhasil menghasilkan video, kita akan membangun simulator terbaik di dunia, yang dapat membantu memecahkan masalah AI, robotika, dan self-driving,” jelas Jain.

Terbuka untuk kolaborasi — tetapi data pelatihan masih terbatas

Mochi 1 dibangun berdasarkan arsitektur Asymmetric Diffusion Transformer (AsymmDiT) novel Genmo.

Dengan 10 miliar parameter, ini merupakan model pembuatan video sumber terbuka terbesar yang pernah dirilis. Arsitekturnya berfokus pada penalaran visual, dengan parameter empat kali lipat yang didedikasikan untuk memproses data video dibandingkan dengan teks.

Efisiensi adalah aspek kunci dari desain model. Mochi 1 memanfaatkan video VAE (Variational Autoencoder) yang memampatkan data video ke sebagian kecil dari ukuran aslinya, sehingga mengurangi kebutuhan memori untuk perangkat pengguna akhir. Hal ini membuatnya lebih mudah diakses oleh komunitas pengembang, yang dapat mengunduh bobot model dari HuggingFace atau mengintegrasikannya melalui API.

Jain percaya bahwa sifat open-source Mochi 1 adalah kunci untuk mendorong inovasi. “Model terbuka seperti minyak mentah. Mereka perlu disempurnakan dan disesuaikan. Hal itulah yang ingin kami wujudkan bagi masyarakat—sehingga mereka dapat membangun hal-hal baru yang luar biasa,” katanya.

Namun, ketika ditanya tentang kumpulan data pelatihan model — salah satu aspek paling kontroversial dari alat kreatif AI, seperti bukti telah menunjukkan banyak orang telah dilatih sejumlah besar karya kreatif manusia secara online tanpa izin atau kompensasi tertulis, dan beberapa di antaranya merupakan karya berhak cipta — Jain pemalu.

“Umumnya, kami menggunakan data yang tersedia untuk umum dan terkadang bekerja dengan berbagai mitra data,” katanya kepada VentureBeat, menolak menjelaskan secara spesifik karena alasan persaingan. “Sangat penting untuk memiliki data yang beragam, dan itu penting bagi kami.”

Keterbatasan dan peta jalan

Sebagai preview, Mochi 1 masih memiliki beberapa keterbatasan. Versi saat ini hanya mendukung resolusi 480p, dan distorsi visual kecil dapat terjadi pada kasus tepi yang melibatkan gerakan kompleks. Selain itu, meskipun model ini unggul dalam gaya fotorealistik, model ini kesulitan dengan konten animasi.

Namun, Genmo berencana merilis Mochi 1 HD akhir tahun ini, yang akan mendukung resolusi 720p dan menawarkan fidelitas gerakan yang lebih baik.

“Satu-satunya video yang tidak menarik adalah video yang tidak bergerak—gerakan adalah inti dari video. Itu sebabnya kami banyak berinvestasi pada kualitas gerak dibandingkan model lainnya,” kata Jain.

Ke depannya, Genmo sedang mengembangkan kemampuan sintesis gambar-ke-video dan berencana meningkatkan kemampuan pengendalian model, sehingga memberikan pengguna kontrol yang lebih tepat atas keluaran video.

Memperluas kasus penggunaan melalui AI video sumber terbuka

Peluncuran Mochi 1 membuka kemungkinan bagi berbagai industri. Para peneliti dapat mendobrak batas-batas teknologi pembuatan video, sementara pengembang dan tim produk dapat menemukan penerapan baru dalam bidang hiburan, periklanan, dan pendidikan.

Mochi 1 juga dapat digunakan untuk menghasilkan data sintetis untuk melatih model AI dalam robotika dan sistem otonom.

Merefleksikan dampak potensial dari demokratisasi teknologi ini, Jain berkata, “Dalam lima tahun, saya melihat sebuah dunia di mana anak-anak miskin di Mumbai dapat mengeluarkan ponselnya, mempunyai ide cemerlang, dan memenangkan Academy Award—itulah semacam demokratisasi. yang kami tuju.”

Genmo mengundang pengguna untuk mencoba versi pratinjau Mochi 1 melalui taman bermain yang mereka hosting di genmo.ai/playdi mana model dapat diuji dengan perintah yang dipersonalisasi — meskipun pada saat artikel ini diposting, URL tidak memuat halaman yang benar untuk VentureBeat.

Panggilan untuk bakat

Selagi terus mendorong keunggulan AI sumber terbuka, Genmo secara aktif merekrut peneliti dan insinyur untuk bergabung dengan timnya. “Kami adalah laboratorium penelitian yang berupaya membangun model terdepan untuk pembuatan video. Ini adalah area yang sangat menarik—fase AI berikutnya—yang membuka otak kanan kecerdasan buatan,” kata Jain. Perusahaan ini berfokus untuk memajukan generasi video dan mengembangkan lebih lanjut visinya untuk masa depan kecerdasan umum buatan.