Bergabunglah dengan buletin harian dan mingguan kami untuk mendapatkan berita terkini dan konten eksklusif tentang liputan AI terkemuka di industri. Pelajari lebih lanjut
Hume AIsebuah startup yang berspesialisasi dalam antarmuka suara yang cerdas secara emosional, mengaktifkan kontrol suarasebuah fitur eksperimental yang memungkinkan pengembang dan pengguna membuat suara AI khusus dengan memodulasi karakteristik suara secara tepat—tidak memerlukan keahlian coding, rekayasa AI, atau desain suara.
Rilisan ini dibangun berdasarkan fondasi yang dibangun oleh Empathic Voice Interface 2 (EVI 2) milik perusahaan sebelumnya, yang memperkenalkan kemampuan tingkat lanjut untuk kealamian, daya tanggap emosional, dan penyesuaian.
Baik EVI 2 maupun kontrol suara menghindari risiko kloning suara, sebuah praktik yang menurut Cowen menghadirkan tantangan etis dan praktis.
Sebaliknya, Hume berfokus pada alat untuk menciptakan suara unik dan ekspresif yang merespons kebutuhan pengguna, seperti chatbot layanan pelanggan, asisten digital, guru, pemandu, atau fitur aksesibilitas.
Bukan hanya suara AI yang telah ditentukan sebelumnya, namun juga solusi khusus yang disesuaikan
Kontrol suara memberi pengembang kemampuan untuk menyesuaikan suara berdasarkan 10 dimensi berbeda, termasuk:
“Maskulin/Feminin: vokalisasi gender mulai dari yang lebih maskulin hingga lebih feminin.
Kegigihan: Kekuatan suara, dari penakut hingga berani.
Kemampuan mengapung: kepadatan suara mulai dari bengkak hingga ringan.
Kepercayaan diri: Kepastian suara mulai dari pemalu hingga percaya diri.
antusiasme: Suara kegembiraan, mulai dari tenang hingga antusias.
Sifat bunyi sengau: Keterbukaan suara, dari transparan hingga sengau.
Relaksasi: Ketegangan suara, dari tegang ke santai.
Persamaan: tekstur suara mulai dari lembut hingga staccato.
Kekeruhan: Kehidupan di balik suara, mulai dari yang hangat hingga energik.
Keketatan: Retensi suara mulai dari yang keras hingga yang terengah-engah.
Alat bebas kode ini memungkinkan pengguna untuk menyempurnakan atribut suara secara real-time menggunakan penggeser virtual di layar. Saat ini tersedia di Hume Virtual Playground, yang memerlukan a pendaftaran pengguna gratis untuk mengakses.
Rilis ini mengatasi masalah utama dalam industri AI: ketergantungan pada suara yang telah ditentukan sebelumnya yang seringkali tidak memenuhi kebutuhan merek atau aplikasi tertentu, atau risiko yang terkait dengan kloning suara.
Fokus pada penyesuaian ini sejalan dengan tujuan Hume yang lebih luas untuk menciptakan AI suara yang bernuansa emosional.
Upaya perusahaan untuk meningkatkan AI suara menjadi sorotan pada tahun 2024. pada bulan September Meluncurkan EVI 2, yang digambarkan perusahaan sebagai peningkatan signifikan dibandingkan pendahulunya.
EVI 2 meningkatkan latensi sebesar 40%, mengurangi biaya sebesar 30% dan memperluas fitur modulasi suara, menawarkan pengembang alternatif yang lebih aman dibandingkan kloning suara.
Penggeser > Perintah Teks
Pendekatan berbasis penelitian Hume memainkan peran sentral dalam pengembangan produk. Perusahaan ini, yang didirikan bersama oleh mantan Google DeepMinder Alan Cowen, menggunakan model kepemilikan berdasarkan rekaman suara lintas budaya yang dikaitkan dengan data penelitian emosi.
Metodologi ini, yang berakar pada ilmu emosi, menjadi tulang punggung EVI 2 dan kontrol suara yang baru diperkenalkan.
Kontrol Suara memperluas prinsip-prinsip ini dengan memperhatikan cara orang memandang suara secara halus dan sering kali tidak dapat dijelaskan.
Antarmuka berbasis penggeser alat ini menangkap karakteristik persepsi umum suara, seperti daya apung atau ketegasan, tanpa mencoba menyederhanakan atribut ini dengan perintah tekstual.
Kontrol Suara segera tersedia dalam versi beta dan terintegrasi dengan Empathic Voice Interface (EVI) Hume, sehingga dapat diakses oleh berbagai aplikasi.
Pengembang dapat memilih suara master, menyesuaikan karakteristiknya, dan melihat hasilnya secara real time. Proses ini memastikan reproduktifitas dan stabilitas di seluruh sesi, fitur utama aplikasi real-time seperti bot layanan pelanggan atau asisten virtual.
Pengaruh EVI 2 terlihat pada kemampuan kontrol suaranya. Model sebelumnya memperkenalkan fitur-fitur seperti perintah obrolan dan kemampuan multibahasa yang memperluas cakupan aplikasi AI suara.
Misalnya, EVI 2 mendukung waktu respons sub-detik, sehingga percakapan berlangsung alami dan cepat. Ini juga memungkinkan Anda menyesuaikan gaya bicara Anda secara dinamis selama interaksi, menjadikannya alat serbaguna untuk bisnis.
Tampil menonjol di pasar yang kompetitif
Fokus Hume pada kustomisasi suara dan kecerdasan emosional menjadikannya pesaing kuat di bidang AI suara, bahkan melawan pesaing yang memiliki pendanaan besar seperti OpenAI dengan Mode Suara Tingkat Lanjut dan ElevenLabs, yang keduanya menawarkan perpustakaan suara yang telah ditentukan sebelumnya.
Hume terus mengembangkan pendekatan inovatifnya terhadap AI suara. Rencana untuk memperluas kontrol suara termasuk memperkenalkan dimensi tambahan yang dapat dimodifikasi, meningkatkan kualitas suara dengan koreksi ekstrem, dan meningkatkan jangkauan suara dasar yang tersedia.
Dengan diperkenalkannya kontrol suara, Hume memperkuat posisinya sebagai pemimpin dalam inovasi AI suara, menawarkan alat yang memprioritaskan personalisasi, kecerdasan emosional, dan adaptasi waktu nyata. Pengembang kini dapat mencapai kontrol suara dengan platform Hume, yang menandai satu langkah maju dalam evolusi solusi suara berbasis AI.
Source link