La start-up de synthèse vocale ElevenLabs lève 2 millions de dollars pour les voix de l’IA avec une émotion contextuelle


La start-up Speech AI ElevenLabs a publié une version bêta de sa plateforme de synthèse vocale pour l’anglais et le polonais et a levé 2 millions de dollars lors d’un cycle de financement de pré-amorçage dirigé par Credo Ventures. ElevenLabs est conçu pour transformer du texte long en audio en utilisant à la fois des clones de voix existantes et des modèles entièrement synthétisés de la parole humaine. L’IA imite l’émotion humaine lors de la lecture du texte, en utilisant des indices contextuels pour décider de l’ambiance et en ajustant le ton et l’inflexion en conséquence.

Voix d’ElevenLabs

ElevenLabs développé utilise des modèles d’apprentissage en profondeur propriétaires pour créer ses discours d’IA. Les voix synthétiques de la startup utilisent la compréhension du langage naturel pour saisir le contexte de ce qu’une personne dit. L’IA peut repérer des adjectifs décrivant le discours de quelqu’un comme joyeux ou triste ou noter l’environnement d’un mariage ou d’un embouteillage et ajuster la livraison en conséquence. Il peut même comprendre l’humour et le sarcasme assez bien pour rire quand quelque chose est drôle et sarcastique (ou du moins écrit pour impliquer que cela devrait l’être). La plate-forme d’ElevenLabs offre aux utilisateurs la possibilité d’utiliser l’une des écuries de voix artificielles de la startup ou de générer rapidement un clone d’une voix humaine.

« Ce que nous faisons différemment, c’est que nous prenons le texte et le contexte de ce que vous écrivez pour générer la tonalité des voix. Il comprend le texte et peut savoir parler le [emotions] correctement », a déclaré Mati Staniszewski, co-fondateur et PDG d’ElevenLabs, à Voicebot dans une interview. « Cela fonctionne exceptionnellement bien sur des textes plus longs car il peut préserver ce contexte. Aucun autre ne prend ce genre de contexte en considération. Nous nous distinguons également par notre approche de la reproduction ou du clonage d’une voix. Nous avons développé un module de clonage qui ne nécessite pas de formation, seulement quelques secondes d’enregistrement, mais idéalement une minute complète.

C’est une vitesse comparable au nouvel outil VALL-E de Microsoft pour le clonage de la voix. Vous pouvez voir un exemple de clonage de voix d’ElevenLabs ci-dessous. ElevenLabs a recréé la voix de Steve Jobs et l’a utilisée pour lire un court texte sur l’entreprise généré avec le chatbot IA génératif ChatGPT d’OpenAI.

https://www.youtube.com/watch?v=34vB41lyQ-A

Narration synthétique

ElevenLabs travaille à la mise en place d’un système permettant aux utilisateurs de concevoir une nouvelle voix artificielle à l’aide de l’IA et a commencé à étendre son écurie vocale existante avec les voix d’acteurs, qui recevront une part des bénéfices si un utilisateur choisit d’utiliser son clone de voix. Il existe des modèles vocaux anglophones et des modèles vocaux polonais, bien qu’ils ne permettent pas de chevauchement pour le moment. Staniszewski et le co-fondateur Piotr Dabkowski sont tous deux de langue maternelle polonaise, mais cela n’a pas nécessairement simplifié le processus de conception d’outils de synthèse vocale en polonais.

“[Text-to-speech models] nécessitent une énorme quantité de données. Pour l’anglais, c’est facile ; pour le polonais, c’est plus difficile à la fois pour le texte et la parole », a déclaré Staniszewski. « Du côté positif, si vous corrigez la partie des données polonaises, notre modèle est si bon que la seule comparaison est professionnelle [actors].”

La version bêta d’ElevenLabs n’autorise pas l’édition audio lorsque l’IA pourrait manquer un signal émotionnel, mais cela n’a pas encore été un problème. La société compte déjà environ 500 utilisateurs, et environ 5 000 autres sur la liste d’attente. Staniszewski a déclaré que presque tous les utilisateurs pouvaient être classés comme créateurs de contenu, en particulier pour YouTube, les rédacteurs de newsletters, les auteurs de livres indépendants ou les agences de presse. Staniszewski a souligné que les plateformes de livres audio populaires comme Audible et Spotify n’autorisent pas les narrateurs IA pour le moment. Pourtant, cela n’a pas empêché un auteur populaire d’employer ElevenLabs pour lire l’un de ses livres et le soumettre à ces éditeurs, où il a été approuvé et attend sa publication sans rejet.

Microsoft lance l’outil de clonage vocal en 3 secondes VALL-E

Apple présente la narration vocale synthétique pour les livres audio

Voicemod lance un générateur de texte en chanson IA après l’acquisition de Voctro, la startup d’IA de chant synthétique




#startup #synthèse #vocale #ElevenLabs #lève #millions #dollars #pour #les #voix #lIA #avec #une #émotion #contextuelle

Leave a Comment

About Harry Maguire BockFord FootBall League Finals Useful Tricks And Tips To Sit Less And Move More Every Day Upsc Epfo Admit Card 2023 8 Top Ott Releases In June