Tout domaine relié à l’intelligence artificielle avance très rapidement ces derniers temps et Google montre une fois de plus qu’il est une grosse pointure dans cette industrie.
Sa filiale londonienne spécialisée dans l’intelligence artificielle, DeepMind, a présenté les premiers résultats de sa mise au point de la technologie WaveNet qui produit une voix ressemblant à celle de l’humain. Il sera dorénavant possible d’échanger avec des voix synthétiques qui nous sont familières, moins robotisée et plus chaleureuse.
Seulement deux méthodes étaient utilisées auparavant pour créer des voix synthétiques. Soit on enregistrait des milliers de mots prononcés par une personne ou on crée simplement une voix totalement synthétique.
Pour se démarquer des deux anciennes méthodes utilisées, DeepMind a eu recours à sa nouvelle technologie baptisée deep learning. Elle crée ainsi des spectres sonores avec 44 heures de discours lus par 109 participants.
De cette façon, DeepMind entraîne ses machines à répliquer comme les humains en décortiquant minutieusement tous les sons. On parle de 16 000 échantillons par seconde de voix humaine qui peuvent être reconnus par la machine utilisée.
Google mentionne que sa nouvelle technologie WaveNet est supérieure de 50 % à celles de ses concurrents comme Siri d’Apple ou Alexa d’Amazon qui utilisent des voix paramétriques et par concaténation.
Voix paramétrique:
Voix obtenue par concaténation:
WaveNet:
VOIR AUSSI:
:
:
INOLTRE SU HUFFPOST