Nous sommes une majorité à déjà utiliser la fonction voix dans nos interactions avec la technologie qui nous entoure au quotidien, mais la rapidité de cette adoption va peut-être vous surprendre. L’Europe suit généralement de près les tendances technologiques observées aux États-Unis.
De récentes études ont démontré qu’un nombre croissant de consommateurs ont recours aux enceintes intelligentes (« smart speakers ») pour se faciliter la vie, et que les appareils à activation vocale d’Amazon représentent ainsi désormais 70 % environ des parts de marché aux États-Unis, avec près de 100 millions d’unités utilisées par les foyers américains. Les assistants numériques devraient quant à eux avoisiner un volume de 8 milliards d’ici 2023, soit un chiffre plus élevé que le nombre actuel d’habitants sur la planète. Cette croissance exponentielle indique que la population se familiarise de plus en plus avec ces solutions.
Un constat d’autant plus impressionnant quand on se rappelle qu’il n’y a pas si longtemps, la seule expérience de bien des consommateurs avec la technologie vocale dans le monde professionnel avait lieu lors d’appels frustrants avec des services clients dont le système semblait quasiment destiné à vous empêcher d’accéder à un conseiller. Mais ces applications ont depuis fait un incroyable bond en avant. Elles sont désormais bien plus proches du héros de mon enfance, l’ordinateur qui servait d’assistant numérique dans la série Star Trek : il permettait une reconnaissance entièrement vocale sans aucun problème de compréhension et sans jamais avoir à se répéter. Bref, la technologie peut enfin remplir son véritable cahier des charges, et le traitement du langage naturel promet des gains quasi-illimités en temps comme en efforts.
Une genèse datant des années 70
Comment cette invention a-t-elle vu le jour ? Les solutions de reconnaissance vocale et d’assistance numérique ont vraiment débuté en 1971. Les origines de leur développement sont antérieures, mais selon moi, la création du système Harpy par l’université Carnegie-Mellon en marque vraiment le point de départ. Capable de traiter plus de 1000 mots et quelques phrases, il s’agissait de la première version véritablement opérationnelle de cette technologie.
En 1986, IBM lançait sa solution IBM Tangara fondée sur le modèle Hidden Markov. Grâce aux statistiques, elle pouvait prédire les prochains phonèmes de l’allocution et a ainsi donné lieu à une grande avancée dans le domaine : plus de 20 000 mots reconnus.
NaturallySpeaking 1.0, le premier produit informatique de dictée continue, a été créé en 1997 par Dragon Systems. Dix ans après, le programme PAL (Personal Assistant that Learns) voyait le jour au travers d’une initiative de recherche militaire menée par DARPA, et l’intelligence artificielle faisait son entrée sur le devant de la scène. L’entreprise SRI Inc., née de ce développement, a ensuite été rachetée par Apple.
En 2008, Google dévoilait son application de recherche vocale pour téléphones portables, tandis qu’Apple présentait la reconnaissance vocale basée sur le cloud avant de sortir SIRI en 2011. Enfin, en 2014, Amazon lançait sa solution Echo fondée sur Alexa, son fameux système d’assistance numérique vocale. Malgré cette arrivée tardive sur le marché, vous n’aurez pas oublié le chiffre cité plus tôt, clair indicateur du rôle joué par Amazon dans la démocratisation des applications vocales.
Mais quelles opportunités ces fonctions avancées offrent-elles dans le monde professionnel ? Je suis d’avis que nous n’en explorons encore que la surface. Il existe tout un nombre d’applications simples qui peuvent être transférées à un environnement de travail : commande vocale à distance, assistants numériques en ligne ou bots chargés de tâches aisées telles que l’orientation vers le service approprié dans les grandes entreprises, par exemple. Pour la main d’œuvre mobile, cette fonctionnalité pourrait avoir une grande variété d’usages. Imaginez-vous, en entrepôt, pouvoir demander votre terminal informatique mobile quand une pièce spécifique a été inspectée pour la dernière fois ou d’en lister les dix derniers défauts de fonctionnement. Ou peut-être même de vous expliquer une procédure particulière d’entretien ou de réparation. Ces types de solutions seraient envisageables, en plus de fournir une réponse à des questions plus habituelles sur votre prochain site à visiter, ou bien tout simplement pour vous souvenir où vous avez mis vos clés !
Mais comme toute idée en développement, ces potentielles nouvelles applications comportent encore quelques défis à résoudre. Sous terre ou hors de portée d’une connexion Wi-Fi, il est nécessaire que le terminal informatique mobile dispose de suffisamment de capacités de calcul pour analyser la tâche, ainsi que de capacités de mémoire pour accueillir la bibliothèque de traitement de langage naturel. Il faudra également que la solution apprenne à gérer les différences d’accent et de prononciation. Le travail hors-ligne présente cependant aussi des avantages. Le traitement local vous offre une sécurité supplémentaire, ainsi que plus de rapidité car l’information ne doit plus être manipulée dans le cloud.