Reconnaissance vocale La voie est ouverte

Commander un automate en parlant au lieu d'appuyer sur des touches : c'est l'objectif de la reconnaissance vocale. Cet ensemble de techniques commence à apparaître dans les centres d'appels. Banque et finances, tourisme et transports, télécommunications sont les premiers secteurs visés. En France, le marché est encore balbutiant et les intervenants peu nombreux. Mais les fournisseurs américains et européens arrivent. Et ils comptent bien introduire cette nouvelle technologie à grande échelle dans les call centers.

Publié par Patrick Cappelli le 1 avr. 2000

Lecture
12 min

Imprimer

Après le e-commerce, place au V-commerce (1). Les techniques de reconnaissance vocale et de synthèse vocale, dites aussi "text to speech", sont le sujet à la mode dans l'univers des centres d'appels. Pourquoi continuer à appuyer sur des touches, à écouter des instructions trop nombreuses, à suivre d'interminables arborescences, si l'on peut simplement prononcer une phrase ? Bientôt, on pourra entendre de plus en plus de gens dire au téléphone : "Achetez-moi dix actions IBM" ou "Je voudrais un billet d'avion Paris-New York à 2 000 francs". Car le but de la reconnaissance vocale, c'est de remplacer les serveurs vocaux interactifs (SVI) dans certains cas précis. « Les serveurs vocaux interactifs sont limités. La parole est plus naturelle que le clavier. Certaines activités dans lesquelles on utilise des SVI peuvent être avantageusement remplacées par de la reconnaissance vocale », estime Patrice Vielpeau, responsable France de SpeechWorks. « Le DTMF (2) est limité : il faut coder l'information. Plus celle-ci est complexe, plus c'est difficile », ajoute Christian Dugast, directeur européen de Nuance. Seconde application de la reconnaissance vocale en langage naturel : décharger les opérateurs des tâches répétitives et les redéployer sur des postes à valeur ajoutée. D'après Donna Fluss, analyste du Gartner Group, spécialisée dans cette technologie, 20 % des appels ne réclament pas l'intervention d'agents. De plus, la difficulté de recruter du personnel qualifié dans les centres d'appels encourage la mise en place de tels systèmes de remplacement. En fait, la reconnaissance vocale est intéressante dans les cas où il n'y a aucune décision importante à prendre.

ELIMINER LES TÂCHES RÉPÉTITIVES

« Ces applications permettent de libérer les conseillers financiers des tâches répétitives », pense Christian Dugast. Donc, pas d'inquiétude sur un éventuel remplacement des téléopérateurs par des systèmes automatisés de reconnaissance vocale. « En rendant le travail des téléopérateurs plus intéressant, on réduit les frais de recrutement et de formation », affirme Patrice Vielpeau. Et, dans un secteur en pleine croissance comme celui des centres d'appels, du moins en Europe, cet argument risque de faire mouche. « Ces techniques permettent de se concentrer sur les 20 % d'appels générateurs de business », ajoute François-Xavier Despret, directeur Europe du Sud de Philips Speech Processing. La reconnaissance vocale est composée, selon Lernhout & Hauspie, de plusieurs techniques. L'Automatic Speech Recognition (ASR) sert à répondre aux questions fréquentes ou basiques. Le logiciel de synthèse vocale (text to speech) permet de résoudre les problèmes de ré-engistrement des messages, par exemple dans les aéroports. Inconvénient : la voix sonne de manière monotone et sèche. La "couleur" de la voix est très importante. C'est ce qui donne sa personnalité à l'application. Et celle-ci doit être absolument personnalisée. « Si on veut vous vendre une application packagée, fuyez ! », lance Steve Parsons, directeur marketing et produits de Lernhout et Hauspie. François-Xavier Despret recense, quant à lui, quatre méthodes. La reconnaissance du mot isolé : le logiciel reconnaît uniquement le mot "taxi" dans une phrase. Mais, selon lui, plus personne n'utilise cette technique. Le "word spotting" : on prononce plusieurs mots, puis "taxi", et de nouveau plusieurs termes. Ce système serait toujours utilisé, pour les noms propres par exemple. La troisième méthode s'appelle la "grammaire fixe" ou CFG (Contextual Free Grammar). Le principe : on écrit un nombre de phrases suffisantes pour que le contexte soit reconnu par la machine. C'est la phrase la plus proche du contexte défini qui sera choisie. L'expression naturelle ou "grammaire à contexte" emploie, elle, beaucoup de petites séquences et utilise des "fillers" ou remplisseurs. « On peut mélanger les contextes. Le système pose des questions sur ce qui manque, comme le ferait un humain », explique François-Xavier Despret. Pour le directeur européen de Nuance, qui travaille sur cette technique depuis longtemps, la reconnaissance vocale en langage naturel, c'est « la possibilité d'accéder à des informations en utilisant sa propre voix, son propre vocabulaire et sa propre grammaire ». Les systèmes doivent pouvoir reconnaître les différents sens d'un mot qui sonne de la même manière, comme "vert" et "vers".

A CHAQUE APPLICATION SON VOCABULAIRE

Chaque application nécessite donc son propre dictionnaire ; il faut définir la sémantique. C'est pourquoi la reconnaissance vocale n'est pas une technique "plug and play" pour laquelle il suffirait de lancer un logiciel. La définition et l'apprentissage d'un corpus de mots prennent du temps. Certaines sociétés font ainsi intervenir des psycholinguistes, pour bien déterminer le vocabulaire qui sera employé. Selon Philips Speech Processing, les critères de succès d'une application sont au nombre de quatre. Un : l'interface utilisateur, qui dépend de l'ergonomie mise en place. Deux : le design de l'application, intimement lié au premier facteur. Trois : le dialogue, qui doit être fondé sur un système itératif. « Le système doit être capable d'identifier si l'utilisateur appelle pour la première ou la cinquième fois », précise François-Xavier Despret. Quatre : une approche industrielle. Les intervenants dans le domaine de la reconnaissance vocale doivent posséder des compétences technologiques, qui s'appuient sur de réelles ressources en recherche et développement. Ils doivent maîtriser le développement des applications, avec ou sans intégrateurs. Enfin, ils doivent être guidés par une logique industrielle. En raison de tous ces facteurs, le coût d'une application de reconnaissance vocale pour centre d'appels commence à 1,5 voire 2 millions de francs pour une trentaine de lignes en accès simultané. De son côté, Nuance avance les chiffres de 100 à 1 500 dollars (600 à 9 000 F) la ligne, uniquement pour le logiciel. Philips estime un système pour 30 lignes à environ 400 000 F, mais uniquement pour les composants logiciels et le développement, sans inclure le serveur vocal interactif. Autre élément qui alourdit la facture : la puissance de calcul (CPU) des ordinateurs, qui doit être suffisante pour décoder la voix. Enfin, des frais d'intégration viennent souvent s'ajouter au total. Pourtant, les fournisseurs de technologie établissent la durée du retour sur investissement entre neuf et quatorze mois, ce qui semble court. Et malgré les sommes évoquées, des sociétés américaines comme Charles Schwab ou Fidelity (brokers en ligne) ont installé des systèmes de 500 et 4 000 lignes. D'après Nuance, Fidelity traiterait un million d'appels par jour en reconnaissance vocale.

INTERNET, AVENIR DU VOCAL

Un opérateur de télécommunications italien aurait lancé un projet de 10 millions de francs, avec un retour sur investissement très court selon le fournisseur, qui parle de trois à six mois. Toujours d'après Nuance, le logisticien américain UPS économiserait 2,50 dollars (15 F) par appel, par rapport à un opérateur humain, pour son activité de suivi des colis. Aux Etats-Unis toujours, SpeechWorks a installé de la reconnaissance vocale chez United Airlines. La compagnie aérienne s'en sert pour son centre d'appels interne de réservation de billets. En Italie, Philips Speech Processing a installé une application pour Omnitel, numéro deux des télécommunications, qui tourne sur 2 880 lignes en accès simultané. Un chantier considérable, chiffré à plus de 300 MF. Autre utilisation possible de cette technologie : la lecture automatisée des mails. La convergence entre Internet et la téléphonie ouvre également des perspectives. « C'est l'avenir du vocal », affirme Christian Dugast, qui pronostique la mise en place des premiers systèmes aux Etats-Unis pour 2001 et en Europe pour 2002. « Le "e-mail reading" est un marché porteur, surtout chez les opérateurs de télécommunications », ajoute Stephan Van Herck, vice-président de Lernhout & Hauspie. La montée en puissance des téléphones portables est une autre opportunité pour le vocal. En 2002, plus de 60 % de la population européenne devrait en être équipée. Ils serviront à consulter des services mais aussi à acheter et vendre. Néanmoins, en France, la reconnaissance vocale est une technique récente. « Il y a encore un an, la technologie n'était pas prête. La voix était robotique, le nombre de mots limités et les performances des ordinateurs insuffisantes », précise Stephan van Herck. Christian Dugast fait remonter les premières applications à trois ans environ. « Le nombre d'applications est encore très limité. En 1997, on en comptait une dizaine dans le monde, une trentaine en 1998, 70 en 1999 et il y en aura probablement autour de 200 cette année. » En France, « cela commence tout juste », selon Michel Loubris, ingénieur commercial chez Dialogic, filiale d'Intel qui fabrique des cartes vocales. Néanmoins, une première application a été installée par GL Multimédia, filiale de GL Trade. Baptisée Audiobourse, elle utilise le logiciel SpeechWorks et permet de demander vocalement le cours d'une action pour les marchés de la Bourse de Paris. Le logiciel SpeechWorks est additionné d'un vocabulaire de 5 000 mots et tourne sur un serveur sous Windows NT. « Cette application de consultation servira de vitrine. Ensuite, on l'étendra aux transactions. Une fois les clients fidélisés, GL Multimédia pourra encaisser des pourcentages sur ces transactions », précise Patrice Vielpeau. Selon Henry Gérente, directeur général de GL Multimédia, « ce système de reconnaissance vocale est le complément naturel de notre offre Internet et un produit alternatif pour la passation d'ordres boursiers ».

DES CONTRATS FRANÇAIS EN VUE

Tous les fournisseurs de technologie annoncent des contrats en France en 2000. Lernhout et Hauspie espère en signer une vingtaine, Nuance évoque plusieurs signatures dans les tuyaux, et SpeechWorks parle d'un opérateur de télécommunications. Philips avance les noms d'Atos et Prosodie ainsi que la Deutsche Bank en France. « Il y a beaucoup d'intérêt et l'on sent une vraie effervescence autour de ces techniques », s'enthousiasme Patrice Vielpeau. Néanmoins, certains avancent que la reconnaissance vocale n'atteint pas encore les taux de réussite du DTMF. « Ça fonctionne très bien en laboratoire. Mais, dans la pratique, on n'est jamais à 100 % », estime Anthony Dinis, responsable de la stratégie et du développement chez Vocalcom. « En laboratoire, on a un taux de reconnaissance de 95 % environ. Mais en environnement bruyant ? », demande Jérôme Lebrun, Dga de Com 6. Anthony Dinis évoque aussi le prix encore trop élevé de cette technologie : « La carte vocale nécessaire à ce type de système coûte déjà deux fois le prix d'une carte normale. La reconnaissance vocale ne décollera que si elle devient fiable à 100 % et si les prix baissent. » Jérôme Lebrun raconte que « American Express a testé un système de reconnaissance vocale, il y a trois ans, avec un outil IBM. Ils l'ont abandonné car le taux de fiabilité n'était pas suffisant ». Mais les quatre principaux fournisseurs restent confiants. C'était il y a trois ans et, depuis, la technologie a considérablement évolué. Ils sont persuadés d'être dans le bon "time to market". A condition que leurs techniques fonctionnent et soient adoptées par quelques entreprises prescriptrices. « La reconnaissance vocale va réussir ou échouer en fonction de ce qu'en feront les sociétés. Il faut se concentrer sur quelques applications à succès. Alors, tout le monde en réclamera », estime François-Xavier Despret. Donna Fluss, directeur de recherches au Gartner Group, estime qu'en 2003, 30 % des services clients seront équipés de reconnaissance vocale. William Meisel, spécialiste de la reconnaissance vocale, est président de TMA Associates qui a réalisé l'étude "The Telephone Voice User Interface" (3). Il a comparé une interface vocale avec les SVI traditionnels. Il en conclut qu'un centre d'appels qui reçoit 100 000 appels par mois pourrait réduire sa facture de 1,2 million de dollars (8 MF) en utilisant la reconnaissance vocale. Le même expert prédit que le marché du vocal chez les développeurs de télécommunications passera de 194 millions de dollars (1,2 milliard de francs) en 1999 à 1,1 milliard de dollars en 2002 (7 milliards de francs). Une croissance qui autorise tous les espoirs. (1) Voice commerce ou commerce vocal. Une association de fournisseurs rassemblés autour de Nuance a adopté ce patronyme (www.vcommerce.com). (2) DTMF : Dual Tone Multifrequency ou multifréquence en code. Méthode de signalisation entre un téléphone et un commutateur dans laquelle chaque touche du téléphone est transmise en tant que combinaison de deux fréquences (source : Glossaire terminologique du CRM). (3) Cette étude est en vente sur le site de TMA Associates (www.tmaa.com)

Comment ça marche

Un système de reconnaissance vocale est composé de plusieurs strates. On trouve d'abord une carte vocale, dont les principaux fournisseurs sont Dialogic, qui revendique le leadership du secteur, et NMS (Natural Micro Systems). Benoît Coux, architecte en solutions d'Entreprises chez Aspect *, détaille cette architecture. « Le client prononce une série de mots. Une première carte récupère les impulsions et traite le signal. Le logiciel de reconnaissance vocale tourne sur une seconde carte. Il découpe les sons en phonèmes et les associe pour en faire des mots. Ceux-ci sont envoyés au serveur qui fait du "search and match", c'est-à-dire qu'il attribue des pourcentages de confiance puis prend des décisions. La seule limitation d'un tel système réside dans la puissance de calcul du serveur, un puissant PC tournant sous Windows NT ou Unix en fonction des fournisseurs. Cette application peut être située soit sur la plate-forme SVI liée à un ACD, soit sur un serveur vocal interactif indépendant. » * Aspect a signé des accords avec Nuance et SpeechWorks au niveau mondial.

Le portable qui parle

Chez Bouygues Telecom, elle s'appelle Lucie. C'est une assistante vocale qui répond à l'abonné, à condition que celui-ci en ait fait le choix dans son forfait. Cette application de reconnaissance vocale pour téléphone mobile a été développée par la société américaine Wildfire Communications. Cette technologie a également été adoptée en Grande-Bretagne par Orange, et en France par France Télécom, pour les postes fixes cette fois-ci. Créée en 1994, Wildfire a développé le logiciel Wildfire Electronic Assistant qui tourne sur des serveurs et des ordinateurs Compaq. La technologie se fonde sur un stockage des mots numérisés et des techniques statistiques pour "deviner" les combinaisons de termes probables. Le logiciel est composé des plusieurs modules dont Voice Dialing (numérotation vocale), Follow Me (renvoi d'appel), Voice Controlled Voice Mail (messagerie vocale contrôlée à la voix), Unified Mail Messaging (accès à la messagerie électronique), etc. Wildfire vise le marché porteur des téléphones mobiles (64 millions d'utilisateurs aux Etats-Unis, 80,5 millions en Europe selon le magazine Global Mobile).

Publié par :
La rédaction

Tags associés :