Le vocal en quête de reconnaissance
Comme la Voix sur IP, la technologie de reconnaissance vocale, annoncée année après année, n'a pas vraiment décollé. Les serveurs vocaux interactifs (SVI ou IVR), en revanche, ont fait leurs preuves et se sont perfectionnés. Mais le DTMF (Dual Tone Multi Frequency) a ses limites, et les arborescences trop compliquées font fuir le chaland. C'est pourquoi on assiste à une demande grandissante pour les applications à base de reconnaissance de la parole, et de synthèse vocale, dite aussi “text to speech”.
À LIRE AUSSI
La reconnaissance vocale est une technologie en mal de reconnaissance.
Pourtant, ces applications, qui permettent à un automate de comprendre une
question simple, et d'y répondre en puisant dans un corpus d'expressions, sont
annoncées depuis un certain temps. En 2000, une analyste du Gartner Group
prédisait qu'en 2003, c'est-à-dire aujourd'hui, « 30 % des services clients
seront équipés de reconnaissance vocale » (1). Or, force est de constater qu'il
n'en est rien. Ni au niveau mondial, et encore moins sur le marché français,
pour lequel, de l'avis unanime des intervenants, le taux d'équipement est
proche du néant. Ce qui n'empêche pas les analystes de continuer de prédire des
taux de croissance soutenus, pour ne pas dire phénoménaux, pour cette
technologie (2). Optimiste, mais néanmoins prudent, Patrick Lemesle, directeur
général de Dialoca, prévoit que « dans les trois ans à venir, 10 % des SVI
existants vont basculer vers la reconnaissance vocale ». Les éditeurs disent
signer des affaires et pensent percevoir une vraie demande de ce type de
solutions. « En 2000, on surfait encore sur la vague internet, avec beaucoup de
projets innovants. En 2001/2002, il y a eu un ralentissement important des
investissements informatiques et des problèmes de ROI. En 2003, il y a moins de
projets, mais il existe une vraie demande pour l'embarqué, et dans les centres
d'appels, pour des applications de qualification des appels », analyse Patrice
Vielpau, country manager chez SpeechWorks. Pour Julien Rickauer, responsable
solutions poste de travail chez l'intégrateur NextiraOne, « le marché est
encore émergent mais va grossir. Auparavant, les technologies n'étaient pas au
point. Une fois sur deux, ça ne marchait pas. Aujourd'hui, le taux de
reconnaissance atteint 95 %, c'est fiable ». Le secteur de la reconnaissance
vocale a pourtant subi un sérieux rétrécissement, du moins en ce qui concerne
les éditeurs. Le belge Lernhout & Hauspie a disparu, victime des errements
financiers de ses fondateurs. Ses activités ont été reprises par l'éditeur
américain ScanSoft, qui a également racheté Philips Speech Processing et, plus
récemment, SpeechWorks (voir encadré en p. 64). Quant à l'autre Américain,
Nuance, il ne possède plus de bureaux sur le territoire français. Reste Dialoca
(ex-MIC2), société issue de l'un des laboratoires français spécialisés dans
cette technique, le Loria de Nancy (Laboratoire Lorrain de Recherches et
Informatique et ses Applications), et soutenue par des investisseurs comme la
Caisse des Dépôts. Et enfin Telisma, fondée par des anciens du Cnet de
Lannion, aujourd'hui France Télécom R & D. Pour Julien Rickauer (NextiraOne), «
le nombre d'acteurs est faible, car développer un moteur de reconnaissance
vocale prend des années ».
Text to speech
Le domaine
du vocal recoupe plusieurs technologies différentes. La reconnaissance
automatique de la parole (ou ASR pour automatic speech recognition) permet au
système d'identifier la question ou le mot prononcé en langage naturel. Ce sont
surtout les opérateurs télécoms, et les banques qui utilisent cette technique.
Selon Eric Hassid, directeur marketing de NetCentrex, pas mal de choses ont
changé en trois ans : « On assiste à une volonté des opérateurs télécoms de
pousser ce service. De plus, les prix des logiciels ont baissé. Et les
interfaces propriétaires entre les serveurs vocaux et les logiciels de
reconnaissance vocale ont disparu. » En effet, alors qu'il fallait, auparavant,
s'équiper de cartes vocales en fonction de l'éditeur, les standards comme le
MRCP (Media Ressource Control Protocol) ou le Voice XML (langage de
programmation) permettent, aujourd'hui, de s'émanciper de ces contraintes.
Autre technique : la synthèse vocale, ou “text to speech” (TTS). Il s'agit
d'enregistrer des annonces, souvent avec des comédiens, qui serviront de base
pour délivrer, ensuite, d'autres messages, en recomposant différemment les
phonèmes. « En France, la synthèse est encore très peu utilisée. Ce sont
surtout les pays multilingues, comme la Belgique ou la Suisse, qui s'en servent
le plus. Pourtant, cette technologie peut rendre de nombreux services, surtout
dans le cas de grosses bases de données », pense Eric Hassid. Pour Patrice
Vielpau, la synthèse est pertinente lorsqu'il existe une grande quantité
d'informations à vocaliser (grosses bases de données), pour écouter ses SMS sur
une plate-forme fixe, ou pour écouter ses mails. Pour Max Cointre, business
development manager chez Dimension Data, la reconnaissance vocale et la
synthèse deviennent intéressantes pour les centres de contacts : « Ce marché a
atteint un niveau de maturité qui lui fait rechercher la productivité et la
qualité de service. Il faut donc répartir le traitement des appels en deux
catégories : soit en les traitant avec des opérateurs humains, soit en les
automatisant. » Les applications vocales sont un des moyens d'automatisation
des tâches qui permettent de mieux gérer les ressources humaines des centres
d'appels. Bien que la France soit en retard vis-à-vis des Etats-Unis, dans
l'utilisation des techniques vocales, la demande pour ce type d'applications
existe bel et bien. « On remarque trois tendances fortes sur le marché des
centres de contacts. La mise en réseau des centres d'appels, l'IP et les
applications vocales », estime Max Cointre. Lui aussi a remarqué une baisse des
coûts de licences, même si la tarification des éditeurs reste compliquée.
Certains font payer à l'accès simultané ou au port. D'autres, pour la synthèse,
au nombre de mots utilisés (voir encadré ci-dessous).
Des standards bienvenus
SpeechWorks propose une solution composée d'un moteur de
reconnaissance et de composants packagés, les “dialog modules”. « Avant, il
n'existait que des configurations propriétaires, composées d'un SVI et d'un
logiciel de reconnaissance. Or, cette plate-forme n'était pas réutilisable.
Aujourd'hui, avec le langage Voice XML, on peut s'affranchir de ces contraintes
», explique Patrice Vielpau. Par ailleurs, le MRCP autorise l'intégration, de
manière standardisée, des différents logiciels sur une même plate-forme. Le
moteur Open Speech Recognizer (OSR) et le logiciel Open Speech Insight (pour le
reporting et l'analyse) permettent de développer des applications complètes. La
mise en œuvre s'effectue en différentes phases, par exemple pour l'interface
utilisateur. Il faut compter environ trois mois d'installation et trois autres
pour les réglages. Côté TTS, SpeechWorks propose Speechify, qui utilise la voix
d'un comédien, puis recompose les messages avec des demis phonèmes réassemblés.
« C'est un pas de plus vers la voix naturelle », pense le country manager de
SpeechWorks. Cette application de synthèse est utilisée par France Télécom et
sa filiale Orange. Le Crédit Lyonnais a construit une solution de self-service
pour ses clients. Avec l'arrivée de ScanSoft, SpeechWorks veut devenir « un
acteur principal sur le marché français en reconnaissance et synthèse vocale »,
selon Patrice Vielpau. Pour atteindre ce but, la société mise sur le retour sur
investissement de telles solutions. « Le coût d'un appel en reconnaissance est
de cinq à six fois moindre que le traitement par un téléconseiller »,
affirme-t-il. Chez Telisma, éditeur français, on vise les secteurs les plus
porteurs, c'est-à-dire les télécoms, mais aussi le transport, la distribution,
et surtout la banque/assurance. Pour Laurent Balaine, P-dg, « il y a eu
beaucoup d'espoirs déçus ces dernières années. Les technologies n'étaient pas
forcément matures ». Aujourd'hui, l'éditeur estime que le but est atteint, et
que ces techniques doivent être au service des utilisateurs. Telisma opère dans
le secteur de la reconnaissance vocale, préférant travailler avec des
partenaires pour les applications de “text to speech”. La société, qui emploie
55 personnes et a ouvert des bureaux à Londres et Munich, a bénéficié de deux
levées de fonds conséquentes (7,4 millions d'euros fin 2000 et 10,5 en juillet
2002). Elle espère arriver à l'équilibre fin 2004. L'éditeur avance une
vingtaine de clients, dont France Télécom, la Macif, Les Echos ou Les Taxis
Bleus (voir article en p. 65) et vise les call centers, les opérateurs
télécoms et les grandes entreprises. Le moteur de reconnaissance de la parole
se nomme Philsoft. Il s'appuie sur la plate-forme client/serveur Voice
Distributed Framework, équipée de connecteurs pour la synthèse vocale.
Une plate-forme complète
L'objectif de Telisma est de
devenir le premier acteur européen de ce marché, grâce aux multiples
applications possibles : qualification d'appels, annuaires d'entreprises,
portails vocaux. « Le vocal est complémentaire de la téléphonie. Il permet
d'absorber beaucoup d'appels, et de valoriser le travail de l'opérateur en le
dégageant des tâches répétitives. De toutes manières, le nombre d'appels qui
arrivent dans les centres de contacts ne cesse d'augmenter. Les applications
vocales permettent d'absorber la croissance sans exploser les coûts », analyse
le P-dg de Telisma. Dialoca, autre acteur français, a un positionnement un peu
différent. En effet, l'éditeur propose une plate-forme déjà équipée des
logiciels. Créée en 1996 sous le nom de MIC2, Dialoca, structure commerciale,
naît en 2002. Elle emploie aujourd'hui une vingtaine de personnes et espère
réaliser un chiffre d'affaires de 1,5 million d'euros en 2003. Patrick Lemesle,
directeur général et ancien de Bull et Kana, pense que le marché bouge : « La
technologie a vraiment évolué. Par exemple, en passant du mono au
multilinguisme. Et aussi grâce aux standards d'interfaçage. » Citant le Gartner
Group, Dialoca estime que la reconnaissance de la parole sera l'une des quatre
technologies incontournables à l'horizon 2010. Positionnée sur le marché de la
relation client, elle ne propose pas un moteur à intégrer mais « des solutions
concrètes qui apportent un bénéfice immédiat ». Le temps de mise en production
est de trois mois en moyenne. Dialoca Directory permet l'automatisation de
l'accueil téléphonique des entreprises. Il est commercialisé et paramétré par
des intégrateurs comme NextiraOne. Par ailleurs, l'éditeur propose des
solutions B to C : Dialoca Call Center, Dialoca IVR, utilisées, par exemple,
par Paris Expo. « Le ROI a été rapide car, auparavant, deux personnes étaient
employées à l'accueil uniquement pour donner les noms de salons », précise le
directeur général de Dialoca. Et Dialoca Web, pour un accès vocal aux sites
web. Les solutions B to B comprennent Dialoca Mobility, qui vise les
entreprises entretenant des flottes de nomades et Dialoca Security. « Nous
voulons créer le marché des solutions vocales », assure Patrick Lemesle.
Une assistance humaine
Outre les éditeurs, les
opérateurs de téléphonie sont également des acteurs majeurs de ce marché
émergent. Ainsi, France Télécom, Atos Multimédia ou Prosodie offrent des
services en reconnaissance de la parole et synthèse vocale à leurs clients.
Prosodie a mis au point une solution originale, mixant automatismes vocaux et
assistance humaine, le RVAO, ou reconnaissance vocale assistée par opérateurs.
Véritable positionnement marketing, ce service fait partie d'une panoplie
d'applications vocales mises au point par l'opérateur privé. « C'est un concept
maison, avec une optique industrielle via une machine dédiée à la diffusion de
messages par téléphone », détaille Thomas Schmidt, business développeur à la
direction marketing. Le dispositif permet de venir à l'aide de la machine si
elle ne comprend pas la requête de l'appelant. « L'opérateur prend la main et
renseigne le système sans que le client ne s'en aperçoive. Cela permet
d'enrichir les capacités de compréhension de la machine », explique Thomas
Schmidt. La Fnotsi (Fédération des Offices de Tourisme et Syndicats
d'Initiative) a choisi cette solution pour son portail vocal. Prosodie possède
son propre moteur de reconnaissance de la parole, développé par sa filiale
espagnole Siat, mais préfère utiliser des technologies existantes, comme celles
de l'éditeur Nuance. Il est également en discussion avec SpeechWorks et
Telisma. Mais, quel que soit le système employé, l'opérateur estime que le
moteur est secondaire pour le client final. Celui-ci réclame des solutions
packagées. Celles mises au point par Prosodie ont différents usages. Par
exemple, pour les choix multiples en “liste profonde”, impossibles à gérer avec
un système DTMF. Ou encore pour des applications transactionnelles (vente à
distance, passage d'ordres boursiers, etc.). Et pour les call centers, dans une
optique de préqualification des appels. Enfin, les portails vocaux permettent
de proposer un numéro court unique. « Le client peut ainsi communiquer sur un
numéro de téléphone attractif, et générer des contacts », estime Laurent
Marcelis, directeur marketing adjoint de la division réseaux et services, chez
Prosodie. Ces solutions mixtes de reconnaissance assistée semblent séduire les
prospects, si l'on en croit l'opérateur télécom : « Le marché s'accélère. Il
n'y a plus un appel d'offres d'applications SVI sans reconnaissance vocale »,
affirme Laurent Marcelis. Malgré la maturité des technologies vocales, les
entreprises peinent encore à les intégrer dans leurs dispositifs d'accueil
téléphonique. Si les opérateurs télécoms ont ouvert la voie, il reste encore
beaucoup de travail à effectuer de la part des éditeurs et intégrateurs pour
faire décoller le vocal. « Nous devons toujours évangéliser, montrer des
références. Nous souffrons encore du syndrome “est-ce que ça va marcher ?” »,
rappelle Patrice Vielpau. Avis partagé par Laurent Balaine : « Il y a un
décalage entre la perception des technologies de reconnaissance vocale et la
réalité. Il existe toujours une forme de scepticisme. » Et Thomas Schmidt de
conclure : « Les gens doivent apprendre à parler à la machine. Il manque encore
une grande application connue de reconnaissance vocale. » (1) in Centres
d'Appels n° 15 (2) Les cabinets américains, Allied Business Intelligence et
Chaner In-Stats, prévoient que le chiffre d'affaires mondial du secteur du
vocal devrait être de 2,7 milliards de dollars en 2007 et 5 milliards en 2008.
Le prix du vocal
Les intervenants sont unanimes : le prix des licences des logiciels de reconnaissance de la parole et de synthèse vocale ont baissé ces dernières années. Reste que ces techniques ont un coût, pas toujours aisé à déterminer, en raison des tarifications compliquées des éditeurs. Pour Eric Hassid (NetCentrex), il faut compter environ 1 500 euros, par canal, pour une application de reconnaissance vocale, et 1 000 euros pour une langue en mode “text to speech”. Julien Rickauer (NextiraOne) donne une fourchette de 20 à 150 000 euros pour des fonctions d'accueil automatisé ou d'annuaire. Chez SpeechWorks, il en coûte 650 dollars par canal téléphonique pour le produit Speechify. Telisma a une tarification double. Soit en fonction de la complexité du vocabulaire (250 euros le port jusqu'à 40 000 mots, puis 1 500 euros au-delà). Soit en fonction du nombre de mots reconnus. « Ça se rapproche d'un paiement à l'usage et cela permet de limiter l'investissement de départ », explique Laurent Balaine. Chez Dialoca, Directory vaut de 15 000 à 100 000 euros, les solutions B to C, de 60 à 100 000 euros. Quant à l'opérateur Prosodie, il estime qu'un serveur vocal interactif équipé d'une solution de reconnaissance de la parole est, environ, de 20 à 30 % plus cher qu'un système DTMF, jusqu'à deux fois plus onéreux si on installe de la synthèse vocale. Mais cette dépense se justifie dès lors que l'on génère un trafic suffisant, à partir d'un million de minutes par an.
Scansoft avale ses concurrents
L'éditeur américain ScanSoft, spécialisé dans l'imagerie numérique, a récemment acquis plusieurs sociétés éditrices de solutions de reconnaissance et synthèse vocale. D'abord Lernhout & Hauspie, puis Philips Speech Processing et enfin SpeechWorks : la boulimie d'acquisition de ScanSoft, dans le domaine du vocal, va en faire l'un des leaders mondiaux de cette activité. Le gros morceau étant SpeechWorks, parmi les premiers sur le marché de ces technologies avec Nuance. La transaction est valorisée à environ 132 millions de dollars, et devrait être effective durant l'été. L'éditeur anticipe une réduction de coûts de 27 millions de dollars suite à la fusion, principalement en réduisant les effectifs, en regroupant les bureaux et en abaissant les coûts marketing et administratifs. Il prévoit un revenu 2004 de 200 M$, dont 125 provenant des services vocaux. ScanSoft devrait conserver la marque SpeechWorks et continuera à supporter et distribuer les deux gammes de produits.