Le vocal cherche sa voie
Les technologies vocales (reconnaissance de la parole et synthèse vocale) peinent encore à s'imposer dans les entreprises et les centres de contacts. Ce n'est plus la méfiance à l'égard de la technique qui freine cette expansion, mais plutôt le contexte économique morose. Pourtant, le vocal peut apporter des solutions intéressantes en matière d'automatisation de certaines tâches, ou pour affronter les débordements en cas de pics d'appels.
En France, les applications vocales ne sont pas une nouveauté. Les numéros
audiotel à revenus partagés, promus par l'opérateur national, ont habitué les
consommateurs à utiliser ce genre de solutions. « De nombreux opérateurs se
sont mis à faire des applications vocales pour les entreprises, car elles
représentaient une manne substantielle pour ces sociétés », explique Carine
Ziol, chef de produit chez NetCentrex. Même avis du côté de Laurent Bailly,
responsable des solutions de gestion du contact client chez Atos Wordline
(division d'Atos Origin) : « Dès le début des années 90, les numéros audiotel
ont engendré les premiers services vocaux. » L'arrivée de standards (Voice XCML
pour les applications sur le Web, MRCP pour les moteurs de reconnaissance
vocale) ont ensuite donné un coup d'accélérateur au vocal. Les banques ont été
les premières à utiliser ces technologies, puis les opérateurs de téléphonie
mobile, le tourisme, etc. Les annuaires vocaux d'entreprise sont également une
application qui intéresse de plus en plus les sociétés. « Le vocal permet
d'automatiser des tâches répétitives. L'annuaire interne à reconnaissance
vocale, ça marche », affirme Carine Ziol. Les portails vocaux se développent
également. « Les portails vocaux à partir de numéros courts permettent
d'agréger différents services basés sur de la reconnaissance vocale », précise
Laurent Bailly, qui cite ainsi la société Cap Multimédia (jeux, sonneries de
mobiles) qui gérait dix numéros audiotel avant de les rassembler sous le seul
32 02. Néanmoins, malgré l'intérêt pour ces systèmes, l'explosion du vocal,
pronostiquée par les instituts d'études, n'a pas eu lieu (voir aussi Centres
d'Appels n° 46). Le ralentissement de l'économie, la crise des télécoms et le
haut niveau d'investissement requis par les technologies vocales ont freiné
leur diffusion massive. Le nombre réduit des intervenants prouve que ce marché
reste difficile. En un an, SpeechWorks a disparu en tant que tel, intégré à
ScanSoft (qui avait auparavant racheté Lernout & Hauspie puis Philips Speech
Processing), Nuance s'est recentré sur son marché domestique, les Etats-unis.
Elan (France) et Babel (Belgique), deux acteurs de la synthèse vocale, se sont
rapprochés. Et Dialoca, acteur français indépendant, est en liquidation
judiciaire. La société Vocalcom, fournisseur de solutions de centres d'appels,
a fait une offre de rachat. « Mais seulement si les gens restent, sinon, c'est
sans intérêt », précise Antony Dinis, président Europe. Patrick Lemesle,
directeur général de Dialoca, explique la raison de cette issue négative : « Le
marché de la reconnaissance vocale n'est pas encore bénéficiaire. Nos
investisseurs ont décidé de ne pas faire le troisième tour prévu. Or, cette
activité nécessite un soutien financier conséquent. »
Un “agent transparent”
Victime du coût de développement d'applications qui
ne se sont pas révélées rentables, la société française a donc été contrainte
de cesser ses activités. Pourtant, un de ses produits, l'annuaire d'entreprise
vocal Directory, a eu un certain succès. « Il existe un vrai besoin pour ce
type de solution packagée avec des cycles de vente courts », estime Patrick
Lemesle. Pour le dirigeant de Dialoca, la reconnaissance vocale n'est pas
encore un “must have”. Dans un contexte économique ralenti, seuls les dossiers
qui répondent à de vraies contraintes sont acceptés. Ce qui ne semble pas être
le cas pour le vocal. Pour Antony Dinis, « la reconnaissance vocale marche de
mieux en mieux, mais pas dans cent pour cent des cas, et on ne doit pas
l'imposer à l'utilisateur ». Vocalcom travaille avec Elan et l'italien Loquendo
(issu de Télécom Italia) pour la synthèse vocale, et avec Dialoca et l'espagnol
Natural Vox pour la reconnaissance de la parole. « Si la synthèse vocale
fonctionne bien, il faudra encore quelques années pour que la reconnaissance de
la parole s'impose », estime Antony Dinis. En raison, selon lui, d'une
sensibilité trop importante aux bruits ambiants qui oblige les locuteurs à
recommencer leur énonciation au moindre son parasite, au risque de les
décourager. C'est pourquoi il préfère le système “d'agent transparent” mis au
point par l'espagnol Natural Vox : « Si le moteur a un doute, il passe le
message vocal à un téléopérateur qui le ressaisit, le tout sans que
l'interlocuteur ne s'en aperçoive. » D'après Antony Dinis, une trentaine de
banques espagnoles et sud-américaines utilisent déjà ce système. « Le système
de l'agent transparent est sans contraintes pour l'utilisateur. C'est aussi
plus modeste en termes d'ambitions vis-à-vis de la reconnaissance de la parole
et surtout plus réaliste. » Eliminer au maximum les contraintes pour
l'appelant, c'est, selon Vocalcom, la clé du succès pour la reconnaissance de
la parole. Chez Telisma, issu de France Télécom Recherches et Développement, on
se concentre sur les moteurs de reconnaissance vocale à destination des
opérateurs télécoms. Ni reconnaissance embarquée ni synthèse vocale (dite aussi
text to speech ou TTS) pour cet éditeur français qui revendique au moins une
référence majeure avec chaque opérateur. Selon Jean-Jacques Devaux, son
directeur marketing, « le marché français du vocal est tiré par les hébergeurs
de solutions que sont les opérateurs de télécoms ».
Remplir un service de A à Z
France Télécom, par exemple, investit beaucoup
dans ces systèmes qui commencent ainsi à toucher le grand public. Les services
de masse sont d'ailleurs la clé de la viabilité de la reconnaissance de la
parole, selon Telisma, qui a toute confiance dans sa technologie. « Toutes les
belles affaires de reconnaissance vocale des douze derniers mois ont été faites
avec nos produits », affirme Jean-Jacques Devaux. Une autre clé du succès selon
ce fournisseur, c'est la focalisation sur un seul segment. Pour le directeur
marketing de Telisma, l'erreur de Dialoca a été de se diversifier tous azimuts.
« Même si leur annuaire d'entreprise a bien marché, il faut un minimum de masse
critique », analyse-t-il. Il est également nécessaire de bien cibler les
services pour lesquels la reconnaissance vocale est pertinente ou se
positionner en relais de services existants. C'est par exemple le cas pour la
SNCF (voir en p. 6) qui a mis en place un portail avec numéro unique, le 36
35, pour qualifier les appels et les diriger vers le bon centre de contacts.
Cette technique est également un bon moyen de faire face aux pics d'appels, ou
de combler un manque de disponibilité des opérateurs humains en dehors des
heures d'ouverture. « Nous parlons ici d'un mode semi- automatique, en
répondant à l'utilisateur sans remplacer l'opérateur », précise Jean-Jacques
Devaux. C'est le cas à la Macif ou chez alapage.com, pour les pics d'appels de
la période de Noël. De plus en plus, la reconnaissance vocale est employée pour
remplir un service de A à Z. D'ailleurs, les annonceurs ne s'y sont pas
trompés, puisque l'on voit se multiplier les publicités télévisées qui
renvoient sur un numéro d'appel géré via un système de reconnaissance de la
parole. Et les évolutions techniques devraient continuer, permettant dans un
avenir proche de prononcer des phrases complètes reconnues par l'automate. «
Nous croyons beaucoup à cette capacité à comprendre des requêtes complexes »,
avoue le directeur marketing de Telisma. L'éditeur annonce pour les semaines à
venir une nouvelle génération de produit qui viendra remplacer l'actuel moteur
ASR 3.2.
Un marché rentable ?
L'acteur majeur de ce
marché, l'américain ScanSoft, est lui présent sur tous les créneaux du vocal :
reconnaissance, synthèse, embarqué. Il équipe les utilisateurs via des
partenaires (intégrateurs, hébergeurs ou équipementiers). « Nous fournissons
les technologies et les solutions packagées, mais nous ne sommes jamais en
contact avec les centres d'appels, sauf cas précis », détaille Grégory Vanesse,
directeur des ventes France. Il estime le marché du vocal à environ 30 % des un
million et demi de positions existantes dans les call centers européens. Les
secteurs potentiellement intéressants sont la Banque et les Assurances, les
services de Santé, les Transports et le Tourisme et les outsourceurs. Mais le
directeur des ventes reste prudent quant à une hypothétique explosion des
services vocaux : « Chaque année, on nous dit que cela va être l'année du
vocal… » Néanmoins, il pense que ce marché est aujourd'hui mature, et surtout,
rentable. ScanSoft met en avant une approche plus orientée “business” que ses
prédécesseurs comme Philips Speech Processing ou SpeechWorks, qui, malgré des
investissements en recherche et développement considérables, n'ont jamais pu
dégager de bénéfices. ScanSoft a organisé sa division vocale en trois business
units : dictée (pour le grand public), network (reconnaissance et synthèse) et
embarqué (constructeurs automobiles). De plus en plus, ScanSoft dit installer
des applications complètes, comme la réservation d'hôtels chez Travel Inn en
Grande-Bretagne. Les annuaires d'entreprises sont également un segment en
développement. « Nous avons des demandes chaque semaine », se félicite Grégory
Vanesse. La dérégulation du marché des télécoms va permettre aux portails
vocaux de se multiplier. Les banques restent une valeur sûre pour le vocal,
avec des applications au Crédit Lyonnais ou chez BNP Paribas, en France,
Deutsche Bank et Citybank, à l'étranger. En ce qui concerne la synthèse
vocale, ScanSoft est en compétition avec d'autres acteurs comme Elan ou
Loquando (Italie). ScanSoft revendique 60 % de parts de marché sur ce segment
du text to speech. La société américaine s'apprête à déployer ses nouvelles
voix allemande et anglaise. Par ailleurs, les contenus dynamiques permettent de
modifier rapidement les contenus des annonces parlées, comme pour les
prévisions météo, par exemple.
Vers des applications packagées
Autre axe de développement de la synthèse vocale : les
voix “customisées” pour les sociétés. « Chaque entreprise a sa voix, qui fait
partie de l'image de la société. Nous prenons un “voice talent”, souvent un
acteur, et nous synthétisons sa voix. Par la suite, on peut réutiliser cette
voix pour changer les annonces », explique Grégory Vanesse. Pour lui, la
tendance est aux applications packagées, grâce aux “dialog modules”. Avantage :
réduire le “time to market”pour les solutions verticales (Santé, Banque,
Tourisme, etc.). Aujourd'hui, ScanSoft réalise 45 % de son chiffre d'affaires
(136 millions d'euros en 2003) avec sa division vocale, contre 55 % pour la
reconnaissance automatique de caractères (OCR), son métier de base. Mais la
société prévoit d'augmenter le pourcentage du vocal jusqu'à 70 %, en 2006.
Cette progression passera nécessairement par un effort soutenu en R & D (un
tiers du chiffre d'affaires actuellement), et une restructuration de
l'entreprise suite aux rachats effectués ces dernières années. Côté produits,
ScanSoft propose en reconnaissance vocale SpeechPearl, issu de Philips et OSR
2.0, provenant de SpeechWorks, les deux seront bientôt disponibles en 48
langues. En synthèse, il s'agit de Speechify (SpeechWorks) et RealSpeak
(Lernhout & Hauspie). Les standards MRCP et VoiceXML devraient donner un
nouveau souffle aux applications vocales selon le fournisseur de technologies,
en accélérant le déploiement des projets via le téléchargement de pages Web.
Conclusion de Laurent Bailly, d'Atos Worldline : « Il n'y a plus un appel
d'offres sans reconnaissance vocale, qui devient incontournable. Mais sa part
est encore faible par rapport au DTMF. »
Le coût du vocal
Combien coûte une application de reconnaissance vocale, ou de synthèse ? Le prix dépend du fournisseur de technologies, mais aussi des services associés qui peuvent doubler la facture. Chez Vocalcom, on estime le coût du système de synthèse vocale à environ 2 à 300 euros par port. Pour la reconnaissance vocale, le logiciel de Natural Vox est proposé à 2 500 euros. Chez ScanSoft, la licence du logiciel SpeechPack de reconnaissance de la parole vaut de 400 à 1 400 euros par port, suivant le nombre de mots. Le prix des systèmes de text to speech Speechify et RealSpeak est d'environ 500 euros par port. Chez Telisma, le moteur de reconnaissance vocal ASR 3.2 va de 400 à 1 200 euros par port. Carine Ziol de NetCentrex chiffre le coût d'une ligne vocale à environ 1 000 euros.
Les nouvelles tendances du vocal
Le cabinet Atos Worldline (division d'Atos Origin) s'est penché sur les tendances actuelles et à venir dans l'univers des technologies vocales. - La reconnaissance vocale par apprentissage : cette technique permet de compléter dynamiquement le vocabulaire d'un moteur de reconnaissance vocale, en transformant automatiquement les mots additionnels en séquences de phonèmes. Applications : prononciation de patronymes, personnalisation d'applications vocales. - Les très grands vocabulaires : ces techniques permettent de porter le nombre de mots possibles à plusieurs centaines de milliers de mots. Applications : annuaires, catalogues. - Le langage naturel : il devient possible de proposer une interprétation relativement pertinente de réponses à des questions ouvertes. Applications : agents conversationnels, dialogue automatisé, traitement des mails. - Les grammaires dynamiques : elles sont modifiables en temps réel, en fonction des interactions avec l'utilisateur, et permettent d'adapter la fonction de reconnaissance vocale au profil de l'utilisateur ou au contexte de son appel. - La synthèse vocale personnalisée : les voix de synthèse deviennent personnalisables. Il peut s'agir d'une voix “clone” d'une voix existante (comédien, personnalité), d'une voix paramétrée (en tonalité, débit, intonation, accent) ou d'une voix spécialisée pour un contexte particulier. - La synthèse vocale avec émotions : elle vise à améliorer le rendu d'émotions portées par la voix de synthèse (joie, tristesse, mécontentement, etc.). A l'inverse, certains travaux visent la reconnaissance d'émotions dans la voix d'utilisateurs humains, ce qui permettrait d'ajouter une dimension supplémentaire à la reconnaissance vocale. - Push to talk : cette nouvelle fonction permet à un groupe d'utilisateurs de communiquer entre eux grâce à leur téléphone mobile à la manière d'un talkie- walkie. Ce mode d'interaction pourrait être mis à profit pour certaines applications vocales.