Recherche

DossierAssistants vocaux: sortir du lot

La voix s'impose jour après jour dans les usages des consommateurs par le biais des assistants vocaux installés dans les enceintes connectées, mais aussi dans les smartphones. Ces systèmes basés sur l'intelligence artificielle seront l'un des enjeux majeurs pour les marques dans les années à venir.

Publié par le
Lecture
15 min
  • Imprimer
Assistants vocaux: sortir du lot

1 La course au vocal

La guerre commerciale que se livrent les fabricants d'enceintes connectées -Amazon et Google en tête- illustre à elle seule l'ampleur des enjeux autour de la voix et de la massification d'usages encore naissants. Plus ils s'installeront rapidement et massivement au domicile des consommateurs, plus ces assistants vocaux bardés d'intelligence artificielle pourront se rendre indispensables dans notre quotidien. Dans le monde des GAFA, la course en tête est donc lancée entre l'Assistant Google, Alexa d'Amazon, Cortana de Microsoft, Siri d'Apple...

Les utilisateurs se sont familiarisés avec la commande vocale, bien avant l'arrivée sur le marché français des enceintes intelligentes Google Home, Amazon Echo, HomePod et leurs déclinaisons. Une étude Capgemini de fin 2017 montre que 51% des consommateurs ont déjà utilisé un assistant vocal, pour 81 % d'entre eux via leur smartphone(1). Ils sont visiblement séduits puisque 40% se disent prêts, d'ici trois ans, à utiliser un assistant vocal au lieu d'une application mobile ou d'un site web. Selon l'agence d'études iligo(2), les Français plébiscitent leur disponibilité (80%), leur facilité d'utilisation (73%) et apprécient également la qualité des réponses données (65%).

"La reconnaissance vocale se montre très performante pour transcrire les requêtes dans les moteurs de recherche, le Natural Language Processing (NLP), qui permet de converser, n'est pas encore aussi performant", Olivier Vigneaux, directeur général de BETC Digital.

Pour les marques, le passage de l'écrit à la voix permet de moderniser l'expérience client, de diversifier les points de contacts et même de redonner un peu de chaleur à la relation client digitale. Les informations récupérées sont plus riches: un client prononce en moyenne 200 mots à la minute quand il en tape 70 sur un clavier. Pourtant, tout n'est pas encore optimal. "La reconnaissance vocale se montre très performante pour transcrire les requêtes dans les moteurs de recherche, le Natural Language Processing (NLP), qui permet de converser, n'est pas encore aussi performant, notamment pour aider la machine à affiner sa recherche lorsqu'elle ne comprend pas la question qui lui est posée", observe Olivier Vigneaux, directeur général de BETC Digital.

Les marques qui veulent anticiper l'évolution des usages ont commencé très tôt à mener des expérimentations ou à déployer des interfaces vocales, appelées skills sur l'assistant Alexa d'Amazon et services sur l'Assistant Google. Sephora prodigue des conseils beauté et ouvre la réservation de rendez-vous en institut, Monoprix propose de dicter sa liste de course, Legrand de fermer les volets et d'éteindre les lumières quand l'utilisateur quitte son domicile, Fnac Darty a testé l'achat à la voix sur téléphone et le paiement via le compte Fnac... Il commence à se créer, dans l'univers des applications vocales, ce qui s'est créé par le passé dans le mobile avec des applications dédiées à des usages précis.

2 Un nouvel univers à apprivoiser

Même avec les plus grandes ambitions, ne devient pas un champion de la voix qui veut! Tout doit être passé au crible: définir la question qui débutera la conversation, sonder l'état d'esprit de la personne qui peut avoir besoin d'aide ou être d'humeur à jouer, créer des tunnels de conversation avec les consommateurs dans le cadre d'un scénario, mais aussi imaginer tous les scénarii d'interaction possibles (y compris quand l'utilisateur pose une question qui n'a rien à voir avec l'univers de la marque, se montre familier ou même grossier), identifier si l'intention a changé, calibrer le temps que doit durer l'interaction vocale, savoir quand et comment relancer l'utilisateur quand il y a un blanc dans la conversation, définir la manière dont l'assistant met fin à la conversation et dit au revoir...

Une analyse fine des interactions entre les clients et l'assistant permet de comprendre le ressenti des utilisateurs dans l'interaction homme-machine, de voir où se situent les points de blocage, de repérer les réponses du bot qui créent de l'engagement, des allers-retours, de la sortie, à quel moment le système stagne... "Dans une logique de Minimum Valuable Project (MVP), les marques veulent mettre le produit le plus vite possible dans la main des utilisateurs. Si elles lancent trop vite leur assistant vocal, cela pourra être déceptif. Il faut essayer de ne pas être trop en avance de phase, mais le bon moment est toujours difficile à trouver", constate Lucie Buisson, VP Product chez ContentSquare.

Le travail sur le champ lexical de la marque oriente sa manière de prendre la parole. "Si le ton est bien choisi par rapport à la cible, le client va nourrir le ton de la marque et enrichir la base. S'il est mal choisi, ce sera une catastrophe. Dans la phase de démarrage, les marques ont tout intérêt à jouer la transparence et, par exemple, ne pas hésiter à signaler que l'outil est en phase d'apprentissage", ajoute-t-elle.

3 Choisir sa voix

C'est également tout un art que de trouver la voix adaptée à l'image que la marque veut projeter. "Si la voix est trop mécanique, elle ne génère pas d'émotion et on n'a pas envie de lui parler, remarque Olivier Vigneaux. Le rire et les interjections sont aussi des éléments qui créent de l'émotion. Beaucoup de start-up se positionnent sur le design de la voix et la création d'une personnalité de marque, en travaillant sur le champ sémantique, le timbre et le rythme de la voix." Il est par exemple utile de ralentir le débit de la parole quand l'assistant énonce un numéro de téléphone, pour que l'utilisateur ait bien le temps de le noter.

Autre choix crucial: l'assistant doit-il tutoyer ou vouvoyer l'utilisateur? "Il faut surtout voir en quoi ce choix sert la stratégie et l'image de la marque. Il peut paraître étrange qu'une marque qui n'est d'ordinaire pas familière avec ses clients se mette à les tutoyer sur les assistants vocaux. En revanche, cela peut être pertinent pour surprendre une cible jeunes", estime-t-il.

Les avis sont aussi partagés sur le fait de donner une personnalité à l'assistant vocal. On peut par exemple comprendre que ce ne soit pas nécessaire, ni même souhaité, pour un établissement financier. Meetic et Sephora ont clairement choisi de jouer la carte de la personnalisation: sur l'Assistant Google, c'est la coach de dating Lara Voice qui livre ses propositions et suggestions, tandis qu'Ora prodigue ses conseils beauté. "Créer une personnalité représente un coût supplémentaire, mais génère plus d'engagement, fait valoir Lucie Buisson. Il est difficile de travailler sur la personnalité de la marque en démarrant par le bot ou l'assistant vocal, sauf si on veut tester quelque chose sur une niche. Les marques qui ont déjà créé un univers cohérent autour de leur personnalité peuvent en revanche prendre plus de risques sur le ton."

4 Optimiser la recherche

La voix impacte tous les aspects du référencement naturel des marques. "Puisqu'elles ne contrôlent ni l'interface, ni l'algorithme d'intelligence artificielle qui intervient dans la commande vocale, elles doivent se concentrer sur la donnée qui alimente ces systèmes intelligents, quand une personne émet une requête dans l'univers sémantique de la marque. Pour optimiser le référencement naturel, il faut être capable de fournir à ces moteurs de recherche des données riches et structurées", note Franck Negro, directeur général Europe du Sud de Yext, une société qui travaille sur l'usage de la voix dans le référencement naturel.

La première étape consiste à identifier et à structurer les données publiques éparpillées dans différentes entités de l'entreprise. "La connaissance digitale des systèmes d'information interne pourra alors alimenter en temps réel les applications externes utilisées par les consommateurs, les GPS, les chatbots, les voicebots... et générer du trafic vers le site internet et le point de vente", poursuit-il.

Ces méthodes d'optimisation sont parfois décrites sous l'acronyme PASO pour "Personal Assistant Search Optimisation". "Proposer des interfaces vocales séduisantes avec une personnalisation propre et une bonne expérience est un gros chantier qui passe par le contenu pour être PASO Friendly", souligne Olivier Vigneaux.

5 Accélérer en toute indépendance

Les interfaces vocales changent aussi la donne sur les pratiques marketing. Les marques doivent notamment changer la manière dont elles poussent leurs offres, car la capacité de mémorisation de l'utilisateur est nettement plus limitée s'il entend une liste que s'il la lit. Attention aussi aux risques de cannibalisation: "Quand le consommateur a pris l'habitude d'appeler Alexa ou Google, la marque disparaît au profit du terminal transactionnel, pointe Yann Lechelle, directeur général de Snips. Grâce aux solutions des GAFA, la stratégie des marques sur les assistants vocaux peut se développer très vite. Elles gagnent donc à mettre rapidement en place une stratégie de désengagement et d'indépendance par rapport à ces acteurs. S'il est certain que l'interface de demain sera vocale, il faut être conscient de ce que l'on donne aux GAFA. C'est une question stratégique qui va bien au-delà du multicanal et de l'utilisation d'une technologie sympathique". Un point à prendre en compte par les marques pour notamment rassurer les clients sur l'utilisation de leurs données personnelles.

Pour contourner le risque de dépossession des données des clients, la start-up française Snips a développé une technologie propriétaire qui installe l'assistant vocal en marque blanche, sans passer par le cloud. La voix est ainsi traitée de manière industrielle, mais "en boucle locale", au plus près des besoins et du parcours du client. La technologie Snips peut être intégrée dans différents supports qui vont de l'application mobile à la borne interactive en magasin. Même si les enceintes connectées se développent, les smartphones, qui embarquent nativement Siri ou l'Assistant Google, vont demeurer le support de prédilection de la voix. "Sur mobile, il est plus pratique de poser une question en langage naturel, mais la restitution de la requête peut être visuelle: trois idées de restaurants sur une carte, des photos de menu, la photo d'un sac à main, d'une chambre d'hôtel... On se dirige vers des solutions où l'on n'aura pas du vocal de bout en bout, ce qui est d'ailleurs beaucoup plus riche en termes d'expérience client", affirme Franck Negro.

D'autres utilisations peuvent aussi s'envisager. "Les marques qui ont une égérie pourraient embarquer la voix de leur égérie dans l'assistant vocal, note Yann Lechelle. L'égérie pourrait non seulement converser sur l'interface, mais aussi assurer différents services pour la marque. La partie servicielle pourrait alors fusionner avec la relation client." Autant dire que, face à la technique qui va continuer à s'améliorer et aux cas d'usage qui continueront à se développer, le potentiel de la voix dans la relation client est encore loin d'avoir été totalement exploré.

(1) Capgemini, Conversational Commerce Survey, étude menée en octobre-novembre 2017 auprès de plus de 5000 consommateurs aux États-Unis, au Royaume-Uni, en France et en Allemagne.

(2) Iligo, Baromètre des Usages Multi-écrans, terrain réalisé du 14 mars 2018 au 23 mars 2018.


Les systèmes vocaux fondés sur l'IA rebattent les cartes dans la manière dont les marques se présentent, créent des tunnels de conversation avec les clients ou parviennent à être référencées dans ce nouvel univers.

6 "La technologie permet d'adresser une variété énorme de besoins"

Quel est le potentiel des assistants vocaux dans la relation client?

L'interface vocale est promise à un grand avenir en tant que canal de relation client, car elle est très pratique et s'adapte à toutes sortes de situations, sans temps d'apprentissage de la part de l'utilisateur. Aujourd'hui, la technologie permet d'adresser une variété énorme de besoins, pour enclencher une séquence de dialogue simple ou pour entrer dans des dialogues plus complexes, qui impliquent de comprendre plus finement les intentions. Ces technologies apprenantes sont devenues beaucoup plus accessibles.

Quelles en sont les limites?

Les systèmes restent aujourd'hui limités dans leur capacité à prendre en compte le contexte et à le conserver en mémoire. Les marques ont donc tout intérêt à commencer par les cas d'usage les plus fréquents, qui sont souvent les plus simples. Pour reconnaître une intention, les algorithmes de Machine Learning doivent pouvoir s'appuyer sur un corpus qui recense de nombreux exemples illustrant la façon dont les gens s'expriment réellement à l'oral. Ces services vocaux se construisent pour le moment en silos pour les différents devices ou canaux. Il est encore compliqué de lancer un service multicanal, structuré et cohérent. Beaucoup d'acteurs, dont Prosodie, se positionnent pour être en mesure d'offrir un tel service. Les solutions progressent, mais ne sont pas encore arrivées complètement à maturité.

Quels sont les secteurs les plus matures ou les plus intéressés par ce nouveau canal?

Pour la banque-assurance, les services vocaux représentent un enjeu de productivité dans les interactions avec les clients et dans l'amélioration de la relation client. Les retailers y voient un nouveau canal de vente, à l'image d'Amazon qui a positionné son assistant comme un canal de commercialisation. Aujourd'hui, beaucoup de marques font des expérimentations sur les assistants vocaux car c'est effectivement un sujet à la mode. Il y a fort à parier que les freins qui existent encore sur l'usage de ces technologies apprenantes vont être rapidement levés ou contournés. Cependant, les marques devront rassurer les utilisateurs sur la sécurité des données personnelles, d'autant que toute phrase prononcée peut être de nature à donner des informations personnelles.

Thomas Saint Hilaire, en charge des plateformes digitales chez Prosodie-Capgemini, revient sur les avancées et les limites des interfaces vocales.

7 "Nous voulions surtout proposer une tonalité rassurante"

Comment avez-vous abordé la question des assistants vocaux?

De manière très pragmatique. Aujourd'hui, les assistants vocaux ne savent pas répondre à tout. Le premier défi consistait à trouver les services qui pouvaient s'adapter à ces interfaces, sans être déceptifs. En tant qu'utilisateur ou en tant que marque, nous allons tous apprendre à converser avec les assistants vocaux. Trois services ont été lancés en juin: un service d'aide lorsque le client n'a plus accès à l'énergie, un service plus ludique et ouvert à tous pour jouer en famille sur le thème de l'énergie, et un service qui permet aux clients "Elec Weekend" de suivre leur consommation. Dans un secteur aussi concurrentiel que celui de l'énergie, il était important d'être le premier fournisseur à proposer des services sur Google Home et sur Google Assistant pour moderniser l'expérience client.

Quels ont été les partis pris dans l'expression de la marque?

Nous avons choisi de proposer une seule voix, qui est une voix féminine, mais cela fait partie des éléments que nous pourrions modifier en fonction des retours. Nous voulions surtout proposer une tonalité rassurante, fluide et simple à comprendre, car l'énergie n'est pas toujours un sujet simple à expliquer. Sur Facebook Messenger, nous avions décidé de tutoyer l'utilisateur pour proposer un ton décalé et marquer la différence avec les échanges que le client aurait avec un conseiller. La jeune femme qui prend la parole sur l'assistant vocal d'Engie tutoie aussi l'utilisateur.

Quels sont les premiers retours?

On est encore sur un usage marginal, même si nous sommes convaincus que la voix remplacera à terme les usages réalisés aujourd'hui avec les formulaires. Quand nous avons lancé nos chatbots sur Facebook Messenger, les interactions étaient également très faibles et elles atteignent aujourd'hui plusieurs milliers de contacts par mois. Depuis que les premiers services ont été mis en ligne, nous ajustons l'offre au quotidien. Deux chefs de projets travaillent plus particulièrement sur cet assistant vocal, mais ce projet mobilise aussi toute l'équipe digitale et les équipes informatique.


Céline Regnault, directrice digital & expérience client BtoC d'Engie, fait le point sur les services vocaux lancés par le groupe.

8 Oui.sncf: la voix pourrait représenter 20% des interactions dès 2019

Première marque grand public française à avoir développé un bot sur Facebook Messenger, Oui.sncf a progressivement proposé ses services sur Google Assistant et Google Home, puis avec Amazon Alexa. "Nous cherchons toujours à être là où sont nos clients et à leur faciliter la vie. Grâce à la commande vocale, le client s'exprime de manière naturelle et nous prenons à notre compte la complexité que cela peut engendrer au niveau technique. Les assistants vocaux sont le moyen d'associer les early adopters, mais aussi les populations les plus éloignées du numérique", détaille Julien Nicolas, directeur France et Europe de Oui.sncf.

Le bot, désormais intégré au site marchand de la marque, est utilisé plus de 10000 fois par jour et la commande vocale de son application mobile est utilisée par 80000 clients par mois. "Nous sommes déjà dans une dimension industrielle. À horizon 2019, nous estimons qu'un cinquième de nos interactions pourront se faire via Siri, Google et Amazon sur ces interfaces", précise-t-il.

9 20000 réservations mensuelles par la voix

Les cas d'usage sont de plus en plus nombreux. "Nous les développons en fonction de ce qui nous semble utile et le plus simple pour le client: chercher des horaires et des tarifs, poser une option sur un TGV et un train Intercités... Les abonnés TGV Max peuvent finaliser leur transaction et 20000 réservations par mois sont réalisées par ce canal. Nous travaillons sur la capacité d'aller jusqu'au paiement."

Une équipe de 12 personnes a été dédiée à ces outils conversationnels. Des développeurs, un UX designer et un Product Owner travaillent sur l'expérience client et le design de bot, en lien avec le business ou le service client. La voix utilisée change en fonction des assistants vocaux et n'a donc pas été calée sur celle de la célèbre Simone, la voix du transporteur que les clients peuvent entendre en gare. Oui.sncf a toutefois opté pour "une tonalité dynamique et très en posture de service".

Pour Julien Nicolas, directeur France et Europe de oui.sncf, l'entreprise est déjà entrée dans l'industrialisation des outils vocaux.

Livres Blancs

Voir tous les livres blancs

Vos prochains événements

Voir tous les événements

Voir tous les événements

S'abonner
au magazine
Se connecter
Retour haut de page