Sous quelles formes les VPA vont-ils se développer ?
Si l’on reprend les différentes technologies présentes dans l’univers des assistants personnels virtuels, nous pouvons rapidement remarquer qu’il y a tout d’abord deux media principaux pour échanger avec une intelligence artificielle : l’écrit et l’oral. En termes d’expérience utilisateur, il est amusant de constater qu’aucune des deux technologies n’a encore pris le pas sur l’autre et nous pouvons imaginer qu’elles vont coexister pendant encore quelques années.
VPA écrit
Les agents conversationnels à l’écrit, même si moins impressionnants que les commandes vocales peuvent offrir actuellement des possibilités d’actions et d’échanges plus riches. En effet, si l’on prend la plateforme Messenger de Facebook, les agents conversationnels qui se développent offrent plusieurs avantages :
- Une conversation plus confidentielle (et moins étrange que lorsqu’on parle tout seul avec sa machine, ce qui n’est pas encore totalement intégré dans les habitudes)
- Une relation directe avec la marque à laquelle on souhaite s’adresser (on ne passe pas par un résultat trouvé sur internet, mais on est directement connecté au système de l’enseigne en question)
- Une action réalisable directement en ligne sans avoir besoin de passer par un autre canal, télécharger une application ou se lancer finalement dans un processus d’achat en ligne classique
Ces assistants contactés à l’écrit sont plébiscités majoritairement dans l’évolution de la relation client. Il s’agit d’un canal supplémentaire pour renforcer et personnaliser la relation qu’une marque va développer avec son audience via son ordinateur, sa tablette ou son mobile. Vous pouvez en découvrir plus sur les enjeux et les évolutions des chatbots dans la relation client dans ce précédent article de Digital Corner.
VPA oral
Les VPA vocaux prennent une importance croissante et sont beaucoup plus en phase avec l’imaginaire collectif tiré de films comme Her quant à notre interaction avec une intelligence artificielle. Il est amusant de noter que la plupart des bornes Echo de Amazon ont été branchées dans des cuisines, où l’on ne peut pas toujours utiliser ses mains parce que l’on prépare à manger ou que l’on fait la vaisselle. La commande vocale offre également l’opportunité de faciliter encore sa recherche ; par exemple lorsque je me pose une question, l’énoncer à haute voix retire encore les barrières physiques qui pouvaient nous éloigner d’une information sur internet. D’ailleurs, Annette Zimmermann, vice-présidente chez Gartner, prédit que de nombreuses applications mobiles seront reléguées au rang de « sous-traitants des VPA ».
Physique ou invisible ? Fixe ou mobile ?
Cette notion d’écrit et d’oral n’est pas l’unique opposition que l’on trouve sur l’avenir et le développement des VPA. Souhaite-t-on une assistance physique ou invisible ? Les agents conversationnels que l’on trouve sur Messenger, et bientôt sur Skype, ont la particularité d’être invisibles. De la même manière Siri ou Cortana sont intégrés dans des appareils que l’on a achetés pour un autre objectif que le fait d’avoir un assistant virtuel. En revanche, Amazon et Google ont investi sur un hardware spécifique, dont le design cherche à l’intégrer en tant qu’objet de décoration au sein de sa maison. L’assistant virtuel a-t-il alors vocation à être attribué à une zone et un temps précis (lorsque je suis chez moi, dans ma cuisine) ou doit-il être joignable 24/7 ? D’autres formats existent actuellement : L.U.C.Y. est basé sur un grand écran à accrocher chez soi, ce qui permet la projection d’informations spécifiques en plus de la réponse via le haut-parleur, alors que de son côté Vinclu, une société japonaise, prend le pari d’un système d’hologramme présentant un personnage d’animation. Notre assistant personnel virtuel doit-il prendre forme humaine pour mieux répondre à nos attentes et nous faire oublier l’aspect « robot » qui est derrière ?
Humaniser l’expérience
L’humanisation de la conversation que nous avons et aurons avec les VPA est au centre des préoccupations des constructeurs. Et humaniser ne nécessite pas forcément une enveloppe humanoïde au sens propre, on peut penser à KITT de K200 ou à Siri cité ci-dessus. Le point central est la fluidité des échanges et le ressenti de l’utilisateur. Google a par exemple embauché des auteurs qui ont travaillé pour Pixar afin de prévoir différents scénarios de discussion et être capable d’ajouter cette touche d’humour que Siri a été le premier à proposer.
Un autre facteur d’humanisation est le nom que l’on donne au VPA. Si toutes les marques se sont positionnées (d’ailleurs souvent avec des prénoms féminins, vision sexiste et passée de l’assistante peut-être ?), Google est le seul à être rester sur une approche purement factuelle : Google Assistant. Cela risque d’être un frein face à Alexa qui a été adoptée dans de nombreux foyers américains, lesquels ne s’adressent plus à « it » mais à « she ». Nous pouvons déjà considérer que les assistants virtuels existants sur le marché ont des « personnalités » différentes résultant de la volonté des concepteurs de le rendre plus ou moins amical.
Les freins au développement des VPA
Les limites des assistants existants
Si la multiplication des assistants virtuels ne fait aucun doute dans les prochaines années, de nombreux freins ont d’ores et déjà été identifiés. Tout d’abord l’essor du deep learning a permis l’accélération des technologies liées à l’intelligence artificielle. En revanche, quelle que soit la capacité de mémoire ou de recherche d’informations dans les base de données, l’intelligence est beaucoup plus compliquée. L’intelligence c’est également la capacité à trouver une solution à un problème inédit, et pour le moment l’apprentissage non supervisé (ou « clustering ») qui permettrait de donner les outils à une machine pour « penser » seule, n’a pas encore apporté les résultats attendus. Les assistants personnels virtuels sont donc pour l’instant limités aux scénarios prévus et anticipés par les développeurs.
La reconnaissance vocale est un second point de friction notable dans l’expérience utilisateur avec les assistants existants sur le marché. Alexa permet aujourd’hui d’échanger en anglais américain, britannique et en allemand, mais les forts accents posent toujours problème. Si les taux de transcription vocale sont très élevés, la compréhension d’une phrase va au-delà de la simple acoustique pour prendre en compte le sens des mots et la construction des phrases.
Une autre critique actuelle est que, même lorsque le VPA comprend ce que vous lui demandez, il va choisir à la place de l’utilisateur la réponse à donner. Cette problématique avait déjà été soulevée d’une autre manière face à l’évolution de l’hyperpersonnalisation des réponses des moteurs de recherche. Dans ce dernier cas, on critiquait une fermeture d’esprit en donnant des réponses correspondant au point de vue de l’utilisateur, connu et identifié par le moteur de recherche. On ne se retrouvait alors jamais plus confronté à des idées contraires. Dans le cadre d’Alexa par exemple, c’est l’inverse, ce sont les paramètres par défaut choisis par Amazon qui guideront l’utilisateur vers telle ou telle plateforme, ou qui choisiront la source de l’information donnée, sans que cela corresponde forcément à son journal habituel.
La protection de la vie privée
Comment ne pas penser à Big Brother en imaginant ces nouveaux objets branchés en permanence chez soi ? Pour pouvoir fonctionner, les appareils Echo et Home doivent écouter sans interruption les sons environnants pour réagir automatiquement quand on s’adresse à eux par un « Ok, Google » ou un « Alexa ». Même si Amazon assure que seules les questions prononcées après l’annonce du nom Alexa, sont enregistrées pour être traitées au cours de la discussion, nous ne pouvons que les croire sur parole. De la même manière, Home vous connecte à tous l’environnement Google qui concentre déjà une grande partie de vos informations personnelles (moteur de recherche, historique, email, géolocalisation…). « Ok Google, don’t be evil » ; nous ne pouvons qu’espérer que ce crédo demeure une des valeurs centrales de l’entreprise.
Des systèmes fermés
Enfin, une problématique similaire au secteur de l’internet des objets freine le développement des assistants virtuels : le cloisonnement des systèmes utilisés. Pour qu’un assistant virtuel soit complètement utile, il faudrait qu’il puisse communiquer avec tous les éléments du logement, les outils virtuels (agenda, email, messaging…), les systèmes de paiement… Amazon et Google optent pour une stratégie de partenariats à la pelle, mais l’utilisateur reste limité à une liste, croissante certes, mais prédéfinie.
Finalement, deux grandes tendances sont observables actuellement sur le marché :
- Une tendance verticale: la multiplication d’assistants virtuels spécialisés sur une ou deux tâches très précises (vérifier votre santé, prendre vos rendez-vous…)
- Une tendance horizontale: la concurrence à grande échelle entre les GAFA (+Microsoft) pour développer des assistants virtuels pouvant répondre à toutes les questions sans pour autant pouvoir approfondir eux-mêmes certaines fonctionnalités
La seconde tendance devrait permettre à termes de voir émerger des plateformes communes pour laisser communiquer des assistants virtuels multitâches avec ceux de différentes entreprises plus spécialisées. Par exemple, en demandant à Alexa de vous réserver un billet pour vos vacances, ce dernier contactera l’assistant virtuel de la compagnie en question, qui lui-même sécurisera le paiement avec une entreprise tiers, afin de finaliser la réservation du billet. Ces oligopoles devraient être à l’origine de la mise en place de certaines normes communes pour permettre aux machines de communiquer entre-elles et avancer vers un VPA doté d’une intelligence omnisciente.