Catégories
L'Ouïe

assistance vocale

Assistance vocale

Quand les objets se mettent à nous répondre

Une enquête sur le développement des assistants vocaux qui retrace l’évolution technique, et et socio-culturelle de cette technologie et des objets qui l’accompagnent. En toile de fond la question de l’adoption de la méthode : alors que le langage oral semble être plus naturel comme mode de communication, pourquoi semble-t-il plus compliqué de parler à nos objets ?

HISTOIRE

Les ordinateurs sont d’abord apparus, nous obligeant à nous adapter à leur manière de fonctionner. C’est-à-dire qu’il a fallu apprendre à utiliser de nouveaux symboles et de comprendre cette nouvelle interface. Ce nouveau langage ne permettait pas d’adapter la communication vocale, pourtant à la base de la majorité des échanges entre nous. La reconnaissance a alors mis énormément de temps avant de commencer à être intégrée dans certains ordinateurs.

De plus, l’idée de communiquer par oral à une interface électronique pouvait également paraitre comme impensable.

Le boum de ces assistants vocaux n’a eu lieu qu’à partir de 2010 grâce aux avancées de l’ASR (Automatic Speech Recognition), c’est-à-dire, la capacité des machines à reconnaitre des mots parlés. Cette capacité n’était pas assez précise comme celle de l’humain pour donner des résultats satisfaisants. Après cette avancée technologique, les premiers assistants sont apparus, comportants toujours beaucoup de limites liées au Natural Language Processing (NLP) et Natural Language Understanding (NLU) qui expliquent les problèmes liés aux intelligences artificielles lors d’interactions humains/machines.

Le graphique ci-dessus montre la précision de la reconnaissance vocale automatique vers 2010:

Mais pourquoi est-ce que ça ne marchait pas au début ?

“Earlier attempts to make machines recognize spoken words have run into trouble because they tried to copy the human ear, which analyzes the complicated mixture of sound frequencies in human speech. IBM Engineer William C. Dersch, inventor of Shoebox, thinks that this is like designing an airplane by copying a bird’s feathers. His machine does not depend on sound frequencies; it recognizes words by listening for their ‘asymmetry,’ an esoteric quality of speech that human ears cannot distinguish but that Shoebox finds as clear as the beat of a bass drum.”

“Science: Shoebox Is Listening,” TIME Magazine November 24, 1961

TIMELINE

1791 – PREMIERE TENTATIVE

WOLFGANG VON KEMPELEN

Les premières tentatives de construction d’une boite vocale remonte même au 18e siècle.

Une démonstration de la machine de Kempelen.

1952 – AUDREY

LABORATOIRES BELL

Système reconnaissant une voix dictant des chiffres.

1962 – SHOEBOX

IBM

La Shoebox était capable de reconnaitre 16 mots au total.

Les autres ingénieurs qui avaient essayé de créer un système de reconnaissance vocale n’avaient pas réussi, car ils tentaient de reproduire les fréquences alors que le Shoebox d’IBM se basait sur les différences de prononciations.

1971 – HARPY

CARNEGIE-MELLON UNIVERSITY

Le département de défense des Etats-Unis avait financé l’agence de recherches DARPA afin de développer un vocabulaire de minimum 1000 mots. C’est de ce programme de recherches qu’Harpy a vu le jour et pouvait ainsi reconnaître quelques phrases entières.

1977 à 82 – DRAGON à DRAGON SYSTEMS

DR. JAMES BAKER

Speech Understanding System —> Voice Recognition System

1987 – JULIE

WORLDS OF WONDER

Julie était une poupée avec laquelle on pouvait interagir. Dans ses fonctionnalités, elle était même capable de détecter la luminosité et même s’il faisait plus chaud ou froid.

Ci-dessous se trouve démonstration du fonctionnement de cette dernière, qui montre notamment jusqu’où peut aller cette technique, et la manière assez surprenante de l’utiliser. Il y a également une publicité de cette époque.

1997 – VIA VOICE

IBM

Le principe est que la voix est retranscrite en texte — mais c’est difficile de faire la différence entre des prononciations similaires : imaginons : pleine et plaine

Ces homophones sont impossibles à déchiffrer pour une machine sans avoir de contexte et de statistiques sur lesquels se baser. C’est pour cela qu’il faut une base de données énormes pour réussir à donner une réponse qui correspondait à la requête. C’est là tout le problème de ses assistants vocaux.

ANNEES 2000 – SMARTPHONE

2008 : Google Voice Search

2010 : Android

2011 : Siri

ANNEES 2010 – SMART SPEAKER

2014 : Alexa

2016 : Google Home

2017 : HomePod

MAIS DE QUOI PARLE-T-ON?

Siri, Alexa, HomePod, Google Home sont ce qu’on appelle des : assistants numériques virtuels. 

Ils fonctionnent et utilisent l’IA, c’est-à-dire, l’intelligence artificielle pour reconnaître et répondre à des commandes vocales. 

L’utilisateur peut alors communiquer avec un Smart Speaker qui se trouve à son domicile ou directement intégré à un Smartphone.

Un assistant virtuel intelligent agit à des ordres donnés par le commanditaire, répond également à des questions, faire de tâches simples et peut contrôler des dispositifs de domotique.

De plus en plus de fonctionnalités ne cessent d’apparaitre et les capacités des intelligences artificielles augmentent. Leur façon d’apprendre et d’analyser les données sont plus performantes grâce au Deep Learning.

“As of April 2019, Amazon had over 90,000 functions (« skills ») available for users to download on their Alexa-enabled devices, a massive increase from only 1,000 functions in June 2016”

LES GESTES

Quels sont les gestes à adopter pour faire une commande vocale ou interagir avec un assistant vocal ?

Les étapes sont simples et ne requièrent que peu d’efforts. Elles sont les mêmes que ce soit sur un Smart Speaker chez soi ou intégré sur un téléphone.

  1. Il faut tout d’abord interpeller la machine à l’aide d’un mot déclencheur tel que “Alexa”, “Hey Siri”, “Ok Google”. Un peu comme si l’on interpellait une personne dans la rue. On peut également modifier et personnaliser le “wake word”.
  2. L’assistant va faire savoir qu’elle est activée.
  3. Une fois la machine enclenchée, on peut lui donner un ordre comme : “Allume la lumière de la cuisine!”. Ou bien lui poser une question, telle que : “Quel temps fait-il en Laponie?”. 
  4. L’assistant va répondre selon la commande par une action ou par une réponse. 
  5. Si c’est satisfaisant, la discussion s’achève ainsi, ou l’on peut continuer de converser.
  6. Si ce n’est pas satisfaisant, la requête va être réitérée.
Est-ce que le comportement des personnes qui possèdent un assistant vocal est inné, naturel?

On peut observer certains réflexes, comme le fait de se tourner vers la boxe si elle n’a pas compris ce qu’on disait la première fois, comme si elle allait peut-être mieux comprendre / mieux entendre. On va aussi essayer de mieux articuler, de parler plus fort ou même de s’approcher. Ça demande parfois plus “d’efforts” pour se faire comprendre que de faire soi-même l’action directement. 

Par contre, pour le point positif, la personne n’a normalement pas besoin de changer d’emplacement, de prendre l’objet en main car ça se repose uniquement sur la voix. Ça n’interrompt pas la personne dans son action. 

L’OBJET

Les fameux GAFAM.

Ce n’est pas sans surprise que 3 des Smart Speaker les plus connus ont été conçus par Google, Apple et Amazon. De plus, il existe également le système d’assistant virtuel Cortana de Microsoft.

Ces objets sont « design » & discrets. Ils font partie et créent un Internet of Things, assistent les personnes qui les possèdent et sont interactifs. Ils plaisent et rentrent dans le quotidien de nombreux amateurs de ces nouvelles techniques attrayantes.

REAPPROPRIATION

Des façons innovantes d’utiliser ces objets modernes.

Ces machines ont quelques failles et certains se sont amusés à mais aussi à les utiliser d’une manière originale en se les réappropriants comme cet ancien interphone des années 80.

L’interphone

privé

LES LIMITES

EN 1968

EN 2021

En général, comment est-ce que l’opinion publique accueille les Smart Speaker et autres assistants vocaux?

Une grande majorité de personnes n’arrive pas encore à adopter cette technologie encore peu connue. Une certaine méfiance est présente car il s’agit d’une machine avec laquelle on interagit directement, qui nous écoute à notre domicile sans pouvoir contrôler exactement lorsqu’elle est active ou non. Des informations d’écoute abusive ont fait surface et remettent en question la notion d’intimité. Jusqu’à quel point est-ce qu’on peut permettre à des machines d’intégrer notre vie privée. C’est dans nos croyances communes qu’une machine a le pouvoir de nous surveiller et cela devient inquiétant quand ça nous suit à notre domicile et qu’on le fait rentrer nous même.

On peut également être réticent lorsque l’on s’aperçoit qu’il y a encore beaucoup d’améliorations à faire avant que ça marche de manière optimale et que la communication humain/machine soit naturelle. Lorsque je me suis posée la question, c’est vrai que je n’ai jamais vu quelqu’un utiliser un assistant vocal dans la vie quotidienne, dans le train, à l’école, si ce n’est un camarade de classe demandant de mètre une alarme à sa montre connectée.

ALORS QUELLE EST L’UTILITÉ?

Quelles sont les raisons d’acheter des assistants vocaux ?

Malgré les craintes évoquées précédemment, beaucoup d’éléments essentiels ressortent de ces observations. Ces assistants sont faits comme leur nom l’indique pour nous venir en aide d’une nouvelle manière. La communication orale ne date pas d’hier, ce n’est pas anodin qu’elle soit apparue sur le marché, surtout face au temps passé sur ces machines.

Les autres interactions humains/machines progressent largement plus vite que la parole, on passe notre temps à écrire sur un clavier, à tapoter nos écrans tactiles. On oublierait presque de parler, mais parler à une machine? Ça peut paraitre absurde. Comme Yoann me l’a fait remarquer dans son interview, il utilise Siri lorsqu’il est occupé à faire autre chose, comme la cuisine. Il a les mains prises et veut, par exemple, avoir un timer de 20 minutes. La meilleure manière de le faire sans devoir lâcher son activité en cours est de demander oralement sa requête.

How current speech recognition technology facilitates student learning, as well as how the technology can develop to advance learning in the future.

https://www.brainline.org/article/speech-recognition-learning

VIVOCA

VIVOCA (Voice Input Voice Output Communication Aid)

VIVOCA est un assistant vocal développé afin de déchiffrer les façons uniques de s’exprimer de personnes ayants des troubles de la parole.

AAC = augmentative and alternative communication

“The VIVOCA recognizes the disordered speech of the user and builds messages, which are converted into synthetic speech.”


Hawley, Mark & Cunningham, Stuart & Green, Phil & Enderby, Pamela & Palmer, Rebecca & Sehgal, Siddharth & O’Neill, Peter. (2012). A Voice-Input Voice-Output Communication Aid for People With Severe Speech Impairment. IEEE transactions on neural systems and rehabilitation engineering : a publication of the IEEE Engineering in Medicine and Biology Society. 21. 10.1109/TNSRE.2012.2209678. 

INTERVIEWS & OBSERVATIONS

Que peut-on observer des propriétaires d’assistants vocaux ?

INTERVIEW 1

ALEXA

J’ai pu observé pendant 4 jours le style de vie d’une famille aux Etats-Unis qui possède une Alexa.

Lucerne Blvd, Los Angeles, CA, United States

Sandrine Junod-Yust – interior designer specialised in lighting,

Alexander Yust – Exhibit Developer at Petersen Automotive Museum, show business (son projet en 2018 était de créer une cinémathèque du cinéma américain, quelque chose qui n’existe pas aux US et encore moins à LA, berceau du cinéma « industriel »… normal puisqu’il n’y a pas de ministère de la Culture aux US)

Max & Camille : enfants, école, (Camille fait de la danse dans une académie, maman toujours en route pour elle)

Sandrine utilise Alexa plusieurs fois par jour : dès le réveil, quand elle part/rentre du travail. Je n’ai jamais vu les enfants l’utiliser et très peu le père. 

Alexa leur permet de d’allumer/éteindre les lumières, d’enclencher le tourne-disque dans le salon même s’il faut quand même changer le disque soi-même donc la logique me paraissait un peu étrange. Autrement, je n’ai pas vu l’utiliser pour une autre fonction, si ce n’est pour avoir des informations concernant la météo. 

Pour l’utiliser il faut bien évidemment utiliser notre voix. Par contre, quand mon père et moi avons essayé de l’utiliser, nous avions de la peine à nous faire comprendre, elle ne reconnait pas très bien les prononciations différentes.

Alexa doit être branchée ou sinon elle a petite autonomie, certains modèles n’ont même pas de batterie interne, donc ils sont constamment “en charge”. 

Situation surprenante pour la première fois, lorsque l’on est tous à la cuisine et que la maman dit “Alexa”.. Pour demander d’allumer la lumière ailleurs —> Si elle s’était déplacée pour appuyer sur l’interrupteur, je n’aurais pas prêté attention à ce geste anodin, mais de se retrouver en pleine discussion puis d’intégrer la voix pour parler à une box, qu’on ne voit même pas, —> situation totalement nouvelle et déconcertante (différences de relations avec la machine entre Sandrine et nous)

La famille possède aussi un frigo connecté (qui donne la météo, l’heure,…).

Il me semble que leur assistant vocal leur donne gain de temps. Leur vie à Los Angeles est plutôt chargée, en 4 jours chez-eux, il n’y avait presque jamais de répit. Toujours quelque chose de prévu, les enfants à amener à des cours de danse, musique, elle à des RDV professionnels puis prévoir de partir pour le weekend. Ils courent toujours à droite à gauche. Donc à peine rentré, ça lui facilite la vie plus qu’autre chose, elle peut faire plusieurs choses à la fois, cuisiner, discuter,…

J’ai eu affaire à un autre style de vie, beaucoup plus rapide. Après avoir visité la belle-famille, j’ai été confrontée pour la première fois à des employés de maison, qu’on peut appelé des assistants, non pas virtuels, mais bien réels. 

INTERVIEW 2

GOOGLE HOME

Julian Schürch, Faoug,  entrepreneur

Il utilise son Smart Speaker Google Home quasiment tous les jours, utile car la base de données est celle de Google, donc le nombre de réponses est quasi infini. A peine arrivé chez lui, demande d’allumer la lumière, s’il va à la cuisine, il va demander d’allumer à cet endroit. Pour utiliser le Google Home, il faut utiliser la voix comme tous les assistants vocaux, on peut aussi appuyer sur un bouton pour l’enclencher mais ça perd du coup son utilité de parler à distance, lorsqu’on fait une autre activité.

Il l’utilise principalement pour écouter de la musique (comme un ami à lui, mais qui l’utilise uniquement en tant que speaker). En réalité, la fonction première de ces assistants est le fait d’être un Smart Speaker, donc pour fait pour écouter de la musique.

Il lui demande des choses comme les exemples suivants: 

« Hey Google, play my library on Spotify” 

« Hey Google, continue « The Crown » on Netflix “ (car elle est liée avec la Google Chromecast à sa TV). 

Il utilise aussi pour des ampoules connectées : « Hey Google, turn livingroom lights on”. 

(—>remarque : les objets sont toujours liés à d’autres produits de la même marque qu’il a acheté en plus (pareil pour toutes les marques, Alexa, HomePod)

Il uilise rarement le reste, comme les news, les différents jeux et autres fonctionnalités, surtout qu’il y en a beaucoup trop pour toutes les connaitre (donc ça reste quand même un peu limité aux choses de bases, tous les autres gadgets sont moins connus, du coup on ne peut pas réellement voir si ça fonctionne autant bien que les fonctions de base)

Ça lui arrive quand même parfois, plutôt dans un contexte entre amis, en soirée pour rire (—> notes: comme Yoann avec Siri qui commence à s’amuser avec les différentes fonctionnalités)

Intéressant : Julian avait acheté de base une Google Home, car il lance une entreprise qui vend des systèmes d’alarmes, des caméras de video-surveillances ainsi que des objets « Smart Home”.  C’est donc la raison principale d’en avoir une. Il voulait voir ce qu’il pouvait contrôler vocalement via la Google Home, comment rendre le plus pratique possible pour que ça puisse être connecté à ses objets, mais aussi voir les limites, la fiabilité. Il pense que c’est un marché qui commence gentiment à devenir accessible, en effet, on voit encore peu de personnes en avoir chez elles, mais c’est comme la plupart des gadgets, ils finissent presque toujours par être acceptés par les consommateurs. 

Lui-même explique qu’on se fait prendre au jeu aussi à force de l’utiliser, ça devient une routine alors qu’au début, on n’a pas forcément le réflexe de l’appeler pour allumer la lumière. Ce sont des gestes de base qui restent tout de même ancrés avant d’en adopter des nouveaux.

A noter qu’il n’en aurait pas forcément acheté une si il n’avait pas eu ce projet professionnel. 

INTERVIEW 3

SIRI

Yoann Cabral, 26, Lausanne / Renens, iPhone X, Siri, apple

Il n’a aucune idée de quel système est utilisé pour les assistants vocaux, il ne s’est jamais posé la question.

Il se sert assez souvent de Siri, que ça soit pour mettre un réveil, minuteur, application de temps, météo, plus ou moins tous les jours.

Les raisons pour laquelle il utilise Siri sont assez logiques. Soit il est occupé à faire autre chose comme la vaisselle, donc, il a les mains occupées. Je lui ai demandé s’il utilisait Siri sur l’ordi et sa réponse faisait tout autant sens. Il ne l’utilise jamais parce que s’il utilise son ordi, il est déjà dessus, du coup ça perd toute logique et c’est une perte de temps. Il n’a qu’à chercher sur internet, alors que son téléphone, il ne l’a pas toujours dans les mains à la maison. 

Il aimerait bien que ce soit lié a Spotify par exemple (comme google home), apple music oui donc obligé de lier a des produits apple, a tendance a vite réutiliser ses doigts, découvre solutions, désobéit, problèmes attention, bruits ambiants, s’énerve si ça ne marche pas

Il ne se verrait pas acheter une Google Home, Alexa, car pour lui c’est un luxe et un niveau encore plus élevé de flemmardise. Siri est déjà intégré aux iPhone, donc il ne faut pas acheter une box en plus.

INTERVIEW 4

ALEXA

Papa d’Eliott, Allemagne, petit frère

Ils ont une Alexa qu’ils utilisent en allemand. Il y en a trois, dans trois pièces différentes qui sont le salon, la cuisine et la chambre de son frère. Eliott m’a expliqué qu’ils l’utilisaient tout le temps et qu’on peut même renommer les prises connectées, les lampes et leur donner des ambiances lumineuses différentes selon les envies, les situations.. 

Anecdote : son petit frère qui, depuis une autre pièce(sa chambre) , éteint tout (lampes, électricité(prises connectées)) alors qu’Eliott était en train de regarder la TV ou de jouer au salon.

Ces assistants peuvent faire pleins de choses intéressantes mais on peut aussi vite être tenté de faire des blagues, de s’amuser avec les différentes options, surtout si tout le monde y a accès. On peut se demander si c’est possible de mettre des limites dans l’utilisation, de l’empêcher d’être utilisé après une certaine heure ou qu’à certains endroits.. En effet, si l’on a qu’une box, elle ne peut entendre qu’à l’endroit où elle est mise, il faut alors acheter des relais pour que ça soit accessible depuis des pièces différentes.

Une fonction utile est le fait de contrôler ces assistants depuis le smartphone, par exemple, si on a oublié d’éteindre la lumière en partant. 

Un ami d’Eliott possède des lampes intelligentes, ampoules connectées (prises connectées) qui sont controlées avec SIRI.

À AMÉLIORER

Les algorithmes de reconnaissance vocale avec des machines qui peuvent le supporter. Mais également une mémoire à long terme afin que l’assistant puisse se rappeler de toutes les requêtes déjà créées et les informations permettants de mieux connaitre son propriétaire. 

Ces éléments pourraient amener à des conversations plus sophistiquées, des questions complémentaires et une adaptation propre à chaque utilisateur.