Interface de Siri : quel cadre pour l’échange homme-machine ?

PROBLÉMATIQUE

Siri est par définition un objet hybride dans la mesure où il délivre des réponses écrites et/ou orales à des demandes, exclusivement orales. Dès lors, les modalités de ce qu’on appellera la construction de l’interaction homme-machine sont complexes et nécessitent des analyses précises quant au rôle de l’écrit, de l’oral, et des deux à la fois, c’est à dire, en relation.
En effet, qu’en est-il de l’articulation entre les deux modalités de relation entre l’homme et la machine. Pourquoi le constructeur Apple vante-t-il les mérites d’un outil destiné à une pratique de l’oral alors même que l’écrit reste en grande partie le mode dominant au sein du dispositif et dans la relation avec l’utilisateur?
Nous le comprenons aisément, Siri n’est pas un dispositif simple et renferme des contradictions, articulations et relations dont l’écriture et l’oralité sont les composantes à la réussite des échanges entre l’utilisateur et la machine.
Nous voudrions donc à travers cette étude de Siri répondre à la question suivante :
Comment oralité et écriture s’articulent dans la situation d’interaction homme-Siri ?
Dans l’histoire des objets parlants, Siri fait partie de ceux dont la caractéristique principale est de disposer d’un écran. En effet, le téléphone joue le rôle d’interface qui permet à l’usager de pouvoir engager des rapports d’échanges avec le logiciel Siri (nous parlerons alors, pour plus de simplicité dans la lecture, de « machine »). Ces rapports d’échanges se forment à travers des écrits mais également une oralité (cf. le schéma ci-dessus). C’est en cela que l’étude menée semble devoir prendre en compte la question de l’articulation entre écriture et oralité. Autrement dit, l’analyse ne devra pas porter d’une part sur l’écriture au sein du dispositif et d’autre part sur l’oralité de la machine/de l’usager, mais bien de l’écriture et de l’oralité au sein du dispositif et dans le cadre d’une situation d’échange homme-machine.
Nous devons également apporter une précision importante quant à l’utilisation de l’expression « la situation d’interaction homme-Siri ». Nous devons tout de suite éclaircir ces propos car ils pourront au cours de notre étude poser des problèmes d’interprétation dans les analyses effectuées.
La morphologie du terme interaction nous indique que celle-ci constitue une action réciproque (« act ») entre deux inter-actants (« inter »). La forme interactive sous-entend donc qu’il existe une action réciproque. Mais c’est dans cette dernière formule (« action réciproque ») que les questions émergent : la réciprocité est-elle effective avec la machine ? L’interaction de la machine existet-elle ?
Cependant, les machines n’agissent pas avec intention ni sens lorsqu’elle s’exécute. La machine suit une succession d’état qui n’est que la résultante d’une somme d’actions réalisées en amont par l’homme afin que la machine puisse être en état de fonctionner.
Derrière le terme interaction, se cache en réalité une véritable métaphore qui vise à situer l’homme par rapport à la machine. Il se joue en fait un jeu de croyance extrêmement fort, dû notamment à l’impression que l’usager peut influencer le scénario alors que c’est le concepteur de la machine qui a défini en amont un nombre de scénarios possibles.
Dans le cas de l’assistant vocal Siri, c’est en effet ce qu’il se passe : les concepteurs ont anticipé en amont les questions que pourraient poser les usagers et ont généré des réponses toutes prêtes qui se donnent à lire à l’usager au moment opportun et qui sont le signe de ladite « interaction » (même si après des améliorations du logiciel, le machine learning a pris une place de plus en plus importante).

Outil et langage : indissociabilité

Mais les travaux de Jack Goody et Walter J.Ong ne sont pas suffisants à démontrer l’interrelation existante entre écriture et oralité d’un point de vue historique. De plus, nous aimerions nous diriger peu à peu vers des analyses qui permettent de comprendre notre objet d’étude, Siri. Pour cela, il convient de comprendre comment « l’évolution des outils est marquée par un déplacement progressif de la mémoire » et qui, par là même, produit une reconfiguration des modes de faire, de penser et d’agir. Emmanuël Souchier et Jack Goody s’accorde à dire que la fabrication d’outils parl’homme et « l’intelligence sociale » dont il dispose« résultent de l’invention du langage » . Emmanuël Souchier ajoute : « L’externalisation de l’outil va donc progressivement s’accompagner d’une externalisation des techniques de mémoire et des technologies intellectuelles, dont la première et la plus importante fut sans doute l’écriture. »
Il y a finalement une extension de la mémoire de l’homme à travers l’outil, comme s‘il ne pouvait pas intégrer une « sur-spécialisation qui finirait par l’handicaper dans son milieu naturel. »
Dès lors « l’outil externalise la mémoire de l’homme » mais celle-ci ne réside pas dans l’outil lui même, c’est en revanche la mémoire qui permet de mettre en œuvre les potentialités de l’objet, précise Emmanuël Souchier. D’autre part, comme nous l’avons précisé: sans langage, pas d’outils. Or « le problème de la mémoire opératoire est dominé par celui du langage », on comprend donc à présent mieux pourquoi outil (qui nécessite la mise en œuvre de la mémoire) et langage sont en interrelation constante. Emmanuël Souchier l’explique de manière extrêmement lucide: « L’apprentissage de l’outil ne peut se réaliser autrement que dans la sphère réflexive de ce que Leroi-Gourhan appelle « la mise en marche du symbolisme réfléchi ». On comprend dès lors la nécessité du recours aux sciences du langage (linguistique, sémiologie) lorsqu’il convient d’aborder des outils eux-mêmes constitués à partir des langages et qui leur sont pour la plupart dédiés, comme c’est le cas des médias informatisés. »
Dans une perspective plus liés aux dispositifs de communication, les outils et leslangages ont toujours eu un lien fort.
Qu’il s’agisse des tablettes d’argiles mésopotamiennes, des télégraphes optiques ou des Smartphones, l’interrelation entre outil et langage a toujours existé, ce qui d’ailleurs fait même dire que le « progrès technique est lié au progrès des symboles techniques du langage » . Ainsi, dans le cadre de notre étude, nous pourrons analyser plus aisément les relations qu’entretiennent outil et langages (parlé/écrit) d’autant plus que les médias informatisés sont sans aucun doute un domaine dans lequel la mise en place de véritables langages est à prendre au sens propre, comme au figuré et qu’ils se situent « à l’articulation de l’opératoire et du symbolique »

Technologies : de la reconnaissance vocale à l’assistant personnel

Avant Siri, Google Now ou Cortana, de nombreuses expérimentations ont été développées. Celles-ci ont donné lieu à la création d’outil de reconnaissance vocale puis, plus tard, les « assistants personnels » ont été créés.
A travers ces différentes évolutions, se trame en toile de fond, l’utopie d’un dialogue total, ou plutôt naturel, entre l’homme et la machine. Mais en observant de près les orientations de conception, nous nous apercevons que beaucoup d’obstacles restent à franchir et que l’interrelation entre écriture et oralité esttoujours présente (comme une réponse aux difficultés rencontrées dans le cadre d’un dialogue homme-machine ?). Arrêtons-nous donc sur le développement de ces techniques vocales (et multimodales). Dans le contexte du dialogue entre l’homme et la machine, deux domaines sedistinguent nettement, selon Jean Caelen, Directeur des Recherches eu CNRS  (Laboratoire LIG, Grenoble) : les services vocaux et la recherche d’information sur le web. Ces deux domaines servent une même cause : la transmission et l’échange d’information.

Le système Siri (technique, écriture et oralité)

Dans cette sous-partie, nous voulons nous intéresser au processus technique du logiciel Siri. C’est à dire, que nous désirons comprendre comment lors de son utilisation, le logiciel fait intervenir écriture et oralité pour donner lieu à une situation d’interaction. Nous désirons dans cette approche qualifier cette interaction car Siri est un assistant numérique qui dispose d’une vérita ble spécificité par rapport à d’autres concurrents du type Google Now ou Amazon Echo, puisqu’il est équipé d’un écran qui donne à lire des informations concernant l’échange homme-machine.
Nous réaliserons ici une description du processus de Siri, puis une analyse des représentations proposées par le concepteur de ce processus de fonctionnement et enfin, nous nous arrêterons sur la reconnaissance vocale et le traitement du sens par la machine.

Processus technique de Siri

Plusieurs sources nous permettent de comprendre le fonctionnement technique de Siri et nous permettent de questionner l’utilisation des langages écrits et oraux pendant le fonctionnement du logiciel. Du son à l’écriture numérique Plusieurs sources concordent sur le fait que « l’application ne fait qu’enregistrer la voix et ne réalise aucun traitement. Les données sont ensuite compressées au format Speex, un codec Open Source qui a été conçu pour compresser la voix et qui est déjà utilisé pour la VoIP (Voix sur IP est une technique qui permet de communiquer par la voix sur des réseaux compatible IP) . »Dans cette première étape, la voix enregistrée est numérisée, donc écrite.

Quelle relation écriture-oralité en représentation ?

Nous désirons dans cette partie nous intéresser, non plus à la partie invisible du fonctionnement de Siri, mais bien à la partie visible par l’utilisateur. Nous reprendrons les différentes étapes du processus d’exécution type d’une requête (vue plus haut) afin d’observer les modes de représentations du logiciel «dans l’action » auprès de l’utilisateur et comprendre comment oralité et écriture vivent au sein du dispositif.
L’utilisation du langage, conditionné par le type de question Nous allons désormais conclure cette sous-partie en analysant la suite du processus qui est donné à voir à l’utilisateur, après qu’il a ouvert l’application. Nous allons prendre trois cas de figure concret d’utilisation qui pourront faire office de typologie.
Durant la première étape de l’utilisation, la retranscription de la requête utilisateur s’effectue mot à mot («Trouve », « une », « photo », « de », « moi »).
Cette retranscription du discours utilisateur par mot correspond aux étapes de numérisation, division et reconnaissance vocale du logiciel, vue en début de partie (processus technique). L’information traitée, le logiciel s’exécute et redirige l’utilisateur vers l’application iPhone « Photos » (deuxième écran) pourtenter de lui donner un résultat (ici, sans succès).
Plusieurs éléments sont à noter pour cet exemple. D’une part, Siri joue ici le rôle d’un simple exécutant puisqu’aucun son n’est émis de la part du logiciel. La réponse constitue en une réorientation directe de l’utilisateur vers une application censée donner la réponse à la requête utilisateur.
Il faut aussi noter l’absence de réponse «écrite » de la part de Siri. Le logiciel réoriente en fait directement vers le « lieu » de réponse (l’application « Photos »), sans commentaires écrits.
Avec une telle absence de langage de la part de Siri, ce que nous dit, a priori, cet exemple, c’est que l’objectif de Siri ne réside pas dans la construction d’une relation conversationnelle avec l’utilisateur mais il réside plutôt dans la « livraison » d’une réponse efficace, pertinente et rapide.
Dans le second cas (global problem), l’utilisateur demande à Siri de trouver des informations sur une célébrité mondialement connue. Il dit : « Qui est Obama ? ».
Lorsque le résultat est trouvé, les informations sous forme écrite préexistent à l’oralité, puis Siri «dit » : « Voici quelques informations : ». Plusieurs éléments sont à noter. Tout d’abord, le fait que le résultat écrit soit accessible avant que Siri ne « parle » donne une idée de la position que les concepteurs ont voulu attribuer à la machine. Comme nous l’avons déjà vu, la machine joue le rôle de serviteur. Mais plus encore, Siri s’efface ici pour mettre en avant des résultats de recherche sous forme écrite qui proviennent d’une autre source que lui-même, ne donnant ainsi aucun espoir à une éventuelle construction de relation conversationnelle homme-machine. En effet, ce qui est optimisé ici, ce n’est pas la relation mais bien la pertinence des informations données. Aucune énonciation en relation avec l’information des résultats de recherche n’a lieu.
D’autre part, la phrase «Voici quelques informations : » est donnée à entendre et à lire à l’utilisateur comme le signe d’une réussite. Ce que veut dire Siri c’est« Tenez, j’ai trouvé des informations pertinentes, en un temps record et qui correspondent exactement à ce que vous recherchez ».
Il existe un troisième et dernier cas, assez courant. Il s’agit des situations où Siri donne une réponse sans l’intervention d’une application tierce, ni recherche d’informations sur internet. Le logiciel fait simplement appel à la base de données des mots/phrases enregistrées par les voix humaines de Siri.Jusqu’à présent, nous avons étudié des cas dans lesquels Siri ne donnait pas deréponse écrite et orale en même temps (soit écrit, soit oral, soit aucun des deux).
En effet, la redirection vers une application tierce et l’utilisation des résultats de recherche d’informations sur Internet constituaient jusqu’ici les seules formes de réponses de la part du logiciel.
Qu’il s’agisse de l’analyse du processus technique ou de celle de l’interface utilisateur, l’oralité et l’écriture sont en constante interrelation dans le dispositif Siri. Mais plus encore, leur analyse nous a permis de tirer des conclusions intéressantes sur le fonctionnement de cette application.
L’interaction est techniquement rendue possible par un enchaînement de processus écrits et oraux qui permettent de donner lieu à un échange entre l’utilisateur et Siri. Techniquement, tout est fait pour que les échanges soient fluides et proches du genre d’interaction que deux hommes pourraient avoir ensemble lorsqu’ils discutent, par exemple.
Côté interface, beaucoup d’efforts sont consacrés à la création d’une interface qui représente des interactions fluides et proches de celles que pourraient avoir deux hommes, mais la réalité est toute autre. En effet, de nombreux éléments viennent prouver que l’interaction homme-machine (Siri) trouve sa force dans la capacité de chacun des utilisateurs à y croire.
Premièrement, les rapports hiérarchiques entre l’homme et la machine, imposés par les concepteurs via des signes langagiers oraux et écrits conditionnent l’échange entre les deux inter-actants ce qui ne favorise pas une situation dite d’interaction. Siri, soumis, s’efface trop souvent pour laisser place à de véritables échanges conversationnels.
Deuxièmement, la course à l’efficacité et la performance du résultat, caractérisée par des exécutions de requêtes rapides et sans commentaires oraux ou écrits de la part de l’application ne permettent pas non plus de développer ce dialogue oral spontané que les utilisateurs pourraient attendre. Mais nuançons ce propos, car si Siri a été fabriqué comme cela, c’est certainement car il correspond à un besoin de servitude de la part des utilisateurs.
Enfin, le discours verrouillé de Siri (lorsque les questions concernent le logiciel lui-même) ne permet pas d’aboutir à un véritable échange conversationnel, comme nous l’avons vu. Concluons en disant que dans l’utilisation de Siri, tout est fait pour que l’échange conversationnel ait lieu entre l’homme et la machine mais que par les contraintes qu’imposent les enjeux techniques, économiques et symboliques (oral/écrits) du dispositif, un doute persiste sur la possibilité de vivre une expérience dialogique qui pourrait se rapprocher de celle qu’on connaît entre deux hommes. Il va sans dire que de nombreux imaginaires circulent au sujet des éventuels types derelations qui pourraient exister avec les utilisateurs de Siri et qu’ils participent à des croyances selon lesquelles l’homme peut communiquer avec la machine comme il le fait avec l’homme. Le projet utopique du dialogue oral spontané est encore loin d’être réalisé.
Enfin, en ce qui concerne nos observations sur l’écriture et l’oralité dans le dispositif, nous pouvons résumer en disant que le langage participe à ce sentiment d’interaction conversationnelle avec la machine mais que d’un autre côté, la présence d’une interface, d’un écran et de réponses écrites ne favorise pas, ni ne naturalise l’échange conversationnel. Néanmoins la complémentarité de l’oralité et de l’écriture est nécessaire au bon fonctionnement du dispositif(exécution des requêtes, recherches et affichage d’informations…).

Interface de Siri : quel cadre pour l’échange homme-machine ?

Dans cette deuxième partie, nous désirons nous intéresser aux cadres de l’échange homme-machine en analysant l’interface plus en profondeur. Nous avons déjà analysé dans la première partie comment la situation d’interaction était rendue possible d’un point de vue technique mais également comment cette interaction se donnait à voir aux utilisateurs. Nous voulons ici rentrer en détail sur les cadres qu’imposent ou plutôt tentent d’imposer écriture et oralité en interrelation dans la situation d’interaction. Nous testerons donc notre deuxième grande hypothèse selon laquelle l’assistant personnel numérique offre un cadreécrit et oral à « l’interaction homme-machine » et essaierons de comprendre quelles formes d’interaction sont produites via l’utilisation du langage et comment elles sont données à voir à l’utilisateur.

Les cadres instituants du logiciel Siri

Comme tout média informatisé, Siri relève de la théorie générale des cadres.
Comme le font savoir Emmanuël Souchier et Yves Jeanneret dans un de leur article sur l’écriture numérique, « l’affichage d’un écrit à l’écran nécessite en effet la mise en abyme d’une série d’au moins quatre cadres successifs » .Leur travail réalisé pour l’exemple des écrits d’écran d’ordinateur, s’applique également pournotre objet d’étude Siri. Nous désirons donc faire une observation des différents cadres qui se succèdent et en tirer des enseignements sur la manière dont ces cadres orientent les échanges entre Siri et l’utilisateur.
Le premier cadre, est le cadre « matériel ». Dans le cas de Siri, il s’agit du Smartphone ou de la tablette de la marque Apple. Cette simple observation est plus intéressante qu’il n’y paraît puisqu’elle permet de replacer dans son contexte l’ensemble des analyses portées jusqu’ici, à savoir que le logiciel (ou l’application) Siri ne «vit » pas seul et lorsque le Smartphone est éteint, le lieu d’interaction n’existe plus. Ce Smartphone est le matériel-support qui accueille tout un ensemble d’écrits d’écran et qui les délimite matériellement (limite matérielle de l’écran et limite énergétique, car sans batterie, sans câble de recharge, pas d’interaction possible) mais aussi symboliquement (dans la mesure où le rapport qui se met en place entre le Smartphone et l’utilisateur est un rapport médiatisé, voire spectacularisé notamment par l’action de lecture, pour reprendre le terme d’Emmanuel Souchier).

L’interface : lieu d’interaction par excellence?

Siri est le théâtre d’une rencontre improbable entre un utilisateur lambda, qui provient de n’importe quel endroit et l’entreprise conceptrice et productrice du logiciel en question.
Le paradoxe de cette rencontre entre l’homme et la machine réside dans le fait que Siri est à la fois un inter-actant dans le dispositif de communication hommemachine mais également producteur(c’est le logiciel qui écrit et donne à lire les échanges des différents protagonistes de la situation), support et média (c’est Siri qui permet à l’utilisateur de lire, écouter, voir. Via l’écran, c’est tout un ensemble de signes qui sont donnés à voir ; l’interface vocale vient compléter cette fonction support/média).
Nous chercherons donc dans cette partie à répondre à plusieurs questions qui concernent les formes d’interactions qui sont produites par l’interrelationécriture-oralité. Autrement dit, nous chercherons à comprendre comment le dispositif offre un cadre à l’interaction et comment elle engage, ou tented’engager l’utilisateur à travers la parole, le dialogue écrit et les signes produits pendant l’utilisation de l’application.

Lieu de rencontres de deux paroles avec deux origines et deux natures

Parole de l’entreprise

La parole de l’entreprise ne provient que d’une seule source. Un nombre d’étape important a été nécessaire pour que se dégage une voix depuis cette application(comme nous l’avions expliqué dans la partie I. de ce mémoire). Mais plusencore, nous avons affaire à une application dont les sources de production sonthybrides : d’une part, le concepteur du logiciel Siri, d’autre part le producteur dusupport et enfin, la voix, qui provient d’une autre source. Mais ce qu’il faut noterdans cette remarque, c’est que l’utilisateur, reçoit cette parole comme si elle provenait d’une seule source, voire qu’elle provenait du dispositif lui-même. Le fait que l’ensemble de ces sources de productions soit réuni dans un tel support laisse entendre que le dispositif est comme tombé du ciel. Il participe à la création d’un imaginaire selon lequel la machine parlante est une. La voix de Siri pose en fait des questions fondamentales de rapport au temps, à l’espace et au corps. Marie-Pascale Huglo s’intéresse justement aux changement de perceptions et à la transformation de nos imaginaires face à la voix, suite à l’arrivée des technologies: « S’intéresser à ces phénomènes, c’est prendre la mesure critique de leur impact sur le corps (détachement et extériorité de la voix, diversification des corps sonores, humains ou inhumains), sur la temporalité (la voix enregistrée est à la fois présence et archive, elle est « anachronique »), sur la spatialité (j’entends dans le creux de l’oreille la voix d’un absent), sur lacommunication (réseaux, effacement de la distance, « accessibilité » [terme bien contemporain] en tout temps et en tout lieu [public ou privé]), sur la mémoire (lavoix de Malraux, c’est une diction, une intonation, une déclamation, de la « friture» aussi, qui datent). » Mais qu’en est-il de la parole de l’entreprise en situation? Comment est-elle donnée à entendre et à voir à l’utilisateur? Le fait de poser la question de la sorte (comment une parole peut être donnée à voir ?) nous rappelle à quel point l’énonciation de la machine est hybride. Eneffet, en même temps qu’elle donne à lire la réponse à une requête sur l’écran,elle l’énonce oralement, via les enceintes du téléphone.
Ce qu’on peut d’ores et déjà dire, c’est que la voix de Siri, même si elle provientd’un enregistrement de voix humaine, elle ne s’apparente pas ou peu à une voix« naturelle ». La synthétisation de la voix est inéluctable dans la mesure où celleci « oscille toujours entre intériorité et extériorité, entre émotion/sensation et sens, entre chant et parole, entre corps et lan gage » et que Siri, en tant que programme numérique ne dispose pas de « corps ». Une citation de Roland Barthes dans Le grain de la voix résume bien l’idée que l’on souhaite montrer ici: « Ce qui se perd dans la transcription, c’est tout simplement le corps » . Roland Barthes parle évidemment ici de transcription écrite. Il veut dire qu’à partir du moment où la voix est (re)transcrite à l’écrit, elle perd son corps. Mais dans notre cas, nous avons vu que la voix était également écrite (enregistrement d’une voix humaine) mais surtout retranscrite lors de la réponse à une requête. Le dispositif Siri, est finalement ce corps vide qui fait appel à une voix de source extérieure à lui-même pour simuler un discours dont le corps n’est autre que le cadre matériel du dispositif, à savoir l’objet Smartphone. Si l’utilisateur pense avoir affaire à un unique et vrai interlocuteur, il se trompe, mais d’autres éléments (paradoxalement de l’ordre de l’écrit) sont pourtant là pour prolonger cet imaginaire de la machine parlante.
Dans le système Siri, la parole de l’entreprise n’est pas seulement une parole orale. L’écran et la mise en écran de l’oralité des interlocuteurs sont donnés à lirevia du texte qui s’affiche en même temps (en réalité, juste avant) que Siri donnela réponse oralement.

Le rapport de stage ou le pfe est un document d’analyse, de synthèse et d’évaluation de votre apprentissage, c’est pour cela rapport-gratuit.com propose le téléchargement des modèles complet de projet de fin d’étude, rapport de stage, mémoire, pfe, thèse, pour connaître la méthodologie à avoir et savoir comment construire les parties d’un projet de fin d’étude.

Table des matières
Remerciements 
Sommaire 
INTRODUCTION 
PROBLÉMATIQUE
CONTEXTE DISCIPLINAIRE 
HYPOTHÈSES 
MÉTHODOLOGIE
I. Histoire, écriture et oralité des objets
A. Aux origines de Siri
1. Oralité et écriture : une interrelation historique
2. Outil et langage : indissociabilité
3. Technologies : de la reconnaissance vocale à l’assistant personnel
B. Le système Siri (technique, écriture et oralité)
1. Processus technique de Siri
2. Quelle relation écriture-oralité en représentation ?
II. Interface de Siri : quel cadre pour l’échange homme-machine ?
A. Les cadres instituants du logiciel Siri
B. L’interface : lieu d’interaction par excellence ?
1. Lieu de rencontres de deux paroles avec deux origines et deux natures
2. Lieu de dialogue ? L’écran comme lieu d’interaction
3. Lieu de conversation ?
III. Qui est qui, pour qui ? : perception et co-construction identitaire de Siri et de ses utilisateurs
A. Écrits d’écran et oralité au service de la construction identitaire de Siri
B. Une co-construction identitaire soutenue par des discours d’accompagnements
C. Quel avenir, quelles évolutions et quelle place pour Siri ?
Conclusion
Bibliographie
Résumé du mémoire
Mots clés

Lire le rapport complet

Télécharger aussi :

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *