Le nombre d'applications et l'importance des interfaces vocales augmentent rapidement

Teneur

quatre grands
Les américains veulent acheter
Lavez, cuisez, nettoyez !
Ancien concept. Son heure est-elle enfin venue ?
question techniquement difficile
Voix? Arts graphiques? Ou peut-être les deux ?
Attention à la sécurité !

Une famille américaine de Portland, dans l'Oregon, a récemment appris que l'assistant vocal d'Alex enregistrait leurs conversations privées et les envoyait à un ami. La propriétaire de la maison, surnommée Danielle par les médias, a déclaré aux journalistes qu'elle "ne reconnecterait plus jamais cet appareil car on ne peut pas lui faire confiance".

Alexa, fourni par les haut-parleurs Echo (1) et d'autres gadgets dans des dizaines de millions de foyers américains, commence l'enregistrement lorsqu'il entend son nom ou "mot d'appel" prononcé par l'utilisateur. Cela signifie que même si le mot "Alexa" est mentionné dans une publicité télévisée, l'appareil peut commencer à enregistrer. C'est exactement ce qui s'est passé dans ce cas, explique Amazon, le distributeur de matériel.

"Le reste de la conversation a été interprété par l'assistant vocal comme une commande pour envoyer un message", a indiqué la société dans un communiqué. « À un moment donné, Alexa a demandé à haute voix : « A qui ? La poursuite de la conversation familiale sur le parquet aurait dû être perçue par la machine comme un élément de la liste de contacts du client. C'est du moins ce que pense Amazon. Ainsi, la traduction est réduite à une série d'accidents.

L'inquiétude, cependant, demeure. Parce que pour une raison quelconque, dans une maison où nous nous sentions encore à l'aise, nous devons entrer dans une sorte de "mode voix", regarder ce que nous disons, ce que la télévision diffuse et, bien sûr, ce que ce nouveau haut-parleur sur la poitrine de tiroirs dit. nous.

néanmoins Malgré les imperfections technologiques et les problèmes de confidentialité, avec la popularité croissante d'appareils comme Amazon Echo, les gens commencent à s'habituer à l'idée d'interagir avec des ordinateurs en utilisant leur voix..

Comme Werner Vogels, CTO d'Amazon, l'a souligné lors de sa session AWS re:Invent fin 2017, la technologie a jusqu'à présent limité notre capacité à interagir avec les ordinateurs. Nous tapons des mots-clés dans Google à l'aide du clavier, car c'est toujours le moyen le plus courant et le plus simple de saisir des informations dans la machine.

dit Vogels. -

quatre grands

Lors de l'utilisation du moteur de recherche Google sur le téléphone, nous avons probablement remarqué un signe de microphone avec un appel à parler il y a longtemps. Cette Google maintenant (2), qui peut dicter une requête de recherche, saisir un message à la voix, etc. Ces dernières années, Google, Apple et Amazon ont grandement amélioré technologie de reconnaissance vocale. Les assistants vocaux comme Alexa, Siri et Google Assistant enregistrent non seulement votre voix, mais comprennent également ce que vous leur dites et répondent aux questions.

Google Now est disponible gratuitement pour tous les utilisateurs d'Android. L'application peut, par exemple, régler une alarme, consulter les prévisions météo et vérifier l'itinéraire sur Google maps. Extension conversationnelle des états Google Now Assistant Google () – assistance virtuelle à l'utilisateur de l'équipement. Il est disponible principalement sur les appareils mobiles et intelligents pour la maison. Contrairement à Google Now, il peut participer à un échange bidirectionnel. L'assistant a fait ses débuts en mai 2016 dans le cadre de l'application de messagerie Google Allo, ainsi que dans le haut-parleur vocal Google Home (3).

3. Accueil Google

Le système IOS dispose également de son propre assistant virtuel, Siri, qui est un programme inclus avec les systèmes d'exploitation d'Apple iOS, watchOS, tvOS homepod et macOS. Siri a fait ses débuts avec iOS 5 et l'iPhone 4s en octobre 2011 lors de la conférence Let's Talk iPhone.

Le logiciel est basé sur une interface conversationnelle : il reconnaît la parole naturelle de l'utilisateur (avec iOS 11, il est également possible d'entrer des commandes manuellement), répond aux questions et effectue des tâches. Grâce à l'introduction du machine learning, un assistant au fil du temps analyse les préférences personnelles à l'utilisateur de fournir des résultats et des recommandations plus pertinents. Siri nécessite une connexion Internet constante - les principales sources d'informations ici sont Bing et Wolfram Alpha. iOS 10 a introduit la prise en charge des extensions tierces.

Un autre des quatre grands Cortana. C'est un assistant personnel intelligent créé par Microsoft. Il est pris en charge sur les plateformes Windows 10, Windows 10 Mobile, Windows Phone 8.1, Xbox One, Skype, Microsoft Band, Microsoft Band 2, Android et iOS. Cortana a été présenté pour la première fois lors de la Microsoft Build Developer Conference en avril 2014 à San Francisco. Le nom du programme vient du nom d'un personnage de la série de jeux Halo. Cortana est disponible en anglais, italien, espagnol, français, allemand, chinois et japonais.

Utilisateurs du programme déjà mentionné Alexa ils doivent également tenir compte des restrictions linguistiques - l'assistant numérique ne parle que l'anglais, l'allemand, le français et le japonais.

L'assistant virtuel Amazon a été utilisé pour la première fois dans les haut-parleurs intelligents Amazon Echo et Amazon Echo Dot développés par Amazon Lab126. Il permet l'interaction vocale, la lecture de musique, la création de listes de tâches, le réglage d'alarme, la diffusion de podcasts, la lecture de livres audio et la météo en temps réel, la circulation, les sports et d'autres informations telles que les actualités (4). Alexa peut contrôler plusieurs appareils intelligents pour créer un système domotique. Il peut également être utilisé pour faire des achats pratiques dans la boutique Amazon.

4. Pourquoi les utilisateurs utilisent Echo (selon la recherche)

Les utilisateurs peuvent améliorer l'expérience Alexa en installant des "compétences" Alexa (), des fonctionnalités supplémentaires développées par des tiers, plus communément appelées applications telles que la météo et les programmes audio dans d'autres paramètres. La plupart des appareils Alexa vous permettent d'activer votre assistant virtuel avec un mot de passe de réveil, appelé .

Amazon domine définitivement le marché des haut-parleurs intelligents aujourd'hui (5). IBM, qui a introduit un nouveau service en mars 2018, tente d'entrer dans le top quatre L'assistante de Watson, conçu pour les entreprises qui souhaitent créer leurs propres systèmes d'assistants virtuels à commande vocale. Quel est l'avantage de la solution IBM ? Selon les représentants de l'entreprise, tout d'abord, sur des possibilités beaucoup plus grandes de personnalisation et de protection de la vie privée.

Premièrement, Watson Assistant n'est pas marqué. Les entreprises peuvent créer leurs propres solutions sur cette plateforme et les étiqueter avec leur propre marque.

Deuxièmement, ils peuvent former leurs systèmes d'assistance à l'aide de leurs propres ensembles de données, ce qui, selon IBM, facilite l'ajout de fonctionnalités et de commandes à ce système par rapport aux autres technologies VUI (interface utilisateur vocale).

Troisièmement, Watson Assistant ne fournit pas à IBM d'informations sur l'activité des utilisateurs - les développeurs de solutions sur la plate-forme ne peuvent conserver que des données précieuses pour eux-mêmes. En attendant, toute personne qui construit des appareils, par exemple avec Alexa, doit être consciente que ses précieuses données se retrouveront sur Amazon.

Watson Assistant a déjà plusieurs implémentations. Le système a été utilisé, par exemple, par Harman, qui a créé un assistant vocal pour le concept-car Maserati (6). À l'aéroport de Munich, un assistant IBM alimente un robot Pepper pour aider les passagers à se déplacer. Le troisième exemple est Chameleon Technologies, où la technologie vocale est utilisée dans un compteur domestique intelligent.

6. Watson Assistant dans un concept-car Maserati

Il convient d'ajouter que la technologie sous-jacente ici n'est pas non plus nouvelle. Watson Assistant inclut des fonctionnalités de chiffrement pour les produits IBM existants, Watson Conversation et Watson Virtual Agent, ainsi que des API pour l'analyse du langage et le chat.

Amazon n'est pas seulement un leader de la technologie vocale intelligente, mais en fait une entreprise directe. Cependant, certaines entreprises ont expérimenté l'intégration d'Echo bien plus tôt. Sisense, une entreprise du secteur de la BI et de l'analyse, a introduit l'intégration Echo en juillet 2016. À son tour, la startup Roxy a décidé de créer ses propres logiciels et matériels avec commande vocale pour l'industrie hôtelière. Plus tôt cette année, Synqq a introduit une application de prise de notes qui utilise le traitement de la voix et du langage naturel pour ajouter des notes et des entrées de calendrier sans avoir à les taper sur un clavier.

Toutes ces petites entreprises ont de grandes ambitions. Mais surtout, ils ont appris que tous les utilisateurs ne souhaitent pas transférer leurs données vers Amazon, Google, Apple ou Microsoft, qui sont les acteurs les plus importants dans la construction de plateformes de communication vocale.

Les américains veulent acheter

En 2016, la recherche vocale représentait 20 % de toutes les recherches mobiles Google. Les personnes qui utilisent cette technologie au quotidien citent sa commodité et son multitâche parmi ses plus grands avantages. (par exemple, la possibilité d'utiliser un moteur de recherche en conduisant une voiture).

Les analystes de Visiongain estiment la valeur marchande actuelle des assistants numériques intelligents à 1,138 milliard de dollars.. Il existe de plus en plus de tels mécanismes. Selon Gartner, fin 2018 déjà 30% de nos interactions avec la technologie se fera par le biais de conversations avec des systèmes vocaux.

La société de recherche britannique IHS Markit estime que le marché des assistants numériques alimentés par l'IA atteindra 4 milliards d'appareils d'ici la fin de cette année, et ce nombre pourrait atteindre 2020 milliards d'ici 7.

Selon les rapports d'eMarketer et de VoiceLabs, 2017 millions d'Américains ont utilisé la commande vocale au moins une fois par mois en 35,6. Cela signifie une augmentation de près de 130 % par rapport à l'année précédente. Le marché des assistants numériques à lui seul devrait croître de 2018 % en 23. Cela signifie que vous les utiliserez déjà. 60,5 millions d'Américains, ce qui se traduira par de l'argent concret pour leurs producteurs. RBC Capital Markets estime que l'interface Alexa générera jusqu'à 2020 milliards de dollars de revenus pour Amazon d'ici 10.

Lavez, cuisez, nettoyez !

Les interfaces vocales pénètrent de plus en plus hardiment les marchés de l'électroménager et de l'électronique grand public. Cela s'est déjà vu lors de l'exposition IFA 2017. La société américaine Neato Robotics a présenté, par exemple, un robot aspirateur qui se connecte à l'une des nombreuses plateformes de maison intelligente, y compris le système Amazon Echo. En parlant au haut-parleur intelligent Echo, vous pouvez demander à la machine de nettoyer toute votre maison à des heures précises de la journée ou de la nuit.

D'autres produits à commande vocale ont été présentés lors du salon, allant des téléviseurs intelligents vendus sous la marque Toshiba par la société turque Vestel aux couvertures chauffantes de la société allemande Beurer. Beaucoup de ces appareils électroniques peuvent également être activés à distance à l'aide de smartphones.

Cependant, selon les représentants de Bosch, il est trop tôt pour dire laquelle des options d'assistant domestique deviendra dominante. Lors de l'IFA 2017, un groupe technique allemand a présenté des machines à laver (7), des fours et des machines à café qui se connectent à Echo. Bosch souhaite également que ses appareils soient compatibles avec les plates-formes vocales Google et Apple à l'avenir.

7. Machine à laver Bosch qui se connecte à Amazon Echo

Des entreprises telles que Fujitsu, Sony et Panasonic développent leurs propres solutions d'assistant vocal basées sur l'IA. Sharp ajoute cette technologie aux fours et aux petits robots qui arrivent sur le marché. Nippon Telegraph & Telephone recrute des fabricants de matériel informatique et de jouets pour adapter un système d'intelligence artificielle à commande vocale.

Ancien concept. Son heure est-elle enfin venue ?

En fait, le concept d'interface utilisateur vocale (VUI) existe depuis des décennies. Quiconque a regardé Star Trek ou 2001 : l'Odyssée de l'espace il y a des années s'attendait probablement à ce que vers l'an 2000, nous contrôlions tous les ordinateurs avec nos voix. De plus, les auteurs de science-fiction ne sont pas les seuls à avoir vu le potentiel de ce type d'interface. En 1986, les chercheurs de Nielsen ont demandé à des professionnels de l'informatique ce qu'ils pensaient être le plus grand changement dans les interfaces utilisateur d'ici l'an 2000. Ils pointaient le plus souvent le développement des interfaces vocales.

Il y a des raisons d'espérer une telle solution. La communication verbale est, après tout, le moyen le plus naturel pour les gens d'échanger consciemment des pensées, donc l'utiliser pour l'interaction homme-machine semble être la meilleure solution jusqu'à présent.

L'un des premiers VUI, appelé boîte à chaussures, a été créé au début des années 60 par IBM. C'était le précurseur des systèmes de reconnaissance vocale d'aujourd'hui. Cependant, le développement des appareils VUI a été limité par les limites de la puissance de calcul. Analyser et interpréter la parole humaine en temps réel demande beaucoup d'efforts, et il a fallu plus de cinquante ans pour arriver au point où cela devenait réellement possible.

Les appareils dotés d'une interface vocale ont commencé à apparaître dans la production de masse au milieu des années 90, mais n'ont pas gagné en popularité. Le premier téléphone à commande vocale (numérotation) a été Philips Étincellesorti en 1996. Cependant, cet appareil innovant et simple d'utilisation n'était pas exempt de limitations technologiques.

D'autres téléphones équipés de formes d'interface vocale (créées par des sociétés telles que RIM, Samsung ou Motorola) arrivent régulièrement sur le marché, permettant aux utilisateurs de composer par la voix ou d'envoyer des messages texte. Tous, cependant, nécessitaient de mémoriser des commandes spécifiques et de les prononcer sous une forme forcée, artificielle, adaptée aux capacités des appareils de l'époque. Cela a généré un grand nombre d'erreurs, qui, à leur tour, ont conduit à l'insatisfaction des utilisateurs.

Cependant, nous entrons maintenant dans une nouvelle ère de l'informatique, dans laquelle les progrès de l'apprentissage automatique et le développement de l'intelligence artificielle libèrent le potentiel de la conversation en tant que nouvelle façon d'interagir avec la technologie (8). Le nombre d'appareils prenant en charge l'interaction vocale est devenu un facteur important qui a eu un impact important sur le développement de VUI. Aujourd'hui, près d'1/3 de la population mondiale possède déjà des smartphones pouvant être utilisés pour ce type de comportement. Il semble que la plupart des utilisateurs soient enfin prêts à adapter leurs interfaces vocales.

8. Histoire moderne du développement de l'interface vocale

Cependant, avant de pouvoir parler librement à un ordinateur, comme l'ont fait les personnages de L'Odyssée de l'espace, nous devons surmonter un certain nombre de problèmes. Les machines ne sont pas encore très douées pour gérer les nuances linguistiques. Outre de nombreuses personnes se sentent encore mal à l'aise de donner des commandes vocales à un moteur de recherche.

Les statistiques montrent que les assistants vocaux sont principalement utilisés à la maison ou entre amis proches. Aucune des personnes interrogées n'a admis utiliser la recherche vocale dans les lieux publics. Cependant, ce blocus est susceptible de disparaître avec la diffusion de cette technologie.

question techniquement difficile

Le problème auquel sont confrontés les systèmes (ASR) est d'extraire des données utiles d'un signal vocal et de les associer à un certain mot qui a une certaine signification pour une personne. Les sons produits sont différents à chaque fois.

Variabilité du signal vocal est sa propriété naturelle, grâce à laquelle nous reconnaissons, par exemple, un accent ou une intonation. Chaque élément du système de reconnaissance vocale a une tâche spécifique. Sur la base du signal traité et de ses paramètres, un modèle acoustique est créé, qui est associé au modèle de langage. Le système de reconnaissance peut fonctionner sur la base d'un petit ou d'un grand nombre de motifs, ce qui détermine la taille du vocabulaire avec lequel il travaille. Ils peuvent être petits dictionnaires dans le cas de systèmes qui reconnaissent des mots ou des commandes individuels, et grandes bases de données contenant l'équivalent de l'ensemble de langue et prenant en compte le modèle de langue (grammaire).

Problèmes rencontrés par les interfaces vocales en premier lieu comprendre correctement la parole, dans lesquels, par exemple, des séquences grammaticales entières sont souvent omises, des erreurs linguistiques et phonétiques, des erreurs, des omissions, des défauts d'élocution, des homonymes, des répétitions injustifiées, etc.. Tous ces systèmes ACP doivent fonctionner rapidement et de manière fiable. Telles sont du moins les attentes.

La source des difficultés est également des signaux acoustiques autres que la parole reconnue qui entrent dans l'entrée du système de reconnaissance, c'est-à-dire toutes sortes brouillage et bruit. Dans le cas le plus simple, vous en avez besoin filtrer. Cette tâche semble routinière et facile - après tout, divers signaux sont filtrés et chaque ingénieur en électronique sait quoi faire dans une telle situation. Cependant, cela doit être fait avec beaucoup de soin et de prudence si le résultat de la reconnaissance vocale est à la hauteur de nos attentes.

Le filtrage actuellement utilisé permet de supprimer, avec le signal de parole, le bruit externe capté par le microphone et les propriétés internes du signal de parole lui-même, qui le rendent difficilement reconnaissable. Cependant, un problème technique beaucoup plus complexe se pose lorsque l'interférence avec le signal de parole analysé est ... un autre signal de parole, c'est-à-dire, par exemple, des discussions bruyantes autour. Cette question est connue dans la littérature sous le nom de . Cela nécessite déjà l'utilisation de méthodes complexes, les soi-disant. déconvolution (déchiffrer) le signal.

Les problèmes de reconnaissance vocale ne s'arrêtent pas là. Il vaut la peine de réaliser que la parole contient de nombreux types d'informations différents. La voix humaine suggère le sexe, l'âge, les différents caractères du propriétaire ou son état de santé. Il existe un vaste département d'ingénierie biomédicale traitant du diagnostic de diverses maladies sur la base des phénomènes acoustiques caractéristiques trouvés dans le signal de parole.

Il existe également des applications où le but principal de l'analyse acoustique d'un signal de parole est d'identifier le locuteur ou de vérifier qu'il est bien celui qu'il prétend être (voix au lieu de clé, mot de passe ou code PUK). Cela peut être important, en particulier pour les technologies du bâtiment intelligent.

Le premier composant d'un système de reconnaissance vocale est микрофон. Cependant, le signal capté par le microphone reste généralement peu utile. Des études montrent que la forme et le parcours de l'onde sonore varient considérablement en fonction de la personne, de la vitesse de la parole et en partie de l'humeur de l'interlocuteur - alors qu'ils reflètent dans une faible mesure le contenu même des commandes prononcées.

Par conséquent, le signal doit être correctement traité. L'acoustique moderne, la phonétique et l'informatique fournissent ensemble un riche ensemble d'outils qui peuvent être utilisés pour traiter, analyser, reconnaître et comprendre un signal vocal. Le spectre dynamique du signal, appelé spectrogrammes dynamiques. Ils sont assez faciles à obtenir et la parole présentée sous la forme d'un spectrogramme dynamique est relativement facile à reconnaître en utilisant des techniques similaires à celles utilisées en reconnaissance d'images.

Des éléments simples de la parole (par exemple, des commandes) peuvent être reconnus par la simple similitude de spectrogrammes entiers. Par exemple, un dictionnaire de téléphone mobile activé par la voix ne contient que quelques dizaines à quelques centaines de mots et de phrases, généralement pré-empilés afin qu'ils puissent être facilement et efficacement identifiés. Ceci est suffisant pour des tâches de contrôle simples, mais cela limite considérablement l'application globale. En règle générale, les systèmes construits selon le schéma ne prennent en charge que des haut-parleurs spécifiques pour lesquels les voix sont spécialement formées. Donc, s'il y a quelqu'un de nouveau qui veut utiliser sa voix pour contrôler le système, il ne sera probablement pas accepté.

Le résultat de cette opération est appelé spectrogramme 2-W, c'est-à-dire un spectre bidimensionnel. Il y a une autre activité dans ce bloc qui mérite qu'on s'y attarde - segmentation. D'une manière générale, nous parlons de décomposer un signal de parole continu en parties qui peuvent être reconnues séparément. Ce n'est qu'à partir de ces diagnostics individuels que se fait la reconnaissance de l'ensemble. Cette procédure est nécessaire car il n'est pas possible d'identifier un discours long et complexe en une seule fois. Des volumes entiers ont déjà été écrits sur les segments à distinguer dans un signal de parole, nous ne déciderons donc pas maintenant si les segments distingués doivent être des phonèmes (équivalents sonores), des syllabes ou peut-être des allophones.

Le processus de reconnaissance automatique fait toujours référence à certaines caractéristiques des objets. Des centaines d'ensembles de paramètres différents ont été testés pour le signal vocal. divisé en cadres reconnus et ayant fonctionnalités sélectionnéespar lequel ces images sont présentées dans le processus de reconnaissance, nous pouvons effectuer (pour chaque image séparément) classification, c'est à dire. attribuer un identifiant à la trame, qui la représentera dans le futur.

La prochaine étape assemblage de cadres en mots séparés - le plus souvent basé sur le soi-disant. modèle de modèles de Markov implicites (HMM-). Vient ensuite le montage des mots compléter les phrases.

Nous pouvons maintenant revenir un instant au système Alexa. Son exemple montre un processus en plusieurs étapes de "compréhension" automatique d'une personne - plus précisément: une commande donnée par elle ou une question posée.

Comprendre les mots, comprendre le sens et comprendre l'intention de l'utilisateur sont des choses complètement différentes.

Par conséquent, la prochaine étape est le travail du module PNL (), dont la tâche est reconnaissance de l'intention de l'utilisateur, c'est à dire. la signification de la commande/question dans le contexte dans lequel elle a été prononcée. Si l'intention est identifiée, alors attribution de soi-disant compétences et capacités, c'est-à-dire la fonctionnalité spécifique prise en charge par l'assistant intelligent. Dans le cas d'une question sur la météo, les sources de données météorologiques sont appelées, ce qui reste à transformer en parole (TTS - mécanisme). En conséquence, l'utilisateur entend la réponse à la question posée.

Voix? Arts graphiques? Ou peut-être les deux ?

La plupart des systèmes d'interaction modernes connus sont basés sur un intermédiaire appelé interface utilisateur graphique (interface graphique). Malheureusement, l'interface graphique n'est pas le moyen le plus évident d'interagir avec un produit numérique. Cela nécessite que les utilisateurs apprennent d'abord à utiliser l'interface et se souviennent de ces informations à chaque interaction ultérieure. Dans de nombreuses situations, la voix est beaucoup plus pratique, car vous pouvez interagir avec le VUI simplement en parlant à l'appareil. Une interface qui n'oblige pas les utilisateurs à mémoriser et à mémoriser certaines commandes ou méthodes d'interaction pose moins de problèmes.

Bien sûr, l'expansion de VUI ne signifie pas l'abandon d'interfaces plus traditionnelles - plutôt, des interfaces hybrides seront disponibles qui combinent plusieurs façons d'interagir.

L'interface vocale n'est pas adaptée à toutes les tâches dans un contexte mobile. Avec lui, nous appellerons un ami au volant d'une voiture, et même lui enverrons un SMS, mais vérifier les derniers transferts peut être trop difficile - en raison de la quantité d'informations transmises au système () et générées par le système (système). Comme le suggère Rachel Hinman dans son livre Mobile Frontier, l'utilisation de VUI devient plus efficace lors de l'exécution de tâches où la quantité d'informations d'entrée et de sortie est faible.

Un smartphone connecté à Internet, c'est pratique mais aussi peu pratique (9). Chaque fois qu'un utilisateur souhaite acheter quelque chose ou utiliser un nouveau service, il doit télécharger une autre application et créer un nouveau compte. Un champ d'utilisation et de développement d'interfaces vocales a été créé ici. Au lieu d'obliger les utilisateurs à installer de nombreuses applications différentes ou à créer des comptes distincts pour chaque service, les experts affirment que VUI transférera le fardeau de ces tâches fastidieuses à un assistant vocal alimenté par l'IA. Il lui sera commode de mener des activités intenses. Nous ne lui donnerons que des ordres.

9. Interface vocale via téléphone intelligent

Aujourd'hui, plus qu'un téléphone et un ordinateur sont connectés à Internet. Les thermostats intelligents, les lumières, les bouilloires et de nombreux autres appareils intégrés à l'IdO sont également connectés au réseau (10). Ainsi, il existe des appareils sans fil tout autour de nous qui remplissent nos vies, mais tous ne s'intègrent pas naturellement dans l'interface utilisateur graphique. L'utilisation de VUI vous aidera à les intégrer facilement dans notre environnement.

10. Interface vocale avec l'Internet des objets

La création d'une interface utilisateur vocale deviendra bientôt une compétence clé pour les concepteurs. C'est un vrai problème - la nécessité de mettre en place des systèmes vocaux vous incitera à vous concentrer davantage sur la conception proactive, c'est-à-dire essayer de comprendre les intentions initiales de l'utilisateur, anticiper ses besoins et ses attentes à chaque étape de la conversation.

La voix est un moyen efficace de saisir des données. Elle permet aux utilisateurs d'envoyer rapidement des commandes au système selon leurs propres conditions. D'autre part, l'écran offre un moyen efficace d'afficher des informations : il permet aux systèmes d'afficher une grande quantité d'informations en même temps, réduisant ainsi la charge sur la mémoire des utilisateurs. Il est logique que les combiner en un seul système semble encourageant.

Les haut-parleurs intelligents comme Amazon Echo et Google Home n'offrent aucun affichage visuel. Améliorant considérablement la précision de la reconnaissance vocale à des distances modérées, ils permettent un fonctionnement mains libres, ce qui augmente leur flexibilité et leur efficacité - ils sont souhaitables même pour les utilisateurs qui possèdent déjà des smartphones à commande vocale. Cependant, l'absence d'écran est une énorme limitation.

Seuls les bips peuvent être utilisés pour informer les utilisateurs des commandes possibles, et la lecture à haute voix de la sortie devient fastidieuse, sauf pour les tâches les plus élémentaires. Régler une minuterie avec une commande vocale pendant la cuisson est génial, mais vous demander combien de temps il reste n'est pas nécessaire. Obtenir une météo régulière devient un test de mémoire pour l'utilisateur, qui doit écouter et absorber une série de faits tout au long de la semaine, plutôt que de les relever sur l'écran d'un coup d'œil.

Les concepteurs ont déjà solution hybride, Echo Show (11), qui a ajouté un écran d'affichage au haut-parleur intelligent Echo de base. Cela élargit considérablement les fonctionnalités de l'équipement. Cependant, l'Echo Show est encore beaucoup moins capable de remplir les fonctions de base qui sont depuis longtemps disponibles sur les smartphones et les tablettes. Il ne peut pas (encore) surfer sur le Web, afficher des avis ou afficher le contenu d'un panier Amazon, par exemple.

Un affichage visuel est intrinsèquement un moyen plus efficace de fournir aux gens une mine d'informations que le simple son. Concevoir avec la priorité vocale peut grandement améliorer l'interaction vocale, mais à long terme, ne pas utiliser arbitrairement le menu visuel pour des raisons d'interaction reviendra à se battre avec une main attachée dans le dos. En raison de la complexité imminente des interfaces vocales et d'affichage intelligentes de bout en bout, les développeurs devraient sérieusement envisager une approche hybride des interfaces.

L'augmentation de l'efficacité et de la vitesse des systèmes de génération et de reconnaissance de la parole a permis de les utiliser dans des applications et des domaines tels que, par exemple :

• militaire (commandes vocales dans les avions ou les hélicoptères, par exemple F16 VISTA),

• transcription automatique du texte (discours en texte),

• des systèmes d'information interactifs (Prime Speech, portails vocaux),

• appareils mobiles (téléphones, smartphones, tablettes),

• la robotique (Cleverbot - systèmes ASR combinés à l'intelligence artificielle),

• automobile (contrôle mains libres des composants de la voiture, comme Blue & Me),

• applications domestiques (systèmes de maison intelligente).

Attention à la sécurité !

L'automobile, les appareils électroménagers, les systèmes de chauffage/refroidissement et de sécurité domestique, ainsi qu'une multitude d'appareils électroménagers commencent à utiliser des interfaces vocales, souvent basées sur l'IA. À ce stade, les données obtenues à partir de millions de conversations avec des machines sont envoyées à nuages informatiques. Il est clair que les commerçants s'y intéressent. Et pas seulement eux.

Un rapport récent des experts en sécurité de Symantec recommande aux utilisateurs de commandes vocales de ne pas contrôler les fonctionnalités de sécurité telles que les serrures de porte, sans parler des systèmes de sécurité à domicile. Il en va de même pour le stockage de mots de passe ou d'informations confidentielles. La sécurité de l'intelligence artificielle et des produits intelligents n'a pas encore été suffisamment étudiée.

Lorsque les appareils de la maison écoutent chaque mot, le risque de piratage et d'utilisation abusive du système devient une préoccupation majeure. Si un attaquant parvient à accéder au réseau local ou à ses adresses e-mail associées, les paramètres de l'appareil intelligent peuvent être modifiés ou réinitialisés aux paramètres d'usine, ce qui entraînera la perte d'informations précieuses et la suppression de l'historique de l'utilisateur.

En d'autres termes, les professionnels de la sécurité craignent que l'IA et le VUI à commande vocale ne soient pas encore assez intelligents pour nous protéger des menaces potentielles et garder le silence lorsqu'un étranger demande quelque chose.