La nouvelle IA surpasse l’audition de la machine à la pointe de la technologie

Geralt / Pixabay

Source: Geralt / Pixabay

Les capacités de reconnaissance de formes de l’apprentissage en profondeur de l’intelligence artificielle (IA) ont stimulé l’innovation dans la reconnaissance vocale et vocale. Aujourd’hui, des chercheurs en Belgique ont publié une étude Intelligence artificielle de la nature l’introduction d’un nouveau modèle d’apprentissage automatique d’IA avec des capacités en temps réel de type humain qui fonctionne 2000 fois plus rapidement que les solutions auditives de pointe basées sur les machines.

Le marché de l’audition assistée par ordinateur est une opportunité de croissance. La reconnaissance vocale et vocale mondiale devrait atteindre 28,3 milliards USD d’ici 2026, avec un TCAC de 19,8% entre 2018 et 2026, selon Fortune Business Insights. Le marché mondial des aides auditives devrait atteindre 7,3 milliards USD d’ici 2025 et avoir un TCAC de 4,6% entre 2019 et 2025, selon Grand View Research.

En dehors du monde des biophysiciens, des experts en apprentissage automatique et des chercheurs en dispositifs médicaux en IA, les problèmes qui affectent l’audition assistée par ordinateur ne sont pas connus de tous. Les modèles auditifs actuels utilisés pour l’extraction de fonctionnalités pour les appareils auditifs, l’audition assistée par ordinateur, la robotique et les systèmes de reconnaissance vocale automatisés partagent deux problèmes majeurs: ils ne fonctionnent pas en temps réel et nécessitent de lourdes ressources informatiques.

Les chercheurs Sarah Verhulst, Deepak Baby et Arthur Van Den Broucke de l’Université de Gand en Belgique ont entrepris de créer un nouveau type de modèle auditif pour annoncer la prochaine génération d’audition assistée par ordinateur.

Pour comprendre les modèles acoustiques, il faut une connaissance de l’audition humaine, un processus biophysique (versus biochimique). L’audition humaine commence par un son qui se propage de l’oreille externe à travers le conduit auditif jusqu’au tympan (membrane tympanique) qui sépare l’oreille externe de l’oreille moyenne. Le tympan vibre et transmet le son qui est ensuite amplifié par trois minuscules os (osselets) appelés marteau (marteau), enclume (incus) et étrier (étriers). Ensuite, les ondes sonores amplifiées pénètrent dans l’oreille interne jusqu’à la cochlée, une structure enroulée remplie de liquide avec une apparence de coquille d’escargot. Le fluide dans la cochlée monte et descend en raison du son. Cela provoque la flexion des projections (stéréocils) sur les cellules ciliées qui tapissent la membrane interne (membrane basilaire) de la cochlée pour ne pas se cogner. Ce mouvement physique et la flexion des stéréocils stimulent l’ouverture des canaux ioniques, ce qui génère un signal envoyé de la cochlée au tronc cérébral (médullaire) via le nerf auditif (cochléaire).

A lire aussi  Contre-offres dans le jeu Ultimatum

Les modèles courants de mécanique cochléaire existants présentent différents inconvénients. De nombreux modèles peuvent introduire une distorsion selon les chercheurs. Le modèle de banque de filtres gammatone «ignore la dépendance au niveau du stimulus du filtrage cochléaire». L’architecture parallèle exclut les émissions otoacoustiques et le couplage longitudinal. Les modèles de lignes de transmission (TL) de pointe, couramment utilisés pour la mécanique cochléaire, utilisent un système en cascade – une méthode coûteuse en calcul qui ne permet pas de calcul parallèle pendant le filtrage.

Les chercheurs belges citent la complexité de calcul comme facteur de déclenchement pour les modèles d’ondes progressives cochléaires en temps réel dans le prétraitement.

«Cette complexité a motivé notre recherche d’un modèle efficace qui correspond aux performances des modèles TL analytiques de pointe tout en offrant une exécution en temps réel», ont écrit les chercheurs.

Les chercheurs ont nommé leur modèle d’IA hybride CoNNear, un réseau neuronal codeur-décodeur entièrement convolutif. CoNNear transforme une forme d’onde acoustique échantillonnée à 20 kHz en formes d’onde de déplacement à membrane basilaire cochléaire (BM). Le modèle CoNNear simule les réponses mécaniques cochléaires en temps réel. CoNNear est basé sur des calculs CPU parallèles qui peuvent être accélérés avec le calcul GPU et intégrés à des applications d’apprentissage profond auditif en temps réel.

«CoNNear présente une architecture avec des équations différenciables et fonctionne en temps réel (délai <7,5 ms) à des vitesses 2000 fois plus rapides que les modèles biophysiquement réalistes de pointe», ont rapporté les chercheurs. «Nous avons de grands espoirs que le cadre CoNNear inspirera une nouvelle génération de systèmes d'audition automatique, d'audition augmentée et de reconnaissance vocale automatique de type humain.»

A lire aussi  Les diagnostics de troubles de la personnalité ne devraient pas dépendre du sexe

Copyright © 2021 Cami Rosso Tous droits réservés.