Les origines neuroscientifiques de la vision par ordinateur de l’IA

Alexas_Fotos / Pixabay

Source: Alexas_Fotos / Pixabay

La renaissance de l’intelligence artificielle (IA) est en plein essor et s’accélère. L’un des principaux leviers de l’élan est la vision par ordinateur, une science interdisciplinaire qui englobe l’intelligence artificielle, la physique, les neurosciences, la biologie, les statistiques, la théorie de l’apprentissage, l’ingénierie, les statistiques, la robotique et les mathématiques. La vision biologique a inspiré la vision d’apprentissage automatique de l’intelligence artificielle.

La taille du marché mondial de la vision par ordinateur devrait atteindre 19,1 milliards USD d’ici 2027, avec un TCAC de 7,6% entre 2020 et 2027, selon le rapport de septembre 2020 de Grand View Research. La vision par ordinateur est la technologie habilitante alimentée par l’IA derrière les véhicules autonomes, l’analyse sportive, la radiologie, les diagnostics médicaux, les prévisions de rendement agricole, la maintenance de la fabrication, la prévention des pertes au détail, la surveillance de la sécurité, la prévention de la fraude et d’autres utilisations.

Pourtant, l’histoire de la vision par ordinateur est relativement récente et enracinée dans le domaine résolument biologique. En 1959, les neurophysiologistes David Hubel et Torsten Wiesel ont publié leur article historique intitulé «Champs récepteurs de neurones uniques dans le cortex strié du chat» dans le Journal of Physiology. La neurophysiologie est la branche de la neuroscience et de la physiologie qui est l’étude scientifique du cerveau et du système nerveux périphérique.

En étudiant la vision chez les chats, Hubel et Wiesel ont découvert que les neurones du cortex visuel ont une disposition distincte. La disposition des champs réceptifs détermine l’orientation, la forme et la taille des stimuli et peut jouer un rôle dans la perception du mouvement.

En 1968, le même duo de chercheurs a publié une étude sur les champs récepteurs et les architectures fonctionnelles du cortex strié des singes qui a montré que la plupart des cellules peuvent être classées comme simples ou complexes. Les cellules simples du cortex visuel primaire répondent principalement aux bords orientés et aux barres d’orientations particulières. Les cellules complexes ont un champ réceptif qui intègre et additionne l’entrée de cellules simples, un concept fondamental pour les modèles de réseaux de neurones convolutifs pour la vision par ordinateur. Hubel et Wiesel ont été parmi les récipiendaires qui ont partagé le prix Nobel de physiologie ou de médecine en 1981.

Influencé par les travaux de Hubel et Wiesel, en 1980, les informaticiens japonais Kunihiko Fukushima ont publié dans Biological Cybernetics le concept d’un modèle de réseau neuronal auto-organisé en tant que mécanisme de reconnaissance visuelle des formes appelé néocognitron. En utilisant les mathématiques, Fukushima a recréé le concept des cellules simples et complexes pour créer un modèle de calcul pour la vision par ordinateur. Lorsque le réseau Neocognitron achève son auto-organisation, son architecture ressemble au modèle hiérarchique de Hubel et Wiesel du système nerveux visuel.

Le néocognitron reconnaît les modèles de stimulus basés sur la similitude géométrique, ou Gestalt, de leurs formes. Dans la langue allemande, la gestalt se traduit en gros par un tout unifié. Dans les années 1920, les psychologues allemands Max Wertheimer, Kurt Koffka et Wolfgang Kohler ont fondé la psychologie Gestalt pour expliquer la perception avec le concept fondamental que le tout est plus grand que la somme des parties.

En 1998, les chercheurs Yan LeCun, Leon Bottou, Yoshua Bengio et Patrick Haffner ont marqué l’histoire de l’IA avec leur étude révolutionnaire publiée dans les actes de l’IEEE intitulée «Gradient-Based Learning Applied to Document Recognition» qui montre l’efficacité de l’utilisation des réseaux de neurones convolutifs (CNN) pour la reconnaissance des caractères de l’écriture manuscrite. Les chercheurs ont démontré que l’utilisation de l’apprentissage basé sur le gradient pour les réseaux de neurones convolutifs permet l’apprentissage de caractéristiques pertinentes à partir de données d’entraînement.

«Il a été démontré que les réseaux de neurones convolutifs éliminent le besoin d’extracteurs de caractéristiques fabriqués à la main», ont écrit LeCun, Bengio et al. Dans leur étude. étiquetage et réglage manuel des paramètres dans les systèmes de reconnaissance de documents. À mesure que les données de formation deviennent abondantes, que les ordinateurs deviennent plus rapides, que notre compréhension des algorithmes d’apprentissage s’améliore, les systèmes de reconnaissance s’appuieront de plus en plus sur l’apprentissage et leurs performances s’amélioreront. »

En 2012, les pionniers de l’IA Alex Krizhevsky, Ilya Sutskever et Geoffrey Hinton ont présenté leur article révolutionnaire, «ImageNet Classification with Deep Convolutional Neural Networks» à la conférence NeurIPS qui a montré une classification informatique record de 1,2 million d’images haute résolution.

D’ici 2027, la taille du marché mondial des seuls réseaux de neurones profonds devrait atteindre 5,98 milliards USD, avec un TCAC de 21,4% entre 2020 et 2027, selon le rapport d’Emergen Research de septembre 2020. Les principaux acteurs des réseaux de neurones profonds incluent Google, IBM, Microsoft, Qualcomm, Intel, Oracle, Clarifai, Neurala, NeuralWare, Starmind et Ward Systems, selon le même rapport.

Ce qui a commencé comme une découverte fondamentale il y a plus de soixante ans dans une étude de recherche sur les chats a formé le concept fondamental de la vision par ordinateur moderne activée par l’IA, une industrie de plusieurs milliards de dollars. C’est ainsi qu’une paire de neurophysiologistes lauréats du prix Nobel ont créé le fil scientifique qui a conduit à des technologies habilitantes qui pourraient éventuellement conduire votre voiture pour vous à l’avenir.

Copyright © 2021 Cami Rosso Tous droits réservés.