L’IA aide les humains à annoter les données biologiques en temps réel

Seanbatty/Pixabay

Source : Seanbatty/Pixabay

L’apprentissage automatique de l’intelligence artificielle (IA) est rapidement déployé dans les secteurs de la biotechnologie, de la médecine, des soins de santé et des sciences de la vie. Étiqueter les ensembles de données massifs nécessaires pour former les algorithmes d’apprentissage en profondeur est une tâche longue et difficile pour les humains. Une nouvelle étude publiée dans npj Médecine numérique démontre comment Human-Augmenting Labeling System (HALS) peut réduire le travail manuel d’étiquetage des données de plus de 90 pour cent et augmenter la qualité de l’annotation des données biologiques.

« La clé de la plupart des tâches d’IA est la disponibilité d’un ensemble de données suffisamment volumineux et étiqueté avec lequel former des modèles d’IA », ont écrit les auteurs de l’étude affiliés à Salesforce AI Research, à l’Université de Stanford, à l’Université de Californie, à San Francisco et aux centres médicaux de l’Université d’Amsterdam. . « Dans le contexte de la microscopie, il est facile de générer des ensembles de données d’images contenant des millions de cellules et de structures. Cependant, il est difficile d’obtenir des annotations de haute qualité à grande échelle pour les modèles d’IA.

L’imagerie des tissus et cellules biologiques est au cœur de la recherche scientifique et médicale en biologie. Les images numériques de ces spécimens ont permis la formation d’algorithmes d’apprentissage profond de l’IA, en particulier en vision par ordinateur de l’IA en radiologie, en histologie (l’étude de l’anatomie microscopique des cellules, des tissus et des organes) et en diagnostic.

Les progrès récents de l’IA dans la recherche biomédicale et scientifique sont en grande partie dus à l’apprentissage automatique supervisé où les données d’entraînement sont étiquetées, par opposition à l’apprentissage non supervisé où les algorithmes doivent identifier les modèles dans l’ensemble de données sans données d’entraînement étiquetées. Par exemple, un algorithme d’IA pour l’oncologie peut être entraîné à l’aide d’un ensemble de données d’images de microscopie où les images tumorales sont annotées avec des étiquettes telles que malignes ou bénignes. De plus, selon les chercheurs, une seule image de microscopie peut contenir un gigaoctet de données visuelles, et l’annotation nécessite des connaissances spécialisées qui la rendent difficile à mettre à l’échelle.

Pour résoudre ce défi, les chercheurs ont créé HALS (Human-Augmenting Labeling System), une IA d’étiquetage de données humaine dans la boucle capable d’apprendre les annotations des humains en temps réel. La solution se compose d’une interface d’étiquetage open source SlideRunner, d’un ensemble de données PanNuke de plus de 200 000 cellules annotées, d’un ResNet-18 pré-entraîné pour la classification des images et d’un Coreset pour l’apprentissage actif.

« En utilisant un cas d’utilisation très répétitif – l’annotation des types de cellules – et l’exécution d’expériences avec sept pathologistes – des experts en analyse microscopique d’échantillons biologiques – nous démontrons une réduction du travail manuel de 90,60 % et une amélioration moyenne de la qualité des données de 4,34 %, mesurée sur quatre cas d’utilisation et deux types de taches de tissus », ont rapporté les scientifiques.

Copyright © 2021 Cami Rosso Tous droits réservés.