Nouveau modèle pour réduire le biais de l’IA dans les sciences de la vie et la biomédecine

TheDigitalArtist / Pixabay

Source: TheDigitalArtist / Pixabay

Dans des domaines tels que la biotechnologie, la médecine, la pharmacie, les soins de santé et les sciences de la vie, la nécessité de garantir la santé et la sécurité humaines est la plus haute priorité lors du déploiement de l’apprentissage automatique de l’intelligence artificielle (IA). Des chercheurs du Broad Institute of MIT et de Harvard et leurs collaborateurs ont créé un cadre pour auditer et débattre de l’apprentissage automatique de l’IA dans les sciences de la vie et ont publié leur récente étude dans Biologie des communications.

«Les biais dans les données utilisées pour entraîner les modèles d’apprentissage automatique (ML) peuvent gonfler leurs performances de prédiction et brouiller notre compréhension de comment et de ce qu’ils apprennent», ont écrit Fatma-Elzahraa Eid, chercheurs du Broad Institute of MIT et de Harvard, Haitham Elmarakeby, Yujia Alina Chan, Nadine Fornelos, Eliezer Van Allen et Kasper Lage, ainsi que Mahmoud ElHefnawi au Centre national de recherche de Gizeh, en Égypte, et Lenwood Heath à l’Institut polytechnique de Virginie et à l’Université d’État. «Bien que les biais soient courants dans les données biologiques, l’audit systématique des modèles de ML pour identifier et éliminer ces biais n’est pas une pratique courante lors de l’application du ML dans les sciences de la vie.»

L’équipe de recherche a d’abord développé un cadre pour le débiasing pour l’interaction protéine-protéine (IPP), puis l’a appliqué à la bioactivité médicament-cible et à la liaison MHC-peptides. La prédiction des interactions protéine-protéine est essentielle aux fonctions cellulaires des organismes et importante à comprendre pour la bio-ingénierie et de novo découverte de médicament. En médecine, la bioactivité cible du médicament fait référence à l’effet du médicament sur un tissu ou un organisme vivant. Le complexe majeur d’histocompatibilité (CMH) est un groupe de gènes trouvés chez les vertébrés qui code pour des protéines à la surface des cellules qui permettent au système immunitaire d’identifier les matières étrangères.

«Pour illustrer la large applicabilité de notre cadre d’audit en général et l’applicabilité des auditeurs développés à d’autres applications à entrées appariées, nous avons adapté le cadre d’audit à deux applications supplémentaires d’intérêt thérapeutique important: les prédictions de la bioactivité médicament-cible et le MHC-peptide contraignant », ont écrit les chercheurs.

Le cadre d’apprentissage automatique d’audit comprend quatre modules: l’analyse comparative, l’interrogation des biais, l’identification des biais et l’élimination des biais.

Pour le premier module, les chercheurs ont établi les performances de base en comparant les classificateurs sur des ensembles de données séparés. Sur les sept classificateurs, cinq utilisaient des machines vectorielles de support (SVM) avec différents noyaux, un utilisait une forêt aléatoire et un utilisait un auto-encodeur empilé basé sur l’apprentissage en profondeur. Une combinaison de MATLAB avec la bibliothèque LibSVM a été utilisée pour les classificateurs de machine à vecteurs de support. Trois bases de données de protéines humaines ont été utilisées. Les classificateurs ont été formés sur des sous-ensembles d’un ensemble de données spécifique tels que les paires de protéines. Les chercheurs ont rapporté que «la meilleure performance d’analyse comparative pour tous les classificateurs était élevée», telle que mesurée par l’aire moyenne sous la courbe (AUC).

«Les modèles de ML biologiques robustes devraient se généraliser à des ensembles de données indépendants», ont écrit les chercheurs.

Dans l’apprentissage automatique de l’intelligence artificielle, la généralisation fait référence à la capacité de l’algorithme d’appliquer ce qu’il a appris avec un degré élevé de précision lors de l’entraînement à de nouvelles données qu’il n’avait pas vues auparavant. La robustesse dans ce sens fait référence à la capacité de l’algorithme d’apprentissage automatique à bien exécuter de nouvelles données d’entrée.

Pour y parvenir, l’équipe a créé un vérificateur de généralisabilité comme deuxième module. Ce module compare les performances d’origine d’un modèle à celles d’un ensemble de données indépendant appelé ensemble de données de généralisation, dans le but de détecter les zones de biais.

Les biais détectés ainsi que les hypothèses de biais sont saisis dans le troisième module qui vérifie le biais pour l’identification. Ce module rejette ou confirme les hypothèses de biais formulées.

Le module final est d’éliminer le biais. Il teste le biais identifié à l’étape précédente en évaluant comment les classificateurs se généralisent après pour séparer les ensembles de données.

«Lorsque le signal dans la représentation des données d’entraînement est insuffisant, les modèles ML pourraient principalement apprendre des biais de représentation dans les données d’entraînement», ont découvert les chercheurs. « Cela semble influencer principalement les applications ML à entrées appariées et peut être trompeur s’il n’est pas éclairé par l’audit. »

Les chercheurs recommandent aux scientifiques de l’apprentissage automatique qui utilisent l’IA à des fins biologiques de développer une «position à l’échelle de la communauté sur l’audit systématique des modèles de ML pour les biais» et ont fourni du code, des ressources et des méthodes sur le référentiel GitHub. Avec cette preuve de concept, les chercheurs ont fourni un moyen d’effectuer un apprentissage automatique pour prédire les relations biologiques avec un biais réduit pour une plus grande précision et de meilleurs résultats.

Copyright © 2021 Cami Rosso Tous droits réservés.