Comment les génomes synthétiques générés par l’IA peuvent améliorer la confidentialité

GDj / Pixabay

Source: GDj / Pixabay

L’intelligence artificielle appliquée (IA) en biotechnologie et en sciences de la vie est un domaine en pleine croissance. Les progrès de la génomique, de la puissance de calcul et de la sophistication des algorithmes ont contribué à cette tendance émergente. Dans une étude à comité de lecture publiée jeudi dans PLOS Génétique, des scientifiques d’Estonie et de France ont utilisé l’apprentissage automatique de l’IA pour créer des génomes humains artificiels – une avancée qui peut contribuer à améliorer la confidentialité individuelle et à accélérer la recherche biomédicale.

Pourquoi permettre aux ordinateurs de créer des génomes artificiels (AG)? L’apprentissage automatique est de plus en plus utilisé pour accélérer la recherche dans de nombreux domaines, notamment la biotechnologie, la médecine de précision, la génomique, l’épidémiologie, les sciences de la vie et la découverte de médicaments pharmaceutiques. De grands ensembles de données sont nécessaires pour former et tester l’apprentissage automatique. Dans le domaine de la génomique, la disponibilité des données pour la recherche a ses défis uniques, car les ensembles de données génétiques ne sont souvent pas accessibles en raison de restrictions de confidentialité. De plus, la diversité des données reste un domaine à améliorer. Selon une étude publiée dans Cellule en 2019, la plupart des études génétiques sur les maladies humaines sont basées sur des populations d’ascendance européenne et peuvent donc présenter un risque lors de l’application de la recherche biaisée à des fins cliniques réelles et à l’élaboration de politiques.

«Les modèles génératifs et les AG ont le potentiel de devenir des atouts précieux dans les études génétiques en fournissant une représentation riche mais compacte des génomes existants et des alternatives de haute qualité, faciles d’accès et anonymes pour les bases de données privées», ont écrit les chercheurs Burak Yelmen, Linda Ongaro, Davide Marnetto, Francesco Montinaro et Luca Pagani de l’Université de Tartu en Estonie, ainsi que les chercheurs Aurélien Decelle, Flora Jay, Cyril Furtlehner et Corentin Tallec de l’Université Paris-Sud et de l’Université Paris-Saclay.

A lire aussi  La neuroscience des réponses de «gel» induites par la peur

Au cours de la dernière décennie, des progrès significatifs dans l’apprentissage automatique de l’IA ont été réalisés dans les domaines de la vision par ordinateur, de la reconnaissance vocale, de la reconnaissance vocale et de tâches similaires impliquant la reconnaissance de formes et les prédictions. Permettre aux ordinateurs d’imagination artificielle est un phénomène plus récent. Les ordinateurs générant des images synthétiques photoréalistes ont été en grande partie lancés par Ian Goodfellow, Yoshua Bengio et leurs collègues de recherche avec l’introduction en 2014 des réseaux antagonistes génératifs (GAN), un nouveau type de cadre d’apprentissage automatique.

«Dans cette étude, nous avons démontré que les réseaux antagonistes génératifs profonds (GAN) et les machines Boltzmann restreintes (RBM) peuvent être formés pour apprendre les distributions complexes d’ensembles de données génomiques réels et générer de nouveaux génomes artificiels (AG) de haute qualité avec peu ou pas de confidentialité perte », ont écrit les chercheurs.

Les GAN sont constitués de deux réseaux de neurones artificiels qui s’entraînent simultanément pendant leur compétition. Dans les GAN, un réseau neuronal crée des échantillons synthétiques et l’autre réseau neuronal tente de déterminer si les échantillons proviennent de données réelles ou ont été créés.

Pour créer les génomes artificiels, l’équipe a utilisé un réseau antagoniste génératif, une machine de Boltzman restreinte et deux modèles génératifs (Bernoulli et Markov). Les données ont été utilisées auprès de plus de 2500 individus du projet 1000 Genomes, ainsi que de 1000 individus de la biobanque estonienne. Pour l’ensemble de données de test, 2000 génomes estoniens supplémentaires ont été utilisés. Le modèle GAN utilisait Python, Keras, TensorFlow, Pandas et Numpy.

A lire aussi  Ralentissez et célébrez la vie

«À notre connaissance, il s’agit de la première application des modèles GAN et RBM dans le contexte de la génétique des populations, affichant une applicabilité globale prometteuse», ont écrit les chercheurs.

Les génomes artificiels ont été créés sans avoir besoin de l’histoire évolutive sous-jacente ou de la bioinformatique de prétraitement. Les chercheurs n’ont pas trouvé de copies exactes de génomes réels dans les ensembles de génomes artificiels créés par les modèles GAN ou RBM. Cependant, les chercheurs soulignent que le traçage des échantillons générés à l’original serait une entreprise très complexe. Ainsi, pour assurer l’anonymat complet des individus, les scientifiques recommandent que des mesures fiables soient développées à l’avenir.

«Bien qu’il y ait actuellement certaines limites, les modèles génératifs deviendront très probablement importants pour la recherche génétique dans un proche avenir avec de nombreuses applications prometteuses», a conclu l’équipe de recherche. «Dans ce travail, nous avons démontré les premières implémentations et utilisations possibles des AG, en particulier pour être utilisées comme substituts réalistes de génomes réels auxquels on peut accéder publiquement sans problèmes de confidentialité.»

Copyright © 2021 Cami Rosso Tous droits réservés.