La nouvelle méthode d’apprentissage en profondeur pour la génomique est plus transparente

Geralt / Pixabay

Source: Geralt / Pixabay

L’apprentissage automatique de l’intelligence artificielle (IA) émerge rapidement comme un outil puissant dans la recherche de nouveaux diagnostics, thérapies et traitements pour des maladies complexes telles que le cancer. De plus en plus, l’apprentissage automatique est utilisé en génomique, la branche de la biologie moléculaire qui étudie les gènes et leurs fonctions. Récemment, des scientifiques ont découvert une technique qui améliore la robustesse et l’interprétabilité de l’apprentissage automatique appliqué en génomique et ont publié une étude évaluée par des pairs la semaine dernière dans Intelligence artificielle de la nature.

L’IA et la génomique sont des marchés en croissance. Le marché mondial de l’intelligence artificielle devrait augmenter à un taux de croissance annuel composé (TCAC) de 42% entre 2020 et 2027 pour atteindre 733,7 milliards USD d’ici 2027, selon Grand View Research. Selon le même rapport, la santé est un segment vertical qui devrait gagner une grande partie de cette part d’ici 2027. Grand View Research estime que le marché mondial de la génomique atteindra 31 milliards USD d’ici 2027, avec un TCAC de 7,7% entre 2020 et 2027.

Le duo de chercheurs de Peter Koo, Ph.D., professeur adjoint au Simons Center for Quantitative Biology du Cold Springs Harbor Laboratory de New York, et de Matt Ploenzke, Ph.D., au Département de biostatistique de la TH Chan School of Public Health de l’Université Harvard au Massachusetts, a contribué à parts égales à l’étude qui a été financée en partie par une subvention du NCI Cancer Center.

La régulation génique fait référence au processus d’activation et de désactivation des gènes. Les réseaux de neurones à convolution profonde fournissent une précision de pointe pour prédire la régulation des gènes en apprenant des fonctionnalités à partir de données d’entraînement afin de faire des prédictions. Koo et Ploenzke utilisent l’accessibilité de la chromatine et la liaison au facteur de transcription (TF) comme exemples.

A lire aussi  Diriger avec ouverture

La chromatine est l’ADN et la protéine d’un chromosome qui se trouve dans les cellules eucaryotes – cellules qui ont un noyau et des organites qui sont entourés par une membrane plasmique comme les animaux, les plantes, les champignons et les protistes. La chromatine joue un rôle majeur dans la régulation de l’expression des gènes et la réplication de l’ADN.

La transcription fait référence au processus de conversion de l’ADN en ARN. En biologie moléculaire, les protéines qui se lient aux séquences régulatrices de l’ADN et modulent le taux de transcription génique sont appelées facteurs de transcription.

«En biologie, il est essentiel que nous comprenions les fonctionnalités qu’il a apprises afin de renforcer la confiance dans ces modèles prédictifs de boîte noire et d’en tirer potentiellement de nouvelles connaissances biologiques», ont écrit Koo et Ploenzke. «L’interprétabilité du modèle est essentielle pour comprendre ces caractéristiques. Cependant, les CNN profonds ont tendance à apprendre des représentations distribuées de motifs de séquence qui ne sont pas nécessairement interprétables par l’homme.

L’équipe a émis l’hypothèse que l’utilisation d’une activation exponentielle sur les filtres de première couche par rapport aux activations fréquemment utilisées conduirait à une intelligence artificielle plus explicable.

«Les réseaux neuronaux convolutifs profonds (CNN) formés sur les séquences génomiques régulatrices ont tendance à construire des représentations de manière distribuée, ce qui rend difficile l’extraction de caractéristiques apprises qui sont biologiquement significatives, telles que les motifs de séquence», ont écrit les chercheurs. «Ici, nous effectuons une analyse complète des séquences synthétiques pour étudier le rôle des activations CNN sur l’interprétabilité du modèle.»

A lire aussi  Stratégies pour réengager les étudiants mis à l'écart par la pandémie

Les chercheurs ont formé et testé une variété de réseaux de neurones convolutifs en utilisant divers types de fonctions d’activation standard telles que Relu, Sigmoid, Tanh, Softplus, Elu et Linear.

«Nous montrons que l’utilisation d’une activation exponentielle dans les filtres de la première couche conduit systématiquement à des représentations interprétables et robustes des motifs par rapport à d’autres activations couramment utilisées», ont écrit les chercheurs. «De façon frappante, nous démontrons que les CNN avec de meilleures performances de test n’impliquent pas nécessairement des représentations plus interprétables avec des méthodes d’attribution.»

En adoptant une approche innovante de l’apprentissage en profondeur de l’IA, Koo et Ploenzke ont trouvé un moyen de rendre les réseaux neuronaux à convolution profonde de l’IA pour la génomique plus interprétables – pour mieux comprendre ce qui se passe à l’intérieur de la boîte noire de l’IA et pour accélérer la recherche future en sciences de la vie.

Copyright © 2021 Cami Rosso Tous droits réservés.