NVIDIA et Harvard créent un nouvel outil de génomique d’apprentissage en profondeur de l’IA

Qimono / Pixabay

Source: Qimono / Pixabay

Les progrès de l’apprentissage en profondeur de l’intelligence artificielle (IA), de la génomique et du matériel informatique accélèrent la recherche et la découverte en sciences de la vie. Dans une nouvelle étude publiée aujourd’hui dans Nature Communications, des chercheurs de NVIDIA Corporation (NASDAQ: NVDA) et du Département des cellules souches et de la biologie régénérative de l’Université Harvard créent un outil d’apprentissage en profondeur de l’IA appelé AtacWorks qui dénote les données de séquençage génomique et trouve des zones avec de l’ADN accessible qui peuvent aider à accélérer les nouveaux diagnostics, les médicaments de novo et les traitements pour les maladies à l’avenir.

L’intervention et le traitement précoces du cancer et des maladies génétiques peuvent faire la différence dans les résultats et nécessitent une intervention précoce. Le défi est que la taille de l’échantillon de données de cellule peut être petite et que les données elles-mêmes peuvent contenir du «bruit» étranger. Avoir un moyen de filtrer et de réduire les données non pertinentes, ou le bruit, et d’augmenter les données ou le signal pertinents dans ces cas peut aider à accélérer la recherche.

«Nous montrons que notre méthode peut être utilisée sur de petits sous-ensembles de cellules rares d’amorçage de la lignée pour débruiter le signal et identifier les régions de régulation accessibles à une résolution génomique auparavant inaccessible», a écrit le chercheur principal de l’étude de NVIDIA, Avantika Lal, avec Nikolai Yakovenko et Johnny Israel également de NVIDIA, en collaboration avec les chercheurs de l’Université Harvard Zachary D. Chiang et Jason D. Buenrostro. «Sur la base de ces progrès, nous prévoyons qu’AtacWorks améliorera largement l’utilité des tests épigénomiques, en fournissant une plate-forme puissante pour étudier les circuits de régulation qui sous-tendent l’hétérogénéité cellulaire.»

A lire aussi  Une compétence de couple négligée: savoir quand le silence est d'or

Le test de la chromatine accessible à la transposase par séquençage (ATAC-seq) est un test couramment utilisé pour mesurer l’accessibilité de la chromatine dans le génome. Les ensembles de données ATAC-seq sont utilisés pour entraîner AtacWorks, un réseau de neurones à convolution profonde basé sur l’architecture PyTorch avec ResNet (réseau de neurones résiduels).

«Les modèles formés par AtacWorks peuvent détecter des pics de types de cellules non visibles dans les données d’entraînement et sont généralisables à travers diverses préparations d’échantillons et plates-formes expérimentales», ont écrit les chercheurs.

Le réseau neuronal profond est formé avec des données appariées du même type de cellule dont la couverture ou la qualité est faible et élevée. Le modèle a été formé à l’aide d’une fonction de perte en plusieurs parties qui utilisait l’erreur quadratique moyenne (MSE) et la corrélation 1 – Pearson pour la sortie de régression, et l’entropie croisée binaire (BCE) pour la sortie de classification.

«AtacWorks n’est pas fourni avec la séquence d’ADN comme entrée, ce qui signifie qu’elle est indépendante des corrélations spécifiques à la cellule ou à la condition entre l’accessibilité de la chromatine et les motifs de séquence», ont écrit les chercheurs. «Au lieu de cela, le modèle apprend des fonctionnalités basées sur la forme de la piste de couverture, qui se généralisent à travers les ensembles de données. En plus de la généralisation à travers différents types de cellules, nous avons également observé que nos modèles entraînés peuvent se généraliser aux données de différentes espèces, plates-formes expérimentales et niveaux de qualité. »

A lire aussi  Une dépression majeure atypique peut-elle signifier un trouble bipolaire ?

L’outil d’apprentissage en profondeur filtre ou supprime le signal ATAC-seq de faible qualité ou de faible couverture et le convertit en une qualité supérieure. AtacWorks prédit l’accessibilité de la chromatine à l’emplacement génomique des régions régulatrices accessibles et à la résolution des paires de bases.

«AtacWorks n’est pas fourni avec la séquence d’ADN comme entrée, ce qui signifie qu’elle est indépendante des corrélations spécifiques à la cellule ou à la condition entre l’accessibilité de la chromatine et les motifs de séquence», ont écrit les chercheurs. «Au lieu de cela, le modèle apprend des fonctionnalités basées sur la forme de la piste de couverture, qui se généralisent à travers les ensembles de données. En plus de la généralisation à travers différents types de cellules, nous avons également observé que nos modèles entraînés peuvent se généraliser aux données de différentes espèces, plates-formes expérimentales et niveaux de qualité. »

AtacWorks fonctionne sur les GPU NVIDIA Tensor Core. Le traitement parallèle des GPU à des fins informatiques générales est l’un des principaux facteurs contribuant à la renaissance globale de l’intelligence artificielle, avec l’amélioration des algorithmes, la disponibilité des ensembles de données volumineuses et la diminution des coûts informatiques.

«Nous démontrons qu’AtacWorks améliore la sensibilité des expériences monocellulaires en produisant des résultats comparables à ceux des méthodes conventionnelles utilisant ~ 10 fois plus de cellules, et nous montrons en outre que ce cadre peut être adapté pour permettre l’inférence entre les modalités de la protéine-ADN interactions », ont rapporté les chercheurs.

Dans la biotechnologie, l’industrie pharmaceutique et les sciences de la vie, la localisation de zones dans les cellules saines et malades du génome permet aux scientifiques et aux chercheurs de découvrir de nouveaux médicaments et de nouveaux traitements. Le défi de la recherche de types de cellules rares tels que les cellules souches qui créent les plaquettes et les cellules sanguines est d’avoir suffisamment de cellules pour produire un signal clair dans les données. Avec AtacWorks, étudier les conditions avec de petits échantillons ou des données bruyantes n’est plus un obstacle, accélérant ainsi la recherche sur les maladies pour les types de cellules rares afin de détecter les mutations génétiques à l’avenir.

A lire aussi  Est-ce que votre mère ou votre père est victime de violence?

Copyright © 2021 Cami Rosso Tous droits réservés.