Thèse de Doctorat de l’Université de Montpellier
Lundi 18 décembre 2023 à 14h – Amphi Lamour
Artificial Intelligence to Predict Plant networks and Phenotypes
Spécialité : BIDAP – Biologie, Interactions, Diversité Adaptative des Plantes
Etablissement : Université Montpellier
Equipe: SYSTEMS
Devant le jury composé de:
Véronique BRUNAUD, Chargée de recherche, INRAE (Rapportrice)
Frédérick GARCIA, Directeur de recherche, INRAE (Rapporteur)
Sophie LEBRE, Maitre de conférence, Université Paul Valéry (Examinatrice)
Andréas NIEBEL, Directeur de recherche, LIPME (Examinateur)
Vincent SEGURA, Chargé de recherche, INRAE (Examinateur)
André MAS, Professeur, IMAG (Directeur de thèse)
Résumé:
Cette thèse explore l’impact de l’apprentissage automatique, en particulier l’apprentissage supervisé, sur l’avancement de divers domaines de la biologie, avec un accent particulier sur la science des plantes. Dans la première partie de ce travail, un aperçu complet de divers modèles d’apprentissage automatique supervisé est présenté, servant de point d’entrée fondamental dans le domaine de ces méthodes. La deuxième partie se penche sur les applications de ces modèles dans le contexte de la science des plantes. La partie de la thèse consacrée aux applications aborde l’énigme de l’héritabilité manquante. Ce phénomène, mis en lumière par le premier GWAS, concerne les variations phénotypiques inexpliquées qui transcendent les simples modifications génomiques. L’épistasie entre différents loci a émergé comme une explication partielle. Cependant, les modèles statistiques GWAS actuels souffrent de problèmes d’extensibilité et d’une grande sensibilité au taux de fausse découverte (FDR). Pour relever ces défis, la thèse présente Next-Generation GWAS (NGG), une nouvelle approche de modélisation capable d’évaluer plus de 60 milliards de polymorphismes nucléotidiques en quelques heures. La méthode est comparée aux modèles GWAS les plus récents et appliquée à Arabidopsis thaliana, ce qui permet d’obtenir des cartes épistatiques en 2D à la résolution du gène. Les résultats démontrent l’efficacité de NGG dans la récupération de l’héritabilité manquante à travers les interactions épistatiques, améliorant ainsi les capacités de prédiction des phénotypes. En outre, la thèse étudie les mécanismes de régulation qui régissent l’expression des gènes, en mettant l’accent sur les interactions des facteurs de transcription (TF). Les TFs sont connus pour jouer un rôle important dans la régulation de l’expression des gènes, et leurs interactions sont connues pour façonner les réponses transcriptionnelles génomiques. La thèse propose une approche d’apprentissage automatique utilisant des arbres CART pour prédire les TFs influents dans un ensemble de données Single Cell RNA sequencing (scRNA-seq) provenant des racines d’Arabidopsis thaliana. Cette méthodologie offre un moyen robuste et interprétable de prédire les TFs mais est actuellement fortement limitée par les données de validation. Cette thèse souligne principalement l’influence profonde de l’apprentissage automatique supervisé sur la science expérimentale, en mettant en évidence ses contributions au décryptage de phénomènes délicats tels que l’héritabilité manquante et les mécanismes complexes de régulation des gènes.
Mots Clé : Apprentissage machine, Prédictions, Modélisation, Réseaux de gène