DESCRIPTION :
Grands modèles de langage pour l'ADN pour l'interprétation du génome // DNA large language models for end-to-end Genome Interpretation, Comprendre la relation entre génotype et phénotype constitue l'un des défis fondamentaux de la biologie. Modéliser cette relation de manière fiable révolutionnerait la génétique, la médecine et les biotechnologies, ouvrant la voie à une médecine véritablement personnalisée. Ce projet de thèse se situe à l'interface entre la génétique quantitative, la bioinformatique et l'intelligence artificielle moderne, en se concentrant sur l'application des modèles de langage de grande taille (LLMs) spécifiques à l'ADN pour l'interprétation du génome.
Les approches classiques d'interprétation du génome reposent sur des caractéristiques grossières au niveau des gènes, comme la charge mutationnelle par gène, ce qui entraîne une perte d'information au niveau nucléotidique. Les travaux antérieurs du Dr Raimondi et de ses collaborateurs ont montré que les réseaux de neurones peuvent apprendre des représentations compactes et informatives à partir des données de séquençage de l'exome ou du génome entier (WES/WGS), mais les contraintes de dimensionnalité ont imposé des simplifications importantes. Le présent projet vise à dépasser ces limites en développant des architectures opérant directement au niveau nucléotidique, intégrant des LLMs préentraînés sur l'ADN comme extracteurs de caractéristiques non supervisés dans des modèles prédictifs de bout en bout.
Ces LLMs, entraînés sur des génomes entiers à l'aide d'objectifs auto-supervisés, capturent des dépendances à longue portée et des motifs régulateurs dans les séquences d'ADN. En exploitant leurs représentations latentes, le projet vise à améliorer la prédiction des phénotypes à partir des génotypes bruts. Les modèles seront d'abord développés et testés sur Arabidopsis thaliana, un organisme modèle bien connu, puis étendus à des données humaines pour prédire le risque de maladies, notamment les maladies inflammatoires chroniques de l'intestin (MICI). Contrairement aux approches actuelles des LLMs appliqués à la génomique fonctionnelle (par exemple la prédiction des effets de variants), ce projet explore leur utilisation pour la prédiction génétique directe, de bout en bout - une application innovante dans le domaine de la génomique computationnelle.
Le ou la doctorant·e commencera par le prétraitement et la structuration des données WES/WGS de A. thaliana pour l'apprentissage automatique. Il ou elle étudiera les LLMs pour l'ADN existants, évaluera leurs performances représentationnelles et concevra de nouvelles architectures neuronales avec PyTorch. Le travail comportera à la fois des contributions méthodologiques et théoriques : amélioration de l'encodage du génotype, réduction du surapprentissage dans les données biologiques à très haute dimension, et analyse du transfert des représentations préentraînées entre organismes.
Les résultats attendus comprennent : (i) le développement de nouvelles architectures neuronales intégrant des LLMs ADN pour la prédiction de phénotypes; (ii) la création de jeux de données de référence et de pipelines reproductibles pour l'analyse WES/WGS basée sur les LLMs; (iii) la publication d'articles scientifiques et la présentation des résultats lors de conférences internationales; (iv) l'application des modèles développés à la prédiction du risque de maladies génétiques humaines.
En combinant apprentissage profond avancé et interprétation du génome, ce projet contribuera à l'émergence d'une génomique pilotée par l'IA, visant à construire des modèles généralisables, interprétables et biologiquement pertinents reliant génotype et phénotype.
Code d'emploi : Mannequin Photo (h/f)
Domaine professionnel actuel : Employés du Service de la Promotion des Ventes
Niveau de formation : Bac+5
Temps partiel / Temps plein : Plein temps
Type de contrat : Contrat à durée déterminée (CDD)
Compétences : Intelligence Artificielle, Réseaux de Neurones Artificiels, Python (Langage de Programmation), Machine Learning, Donnée de Référence, Pytorch, Large Language Models, Deep Learning, Technologies Informatiques, Résolution de Problèmes, Honnêteté, Mathématiques Appliquées, Biotechnologies, Biologie, Elaboration des Prévisions, Génomique Fonctionnelle, Génétique, Génomique, Algèbre Linéaire, Sciences Physiques, Modélisation Prédictive, Activités de Loisir, Compétences de Modélisation, Publication / Edition
Type d'annonceur : Employeur direct