DESCRIPTION :
(synchronisation), et la construction des variables statistiques, avec en particulier le
codage des causes de décès.
Concernant ce dernier aspect, il s'agit d'analyser et de coder les textes rédigés par les
médecins lors de la constatation des décès dans la Classification Internationale des
Maladies (CIM). Le codage combine désormais de façon optimale trois modes :
utilisation d'un système-expert de règles en batch, en interactif (IRIS MUSE) et
utilisation de modèles d'intelligence artificielle prédictifs, construits et entraînés inhouse
. Capitalisant sur les millions d'observations analysées par des experts suivant
des standards internationaux et dans le contexte d'une profonde rénovation du
processus de production des causes de décès, le CépiDc intègre ces méthodes dans
sa chaîne de production pour gagner en temps (pour respecter les délais réglementaires
de diffusion des données) et en qualité, tout en adoptant une démarche statistique
rigoureuse et novatrice. L'élaboration de la base de données sur les causes de décès
suit les recommandations de l'OMS, et doit satisfaire les normes de qualité d'une
statistique officielle et du code des bonnes pratiques en matière de statistique
européenne. Le CépiDc est composé d'une vingtaine d'agents, répartis en deux pôles :
pôle Production des données et pôle Exploitation-Diffusion., Mission Le/la titulaire du poste met en œuvre en production courante le codage des causes de décès en
principale intégrant, parmi les modalités de codage, des outils d'intelligence artificielle et participe à
l'évolution du système d'information. Ces outils fondés sur de l'apprentissage profond et du
traitement automatique des langues améliorent la qualité et la rapidité de codage automatique.
Ils seront adaptés pour tenir compte du prochain changement de nomenclature (passage de la
CIM 10 à la CIM 11) et de façon à satisfaire les délais réglementaires de diffusion de la base.
Le poste se situe dans le pôle production des données du CépiDc, dans l'équipe automatisation,
sous la responsabilité de la cheffe d'équipe, et en étroite collaboration avec la data scientist
senior. La/le candidat(e) sera prêt à travailler en collaboration avec le reste de l'équipe
multidisciplinaire des experts métiers de la production (codeurs, nosologistes, responsables de
production, ...), les statisticiens du CépiDc et sera partie prenante dans l'écosystème formé avec
les partenaires de recherche et développement (médecins spécialisés en informatique médicale
et data scientists, de l'AP-HP, Lisn-Cnrs, Insee, Santé publique France, Inserm).
Il/Elle bénéficie d'un accès à des ressources de calcul (GPU) permettant de concevoir, entraîner,
tester des modèles et de prédire.
Activités * Mettre en production, maintenir, monitorer et valider une chaîne de traitements de données
principales textuelles comprenant des prédicteurs de type réseaux de neurones ( transformers ) pour
aider/automatiser le codage du texte libre des certificats de décès dans la CIM (annotation,
training/fine-tuning, monitoring).
* Mettre en production le ciblage des certificats à allouer aux différentes modalités de codage
(automatique, IA, manuel), évaluer l'amélioration continue du codage automatique (en taux
de codage et en qualité) en vue d'une boucle d'apprentissage continue (on line) à partir de
la validation/correction des codeurs des propositions de l'algorithme.
* Adapter de l'architecture du modèle et feature engineering en vue d'améliorer la classification
des causes, en adéquation avec la finalité statistique du traitement et les bonnes pratiques.
* Participer à l'internationalisation de ces méthodes en lien avec les instances représentatives
françaises à l'OMS et au sein de l'Europe.
* Assurer une veille scientifique sur les modèles et les algorithmes à l'état de l'art dans le
Institut national de la santé et de la recherche médicale 2, domaine.
* Participer activement à des groupes d'échanges de bonnes pratiques existants ou à
construire regroupant datascientists, statisticiens et chercheurs en épidémiologie et
informatique (Insee, DREES, Inserm, Inria,...) autour de l'usage de l'IA/TAL sur ces
thématiques.
Spécificité(s) et * Confidentialité des données
environnement * Contraintes de production.
Code d'emploi : Ingénieur Data (h/f)
Domaine professionnel actuel : Développeurs Système et Analystes
Niveau de formation : Bac+5
Temps partiel / Temps plein : Plein temps
Type de contrat : Alternance
Compétences : Intelligence Artificielle, Informatique de la Santé, Cloud Computing, Systèmes d'Information, Bases de Données, Python (Langage de Programmation), Machine Learning, Tensorflow, Logiciel Versioning, Feature Engineering, Pytorch, Deep Learning, Git, KSPPXKGVB6KU2V6U0VTY, Docker, Sens de la Communication, Compétences Interpersonnelles, Politesse, Motivation Personnelle, Algorithmes, Architecture, Biostatistique, Recherche Médicale, Amélioration des Processus d'Affaires, Epidémiologie, Santé Publique, Elaboration des Prévisions, Fabrication, Conduite de Ligne de Production et Transformation, Gestion de Production, Gestion de la Qualité, Recherche et Développement, Travaux de Rénovation et Réhabilitation, Commerce de Détail, Etudes et Statistiques, Compétences de Modélisation, Classification Internationale des Maladies, Science des Données, Protection des Données, Pédagogie
Courriel :
aude.robert@inserm.fr
emploi.handicap@inserm.fr
recrutement.cepidc@inserm.fr
Téléphone :
0145595032
Type d'annonceur : Employeur direct