Machine learning for genomics and imaging data integration applied to neuro-oncology - CEA - Commissariat à l’énergie atomique et aux énergies alternatives Accéder directement au contenu
Thèse Année : 2023

Machine learning for genomics and imaging data integration applied to neuro-oncology

Machine learning pour l'intégration des données génomiques et d'imagerie appliquée à la neuro-oncologie

Résumé

Diffuse Intrinsic Pontine Glioma (DIPG) is a rare brain tumour located in the pons, mainly seen in children aged 5 to 7 years. It is considered one of the most aggressive paediatric tumours, with a survival rate of less than 10% beyond two years after diagnosis and a median overall survival of less than one year. DIPG is classified as a diffuse midline glioma (DMG), mainly characterized by a K27M mutation of the genes encoding the histone H3 protein and/or a loss of H3K27 trimethylation by overexpression of the EZHIP protein. The location of the tumour and its corresponding genomic alterations makes DIPG a completely different type of tumour than other high-grade gliomas. This work proposes the integration of imaging data with genetic data in order to find biomarkers. First, we are interested in the extraction of the regions of interest of the images necessary for a radiomic study. Then, we propose a procedure for the integration of multi-source data, which takes into account the complex graphs of interaction between genes. Finally, we apply our procedure to the available data in order to compare its performance with other existing models and to study the contribution of imagery and the graph to genetic data. Radiomic analysis requires predefined regions of interest on available images. For our DIPG cohort, manual tumour segmentation was not feasible. Moreover, no database was created to train classical machine learning algorithms to automatically delineate tumor regions. This study focused on obtaining binary segmentations for DIPG using only FLAIR and T2w modalities, using models trained on glioblastomas. Our proposition combines different simple detection and segmentation models to obtain satisfactory segmentation results. In parallel, our work aims to build a multi-block integration model taking into account the intra-block correlation structure described in established complex graphs of gene-gene interactions (e.g. PathwayCommons). Moreover, our objective is to understand how the interaction graph influences the selection of variables. We propose netSGCCA, a model combining the Sparse Generalized Canonical Correlation Analysis (SGCCA) with the GraphNet penalty. We applied our model to the TGCA-LGG dataset. Unlike Elastic-Net alone, the GraphNet penalty was able to select a reasonable set of genes and gives an informative biological interpretation using biological pathway enrichment analysis. The example on the TCGA-LGG dataset shows the stability and reliability of netSGCCA for selecting variables of interest. Finally, we used netSGCCA to integrate radiomics and genetic data and applied it to the survival prediction task. Due to the unavailability of survival data on our DIPG cohort, we used the TCGA-LGG dataset to conduct the study. We compared the results obtained with netSGCCA with other multi-block survival approaches and models built in mono-blocks. The netSGCCA has proven to be a robust model capable of selecting variables already linked to the pathology studied and interacting in relevant biological pathways. The addition of imageing did not improve the predictive ability of netSGCCA. However, the baseline results show that the radiomic features extracted from the T2 modality can be strong predictors.
Le gliome infiltrant du tronc cérébral (Diffuse Intrinsic Pontine Glioma (DIPG)) est une tumeur cérébrale rare située dans le pons, principalement observé chez les enfants âgés de 5 à 7 ans. Elle est considérée comme l'une des tumeurs pédiatriques les plus agressives, avec un taux de survie inférieur à 10 % au-delà des deux ans après le diagnostic et une médiane de survie globale inférieure à un an. Le DIPG est classé comme un gliome diffus de la ligne médiane (DMG), principalement caractérisé par une mutation K27M des gènes codant pour la protéine histone H3 et/ou une perte de la triméthylation H3K27 par surexpression de la protéine EZHIP. L'emplacement de la tumeur et ses altérations génomiques correspondantes fait du DIPG un type de tumeur complètement différent des autres tumeurs de haut grade. Ce travail propose l'intégration des données d'imagerie avec les données génétiques afin de trouver des biomarqueurs. Dans un premier temps, nous nous intéressons à l'extraction des régions d'intérêt des images nécessaires pour une étude radiomique. Ensuite, nous proposons une procédure d'intégration des données multi-sources, qui prend en compte les graphes complexes d'interaction entre les gènes. Finalement, nous appliquons notre procédure sur les données disponibles afin de comparer ses performances avec d'autres modèles de la littérature et étudier l'apport de l'imagerie et du graphe aux données génétiques. L'analyse radiomique nécessite des régions d'intérêt prédéfinies sur les images disponibles. Pour notre cohorte DIPG, la segmentation manuelle de la tumeur n'était pas disponible car elle ne fait pas partie de la routine clinique. De plus, aucune base de données spécifique n'a été créée pour entraîner des algorithmes d'apprentissage automatique classiques afin de délimiter automatiquement les régions tumorales. Cette étude s'est concentrée sur l'obtention de segmentations binaires pour le DIPG en utilisant uniquement les modalités FLAIR et T2w, à partir de modèles entraînés sur le glioblastome. Nous proposons de combiner différents modèles simples de détection et de segmentation pour obtenir des résultats de segmentation satisfaisants. En parallèle, un modèle d'intégration multi-blocs prenant en compte des graphes complexes connus d'interactions entre les gènes a été développé et l'influence du graphe choisi sur la sélection des variables par le modèle a été étudiée. Nous proposons netSGCCA, un modèle combinant la Sparse Generalized Canonical Correlation Analysis (SGCCA) et la pénalité GraphNet. Nous avons appliqué notre modèle à l'ensemble de données multi-omiques TGCA-LGG (The Cancer Genome Atlas - Low Grade Glioma). Contrairement à Elastic-Net seul, la pénalité GraphNet est capable de sélectionner un ensemble raisonnable de gènes tout en offrant une interprétation biologique au niveau des voies biologiques et donc informative sur de potentielles cibles thérapeutiques. L'exemple sur l'ensemble de données TCGA-LGG montre la stabilité et la fiabilité de netSGCCA pour la sélection des variables d'intérêt.Enfin, nous avons utilisé netSGCCA pour intégrer la radiomique et les données génétiques et l'avons appliqué à la tâche de prédiction de la survie. En raison de l'indisponibilité des données de survie sur notre cohorte DIPG, nous avons utilisé l'ensemble de données TCGA-LGG pour mener l'étude. Nous avons comparé netSGCCA avec d'autres approches de survie multi-blocs et des modèles construits en mono-blocs. La netSGCCA s'est révélée être un modèle robuste capable de sélectionner des gènes connus dans le gliome de bas-grade et d'autres interagissants dans des voies biologiques pertinentes. Le bloc radiomique n'a pas fourni d'information supplémentaire au modèle. Cependant, les caractéristiques radiomiques extraites de la modalité T2, en mono-bloc sont des prédicteurs performants, ce qui représenterait un espoir pour les patients avec DIPG qui n'ont pas de biopsie.
Fichier principal
Vignette du fichier
117384_CHEGRAOUI_2023_archivage.pdf (4.44 Mo) Télécharger le fichier
Origine : Version validée par le jury (STAR)

Dates et versions

tel-04089270 , version 1 (04-05-2023)

Identifiants

  • HAL Id : tel-04089270 , version 1

Citer

Hamza Chegraoui. Machine learning for genomics and imaging data integration applied to neuro-oncology. Machine Learning [stat.ML]. Université Paris-Saclay, 2023. English. ⟨NNT : 2023UPAST040⟩. ⟨tel-04089270⟩
121 Consultations
90 Téléchargements

Partager

Gmail Facebook X LinkedIn More