Sparse high dimensional regression in the presence of colored heteroscedastic noise: application to M/EEG source imaging

Mathurin Massias

Résumé

Understanding the functioning of the brain under normal and pathological conditions is one of the challenges of the 21st century. In the last decades, neuroimaging has radically affected clinical and cognitive neurosciences. Amongst neuroimaging techniques, magneto- and electroencephalography (M/EEG) stand out for two reasons: their non-invasiveness, and their excellent time resolution. Reconstructing the neural activity from the recordings of magnetic field and electric potentials is the so-called bio-magnetic inverse problem. Because of the limited number of sensors, this inverse problem is severely ill-posed, and additional constraints must be imposed in order to solve it. A popular approach, considered in this manuscript, is to assume spatial sparsity of the solution: only a few brain regions are involved in a short and specific cognitive task. Solutions exhibiting such a neurophysiologically plausible sparsity pattern can be obtained through L21-penalized regression approaches. However, this regularization requires to solve time-consuming high-dimensional and non-smooth optimization problems, with iterative (block) proximal gradients solvers. Additionally, M/EEG recordings are usually corrupted by strong non-white noise, which breaks the classical statistical assumptions of inverse problems. To circumvent this, it is customary to whiten the data as a preprocessing step, and to average multiple repetitions of the same experiment to increase the signal-to-noise ratio. Averaging measurements has the drawback of removing brain responses which are not phase-locked, i.e. do not happen at a fixed latency after the stimuli presentation onset. In this work, we first propose speed improvements of iterative solvers used for the L21-regularized bio-magnetic inverse problem. Typical improvements, screening and working sets, exploit the sparsity of the solution: by identifying inactive brain sources, they reduce the dimensionality of the optimization problem. We introduce a new working set policy, derived from the state-of-the-art Gap safe screening rules. In this framework, we also propose duality improvements, yielding a tighter control of optimality and improving feature identification techniques. This dual construction extrapolates on an asymptotic Vector AutoRegressive regularity of the dual iterates, which we connect to manifold identification of proximal algorithms. Beyond the L21-regularized bio-magnetic inverse problem, the proposed methods apply to the whole class of sparse Generalized Linear Models. Second, we introduce new concomitant estimators for multitask regression. Along with the neural sources estimation, concomitant estimators jointly estimate the noise covariance matrix. We design them to handle non-white Gaussian noise, and to exploit the multiple repetitions nature of M/EEG experiments. Instead of averaging the observations, our proposed method, CLaR, uses them all for a better estimation of the noise. The underlying optimization problem is jointly convex in the regression coefficients and the noise variable, with a ``smooth + proximable'' composite structure. It is therefore solvable via standard alternate minimization, for which we apply the improvements detailed in the first part. We provide a theoretical analysis of our objective function, linking it to the smoothing of Schatten norms. We demonstrate the benefits of the proposed approach for source localization on real M/EEG datasets. Our improved solvers and refined modeling of the noise pave the way for a faster and more statistically efficient processing of M/EEG recordings, allowing for interactive data analysis and scaling approaches to larger and larger M/EEG datasets.

La compréhension du fonctionnement du cerveau est un des défis majeurs du XXIème siècle. Au cours des dernières années, l'imagerie médicale a radicalement transformé les neurosciences. Parmi les techniques d'imagerie cérébrale, la magnéto- et l'électro-encéphalographie se distinguent pour deux raisons: leur faible degré d'invasivité, et leur excellente résolution temporelle. La reconstruction de l'activité neuronale à partir de l'enregistrements des champs électriques et magnétiques constitue ce qu'on appelle le problème inverse bio-magnétique. A cause du petit nombre de capteurs, ce problème inverse est extrêmement mal posé, et il est nécessaire d'ajouter des contraintes pour le résoudre. Une approche populaire, qui est considérée dans ce manuscript, est de postuler que la solution est parcimonieuse spatialement: seul un petit nombre de régions cérébrales sont activées lors d'une tâche cognitive simple et spécifique. Des solutions présentant un tel caractère parcimonieux peuvent notamment être obtenues par une régression linéaire avec pénalité L2/1. Cependant, ce type de régularisation nécessite de résoudre des problèmes d'optimisation non-lisses en grande dimension, avec des méthodes itératives dont la performance se dégrade avec la dimension. De plus, les enregistrements M/EEG sont typiquement corrompus par un fort bruit coloré, allant à l'encontre des hypothèses classiques pour la résolution des problèmes inverses. Il est usuel de blanchir les données avant de les utiliser, et de moyenner plusieurs répétitions d'une même expérience pour augmenter le rapport signal-à-bruit. Dans cette thèse, nous proposons d'abord une accélération des algorithmes itératifs utilisés pour résoudre le problème bio-magnetique avec régularisation L2/1. Les améliorations classiques (règles de filtrage et ensemble actifs), tirent parti de la parcimonie de la solution: elles identifient et ignorent les sources cérébrales inactives, et réduisent ainsi la dimension du problème. Nous introduisons une nouvelle technique d'ensemble actifs, reposant sur les règles de filtrage les plus performantes actuellement. Dans ce cadre, nous proposons des techniques duales avancées, qui permettent un contrôle plus fin de l'optimalité et améliorent les techniques d'identification de prédicteurs. Notre construction duale extrapole la structure Vectorielle Autoregressive des itérés duaux, régularité que nous relions aux propriétés d'identification de support des algorithmes proximaux. En plus du problème inverse bio-magnétique, l'approche proposée est appliquée à l'ensemble des modèles linéaires généralisés régularisés L1. Deuxièmement, nous introduisons de nouveaux estimateurs concomitants pour la régression multitâche. En plus de l'activité cérébrale, ces estimateurs calculent aussi la covariance du bruit. Ils sont conçus pour traiter du bruit gaussien corrélé et exploiter le caractère multirépétition des expériences M/EEG. Le problème d'optimisation sous-jacent est convexe, et présente une structure "lisse + proximable" attrayante. Il est donc résoluble via des techniques standard d'optimisation alternée, pour lesquelles les améliorations présentées dans la première partie s'appliquent. Nous lions la formulation de notre problème au lissage des normes de Schatten. Nous démontrons les bénéfices de notre approche sur des données réelles. Les approches algorithmiques et la modélisation du bruit proposées ourent la voie à une analyse des singaux M/EEG plus rapide et plus efficace statistiquement, permettant ainsi une analyse interactive des enregistrements par les praticiens, et des analyses passant à l'échelle de la taille croissante des jeux de données M/EEG modernes.

Sparse high dimensional regression in the presence of colored heteroscedastic noise: application to M/EEG source imaging

Régression parcimonieuse en grande dimension en présence de bruit coloré hétéroscédastique: application à la localisation de sources M/EEG

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager