Titre original :

Chemometric exploration in hyperspectral imaging in the framework of big data and multimodality

Titre traduit :

Exploration chimiométrique en imagerie hyperspectrale dans le cadre du big data et de la multimodalité

Mots-clés en français :
  • Fusion de données
  • Données spectrales et spatiales

  • Chimiométrie
  • Imagerie hyperspectrale
  • Spectroscopie
  • Données massives
  • Analyse multivariée
  • Exploration de données
  • Spectroscopie sur plasma induit par laser
Mots-clés en anglais :
  • Chemometrics
  • Spectroscopy
  • Hyperspectral imaging

  • Langue : Anglais
  • Discipline : Chimie théorique, physique, analytique
  • Identifiant : 2022ULILR021
  • Type de thèse : Doctorat
  • Date de soutenance : 16/05/2022

Résumé en langue originale

Nous sommes aujourd'hui tous conscients que l'imagerie hyperspectral est un outil très utile dans de nombreux domaines de recherche liés à la chimie, et qu'elle peut être exploitée pour l'étude d'échantillons de nature différente, quelle que soit la technique spectroscopique utilisée. Malgré les caractéristiques très intéressantes liées à ce type de données, diverses limitations sont potentiellement rencontrées. Les instruments modernes peuvent tout d'abord générer une énorme quantité de données (big datasets). De plus, la fusion de différentes réponses spectroscopiques acquises sur le même échantillon (multimodalité) peut être potentiellement appliqué, conduisant à encore plus de données à analyser. Cet aspect peut être problématique, compte tenu du fait que si la bonne approche n'est pas utilisée, il peut être compliqué d'obtenir des résultats satisfaisants. Bien évidemment, certains artefacts spectraux peuvent être présents dans les jeux de données acquis, et donc la correction de ces imperfections doit être prise en compte pour obtenir de bons résultats. Un autre défi important lié à l'utilisation de l'analyse d'images hyperspectrales est que normalement, l'observation simultanée d'informations spectrales et spatiales est presque impossible avec la plupart des méthodes actuelles. De toute évidence, cela conduit à une exploration incomplète des données à disposition acquises sur l'échantillon d'intérêt. La chimiométrie est une branche moderne de la chimie qui peut parfaitement répondre aux limitations actuelles liées à la structure des données en imagerie hyperspectrale. Le but de ce travail de thèse est de présenter au lecteur une série de sujets différents dans lesquels de nombreux défis liés aux images hyperspectrales peuvent être surmontés en utilisant différentes facettes de la chimiométrie. En particulier, les problèmes liés à la génération d'une grande quantité de données peuvent être surmontés à l'aide d'algorithmes basés sur la sélection de l'information la plus pure (i.e., SIMPLISMA), ou liés à la création de clusters dans lesquels des composants similaires seront regroupés (i.e., KM clustering). Afin de corriger les artefacts instrumentaux tels que les signaux saturés, une méthodologie originale qui exploite l'imputation statistique sera utilisée, afin de recréer de manière très élégante les informations manquantes et ainsi obtenir des signaux qui autrement seraient irrémédiablement perdus. Une partie importante de cette thèse est liée à l'investigation des données acquises à l'aide de l'imagerie LIBS, une technique qui suscite actuellement un intérêt croissant dans de nombreux domaines de recherche, mais qui n'a pas encore vraiment été exploitée à son plein potentiel par l'utilisation des approches chimiométriques. Dans ce manuscrit, nous introduirons un pipeline général axé sur la sélection des informations les plus importantes liées à ce type de structure de données cubique (en raison de l'énorme quantité de données spectrales qui peuvent être facilement générées) afin de surmonter certaines limitations rencontrées lors de l'analyse de cette réponse instrumentale. De plus, la même approche sera exploitée pour les problématiques de fusion de données spectrales, liée à la LIBS et à d'autres données spectroscopiques. Enfin, nous introduiront une manière intéressante d'utiliser la transformée en ondelettes, afin de ne pas limiter l'analyse uniquement aux données spectrales, mais aussi spatiales, pour obtenir une exploration chimique plus complète des échantillons complexes.

Résumé traduit

Nowadays, it is widely known that hyperspectral imaging is a very good tool used in many chemical-related research areas. Indeed, it can be exploited for the study of samples of different nature, whatever the spectroscopic technique used. Despite the very interesting characteristics related to this kind of acquired data, various limitations are potentially faced. First of all, modern instruments can generate a huge amount of data (big datasets). Furthermore, the fusion of different spectroscopic responses on the same sample (multimodality) can be potentially applied, leading to even more data to be analyzed. This aspect can be a problem, considering the fact that if the right approach is not used, it could be complicated to obtain satisfying results or even lead to a biased vision of the analytical reality of the sample. Obviously, some spectral artifacts can be present in a dataset, and so the correction of these imperfections has to be taken into account to carry out good outcomes. Another important challenge related to the use of hyperspectral image analysis is that normally, the simultaneous observation of spectral and spatial information is almost impossible. Clearly, this leads to an incomplete investigation of the sample of interest. Chemometrics is a modern branch of chemistry that can perfectly match the current limitations related to hyperspectral imaging. The purpose of this PhD work is to give to the reader a series of different topics in which many challenges related to hyperspectral images can be overcome using different chemometric facets. Particularly, as it will described, problems such as the generation of big amount of data can be faced using algorithms based on the selection of the purest information (i.e., SIMPLISMA), or related to the creation of clusters in which similar components will be grouped (i.e., KM clustering). In order to correct instrumental artifacts such as saturated signals will be used a methodology that exploits the statistical imputation, in order to recreate in a very elegant way the missing information and thus, obtain signals that otherwise would be irremediably lost. A significant part of this thesis has been related to the investigation of data acquired using LIBS imaging, a spectroscopic technique that is currently obtaining an increasing interest in many research areas, but that, still, has not really been exploited to its full potential by the use of chemometric approaches. In this manuscript, it will be shown a general pipeline focusing on the selection of the most important information related to this kind of data cube (due to the huge amount of spectral data that can be easily generated) in order to overcome some limitations faced during the analysis of this instrumental response. Furthermore, the same approach will be exploited for the data fusion analysis, related to LIBS and other spectroscopic data. Lastly, it will be shown an interesting way to use wavelet transform, in order to not limit the analysis only to spectral data, but also to spatial ones, to obtain a more complete chemical investigation.

  • Directeur(s) de thèse : Duponchel, Ludovic
  • Président de jury : Bousquet, Bruno
  • Membre(s) de jury : Neff, Delphine - Juan Capdevila, Anna de - Motto-Ros, Vincent
  • Rapporteur(s) : Gowen, Aoife - Marini, Federico - Caceres gianni, Jorge O.
  • Laboratoire : Laboratoire Avancé de Spectroscopie pour les Interactions, la Réactivité et l'Environnement (LASIRE)
  • École doctorale : École doctorale Sciences de la matière, du rayonnement et de l'environnement (Lille ; 1992-....)

AUTEUR

  • Nardecchia, Alessandro
Droits d'auteur : Ce document est protégé en vertu du Code de la Propriété Intellectuelle.
Accès libre