Next-Generation Air Pollution Forecasting : Integrating AI, Spatiotemporal Dynamics, and Privacy-Ensuring Approaches for Urban Areas
Prévision de la pollution de l’air de nouvelle génération : intégration de l’IA, des dynamiques spatiotemporelles et des approches garantissant la confidentialité pour les zones urbaines
- Qualité de l'air
- Prévision des
- Analyse spatiotemporelle
- Apprentissage fédéré
- Préservation de la confidentialité des Données
- Intelligence artificielle
- Particules fines
- Pollution atmosphérique
- Qualité de l'air
- Pollution urbaine
- Protection de l'information (informatique)
- Intelligence artificielle
- Air Quality
- PM2.5 Forecasting
- Spatiotemporal Analysis
- Federated Learning
- Data Privacy-Preserving
- Artificial intelligence
- Langue : Anglais
- Discipline : Informatique et applications
- Identifiant : 2024ULILB048
- Type de thèse : Doctorat
- Date de soutenance : 11/12/2024
Résumé en langue originale
La qualité de l'air est un problème mondial, la pollution de l'air posant de sérieux risques environnementaux et pour la santé publique, surtout dans les zones urbaines où les particules fines (PM), notamment le PM2.5, sont parmi les polluants les plus nocifs. Malgré des avancées dans la surveillance de la qualité de l'air, des défis comme la variabilité des données, les exigences computationnelles, la scalabilité, et les préoccupations en matière de confidentialité limitent l'efficacité des systèmes de prévision actuels. Cette thèse présente une approche novatrice pour prédire la pollution de l'air dans les zones urbaines en intégrant IA, modélisation spatiotemporelle, et techniques de collecte de données préservant la vie privée. La première contribution majeure est le développement de PMForecast, un modèle de prédiction temporelle conçu pour prévoir les niveaux de PM2.5. En utilisant des techniques avancées d'apprentissage automatique et des mécanismes d'attention temporelle, PMForecast capture efficacement les dépendances temporelles des polluants, conduisant à des prévisions précises pour le court et le long terme. De plus, le modèle démontre des capacités multitâches, atteignant une précision de 99.7% pour les prévisions à 1 heure et de 73.5% pour celles à 12 heures, représentant des améliorations par rapport aux modèles existants. Le modèle spatiotemporel intègre des données de réseaux de capteurs souterrains pour prédire les concentrations de PM2.5 à travers différentes régions. Le modèle GT-LSTM utilise des réseaux de GCN pour capturer les interactions entre les sources de pollution et les conditions atmosphériques, tout en utilisant des LSTMs pour modéliser les dépendances temporelles. Cette approche permet une compréhension approfondie de la dispersion des polluants dans le temps et l'espace. En utilisant des résolutions fixes correspondant aux ressources de données, le modèle assure des prévisions précises et localisées. La troisième contribution est la conception d'une architecture d'apprentissage fédéré appelée FedAirNet, visant à améliorer la prédiction de la qualité de l'air avec des données de capteurs mobiles tout en préservant la vie privée. Les stations de surveillance traditionnelles, limitées par une couverture spatiale et des coûts élevés, voient en revanche les capteurs mobiles une source de données flexible. Cependant, la collecte de données de capteurs mobiles soulève des préoccupations de confidentialité.FedAirNet distribue le processus d'apprentissage sur plusieurs appareils, garantissant que les données sensibles restent locales tout en contribuant aux mises à jour du modèle global. Cette approche décentralisée améliore non seulement la précision des prévisions, mais atténue aussi les risques liés à la collecte centralisée.Les modèles présentés dans cette thèse ont été testés dans des environnements réels, montrant leur potentiel à transformer les systèmes de surveillance de la pollution. Le modèle PMForecast fournit des prévisions robustes de PM2.5, essentielles pour les interventions en santé publique.Le modèle spatiotemporel enrichit notre compréhension en analysant le comportement des polluants, tandis que l'architecture FedAirNet protège la vie privée à mesure que l'utilisation de capteurs mobiles se généralise. Cette recherche représente une avancée significative dans la prédiction de la pollution de l'air en intégrant des perspectives basées sur l'IA avec des techniques de collecte de données préservant la vie privée. Les travaux futurs devraient se concentrer sur l'incorporation de sources de données supplémentaires et l'affinement de modèles hybrides combinant données temporelles, spatiales et de détection mobile, contribuant à des systèmes de prévision plus précis, opportuns et sécurisés, afin de réduire les effets nocifs de la pollution sur la santé humaine et l'environnement.
Résumé traduit
Air quality is a critical global issue, with air pollution posing serious environmental andpublic health risks, especially in urban areas where fineParticulate Matters (PMs) specially(PM2.5) is among the most harmful pollutants. Despite significant advancements in air qualitymonitoring and modeling, challenges such as data variability, computational demands, scalability,resolution constraints, and privacy concerns continue to limit the accuracy and effectivenessof current forecasting systems. This dissertation presents a novel approach to air pollutionprediction in urban areas by integratingArtificial Intelligence(AI), spatiotemporal modeling,and privacy-preserving data collection techniques.The first major contribution of this research is the development ofPMForecast, a temporalprediction model specifically designed to forecast PM2.5levels. By utilizing advanced machinelearning techniques and temporal attention mechanisms,PMForecasteffectively capturestemporal dependencies in pollutant concentrations, leading to highly accurate predictions forboth short-term and long-term forecasting. Additionally, the model demonstrates significantmulti-tasking capabilities. It achieves a notable prediction accuracy of 99.7% for 1-hour forecastsand 73.5% for 12-hour forecasts, representing substantial improvements over existing models interms of precision and computational efficiency.Spatial and temporal data from underground sensor networks to predict PM2.5concentrationsacross different geographic regions. TheGraph Temporal LSTM(GT-LSTM)model employsGraph Convolutional Networks (GCNs) to capture the complex interactions between pollutionsources and atmospheric conditions at ground level, while utilizingLong Short-Term Memorys(LSTMs), as described in the previous contribution, to model temporal dependencies. Thisapproach provides a more refined understanding of pollutant dispersion over time and space.By operating with fixed zone resolutions corresponding to available data resources, the modelensures accurate and localized predictions.The third contribution is the design of a federated learning architecture calledFedAirNet,aimed at enhancing air quality prediction using mobile sensor data while safeguarding userprivacy. Traditional air quality monitoring stations are often constrained by limited spatialcoverage and high costs, whereas mobile sensors offer a more flexible and granular data source.However, the collection of mobile sensor data introduces privacy concerns.FEDAIRNETaddresses these challenges by distributing the learning process across multiple devices, ensuringthat sensitive data remains on local devices while still contributing to global model updates.This decentralized approach not only improves prediction accuracy but also mitigates risksassociated with centralized data collection, such aspoint-of-interest(PoI) attacks.The models presented in this thesis have been rigorously tested in real-world environments,demonstrating their potential to transform air pollution monitoring systems. ThePMForecastmodel provides robust predictions of PM2.5concentrations, making it valuable for public healthinterventions and environmental policies. TheSpatiotemporal Modeladds a critical layerof understanding by analyzing how pollutants behave across spatial and temporal dimensions,while theFedAirNetarchitecture ensures that privacy is protected as the use of mobile sensorsbecomes more prevalent.This research represents significant advancements in air pollution prediction by integratingAI-driven insights with privacy-preserving data collection techniques. Future work should focuson incorporating additional data sources, and refining hybrid models that combine temporal,spatial, and mobile sensing data. These innovations will contribute to more accurate, timely,and secure air pollution forecasting systems, ultimately helping to mitigate the harmful effectsof air pollution on human health and the environment.
- Directeur(s) de thèse : Rouvoy, Romain - Crumeyrolle, Suzanne
- Président de jury : Payan, Sébastien
- Membre(s) de jury : Martiny, Nadège
- Rapporteur(s) : Chabridon, Sophie - Puigt, Matthieu
- Laboratoire : Centre de Recherche en Informatique, Signal et Automatique de Lille - Centre Inria de l'Université de Lille
- École doctorale : École graduée Mathématiques, sciences du numérique et de leurs interactions (Lille ; 2021-....)
AUTEUR
- Rahmani, Maryam