Titre original :

Automatic flow (optimal learning experience) detection in a MOOC via Machine Learning : Flow & Learning Analytics

Titre traduit :

Détection automatique du flow (expérience optimale d'apprentissage) dans un MOOC via des techniques d'apprentissage automatique (Machine Learning) : Flow et Learning Analytics

Mots-clés en français :
  • Flow
  • Analyse de l'apprentissage
  • Apprentissage automatique
  • Expérience optimale d'apprentissage

  • Flux (psychologie)
  • Apprentissage automatique
  • Cours en ligne ouverts à tous
  • Éducation
Mots-clés en anglais :
  • Flow
  • Learning analytics
  • Machine learning
  • Optimal learning experience

  • Langue : Anglais
  • Discipline : Sciences de l'éducation et de la formation
  • Identifiant : 2023ULILH026
  • Type de thèse : Doctorat
  • Date de soutenance : 21/09/2023

Résumé en langue originale

Flow « [...] un état d'épanouissement lié à une profonde implication et au sentiment d'absorption que les personnes ressentent lorsqu'elles sont confrontées à des tâches dont les exigences sont élevées et qu'elles perçoivent que leurs compétences leur permettent de relever ces défis ». L'état de flow est positivement corrélé avec des métriques favorables à l'apprentissage. Ainsi, Csíkszentmihályi (2005) affirme que le flow favorise l'apprentissage et le développement personnel parce que les expériences de concentration profonde et totale sont intrinsèquement gratifiantes. Cependant, la recherche associant flow dans les MOOC ne fait que débuter alors que la détection du flow reste particulièrement complexe, car tout artefact tentant de le détecter ou de le mesurer contribue inévitablement à le perturber. L'importance de l'état de flow (en tant qu'état psychologique humain) dans le processus d'apprentissage, en ligne et à distance, nous pousse à proposer un modèle d'apprentissage automatique de détection de flow qui permet une détection de flow fiable, automatique et transparente dans un contexte de MOOC. Nous utilisons des techniques d'apprentissage automatique pour donner du sens aux données multidimensionnelles sans avoir recours à un expert humain en permanence. Ce projet de recherche se différencie des travaux précédents par l'utilisation d'un modèle théorique de flow et de son instrument de mesure, conçus exprès pour détecter flow directement sans passer par des concepts intermédiaires, ainsi que par l'exploitation de deux ensembles de données d'entrée : l'état de flow auto-rapporté des participants (n~9 500), et leurs données de connexion au MOOC (~80 Go), pendant deux ans. Aucune donnée de performance n'est collectée ni utilisée. Après des filtrages et des prétraitements rigoureux, nous couplons les états de flow auto-rapportés des utilisateurs (n~1 500) à leurs données de connexion agrégées (23 variables) pour obtenir deux modèles entraînés d'apprentissage automatique .A) Un modèle dit Proof-of-Concept qui corrobore les choix et le bon couplage des méthodes, des instruments de mesure du flow et des techniques d'apprentissage automatique (F1 = 0,851, AUC ROC = 0,85, Exactitude = 0,797, Précision = 0,821, Rappel = 0,882). B) Un modèle dit Prototype qui permet de détecter flow dans un contexte de MOOC de manière abordable (F1 = 0,689, AUC PR = 0,87, AUC ROC = 0,68, Exactitude = 0,605, Précision = 0,854, Rappel = 0,578), rapide (>ms/participant), d'un impact environnemental négligeable (~0. 00000237222222 g de CO₂eq par exécution), automatique (pas d'interventions supplémentaires une fois installé), et transparente (sans intervention des participants du MOOC). Ces deux modèles identifient mieux le flow que l'absence de flow : Proof-of-Concept : 58% vs. 22% du total, Prototype : ~44 % contre ~17 % du total. Or, le Prototype présente une proportion plus élevée de Faux Négatifs (~32 % du total) que des Vrais Négatifs (~17 % du total) lorsqu'il est confronté à des données non traitées et jamais vues (le prétraitement des données améliore les métriques mais reconstruit les données d'entrée). Cet écart peut être compris comme un modèle prudent préférant une classification pas-de-flow en cas de doute plutôt qu'une classification flow, ce qui n'est pas nécessairement un comportement indésirable du modèle.D'ailleurs, nos deux modèles souffrent d'un manque de granularité pour la détection du flow, un obstacle insurmontable intrinsèquement lié à la granularité (2 moments) des données d'entraînement. Les perspectives de ce projet de recherche comprennent la mise en œuvre et la commercialisation du modèle Prototype dans un MOOC pour 1) aboutir sur un tableau de bord du flow ; 2) personnaliser le contenu, les activités et le parcours d'apprentissage du MOOC ; et éventuellement 3) évaluer l'incidence de la détection du flow dans la personnalisation du MOOC afin de réduire le taux d'abandon du MOOC.

Résumé traduit

Flow “[...] is a gratifying state of deep involvement and absorption that individuals report when facing a challenging activity [...]”. Flow has been shown to correlate reliably and positively to learning-favorable metrics. Csíkszentmihályi (2005) argued that flow promotes learning and personal development because deep and total concentration experiences are intrinsically rewarding. However, research associating flow in MOOCs is still on the growth while live flow detection remains particularly difficult, as any artifact attempting to detect it, or measure it, inevitably contributes to disrupt it. Because of the significance of the flow state (as a human psychological state) in the learning process, in online, distant settings, this research work proposes a flow-detecting Machine Learning model that allows for accountable, automatic, and transparent flow detection in a MOOC context. We employ Machine Learning techniques to make sense of multidimensional data without constantly requiring a human expert. This research work differentiates itself from previous attempts in the use of a theoretical flow model and its accompanying flow measurement instrument, purposefully designed to detect flow directly without intermediate concepts, plus the use of two input datasets of participants' self-reported flow state (n~9 500), along their MOOC log data (~80GB), for a two-year long data collection period. No performance data is collected nor employed. After rigorous data filtering, and pre-processing, we pair real-user data (n~1 500), to their log data aggregations (23 features such as: total number of events, diversity of events, total number of logged sessions, etc.), and to their self-reported flow state to obtain two trained Machine Learning models. First, a Proof-of-Concept flow-detecting Machine Learning model corroborates the choices and proper coupling of methods, flow measurement instruments, and Machine Learning techniques (F1 = 0.851, AUC ROC = 0.85, Accuracy = 0.797, Precision = 0.821, Recall = 0.882). An ensuing experiment capitalizes on this knowledge and culminates this research by creating an affordable (F1 = 0.689, AUC PR = 0.87, AUC ROC = 0.68, Accuracy = 0.605, Precision = 0.854, Recall = 0.578), fast (less than a few milliseconds per participant), of negligeable environmental impact (~0.00000237222222 g of CO₂eq per run), automatic (once setup no further intervention is needed by MOOC staff), and transparent (no intervention demanded to MOOC participants) flow-detecting Machine Learning model for use in a MOOC context.Furthermore, neither model constitutes a black box, facilitating eventual model inspection and understanding.Both resulting models identify flow better than no-flow: Proof-of-Concept: 58% vs. 22% of total, Prototype: ~44% vs. ~17% of total. However, the Prototype features a higher proportion of False Negatives (~32% of total) vs. True Negatives (~17% of total) when facing unprocessed, unseen data (pre-processing data improves metrics but reconstructs input data). This discrepancy can be understood as a cautious model preferring a no-flow classification when in doubt rather than a flow classification, which is not necessarily an unwelcome model behavior. We hypothesize both imbalanced results are mostly due to 1) the intricate writing style employed in one of the chosen measurement instruments and thus, 2) the imbalance of our input sample. Also, both models carry a lack of granularity when detecting flow, an unsurmountable obstacle intrinsically linked to the granularity (2 moments) of the flow training data. Perspectives for this research project comprise the successful implementation and commercialization of the Prototype model into a MOOC to 1) implement a flow dashboard; 2) personalize the MOOC's content, activities, and learning-path; and possibly 3) evaluate the incidence of flow detection in MOOC personalization when attempting to reduce MOOC dropout rates.

  • Directeur(s) de thèse : Heutte, Jean - El Mawas, Nour
  • Président de jury : Poellhuber, Bruno
  • Membre(s) de jury : Raes, Annelies
  • Rapporteur(s) : Romero, Margarida - Fenouillet, Fabien
  • Laboratoire : Centre interuniversitaire de recherche en éducation (Villeneuve d'Ascq, Nord)
  • École doctorale : École doctorale Sciences de l'homme et de la société

AUTEUR

  • Ramírez Luelmo, Sergio Iván
Droits d'auteur : Ce document est protégé en vertu du Code de la Propriété Intellectuelle.
Accès libre