Modèles de génération et d'analyse des traces pédagogiques

Contexte : Scenari, suite logicielle de conception et d'exploitation de chaînes éditoriales

Les chaînes éditoriales numériques sont des outils qui accompagnent la production documentaire de masse. Pour y parvenir, elles s'appuient sur une mise en évidence des structures documentaires présentes dans un corpus. Ces structures sont représentées dans un modèle documentaire qui contrôle la validité des documents. La publication des documents s'opère par des algorithmes de transformation qui s'appuient sur le modèle pour publier des documents dans des formats standards comme PDF ou HTML.

En travaillant uniquement sur des structures et en automatisant la mise en forme, les chaînes éditoriales permettent la séparation entre le fond et la forme - ou entre le fonds documentaire et ses formes (Bachimont & Crozat, 2004). Elles facilitent ainsi une automatisation des manipulations documentaires.

Scenari (Crozat 2007) est une suite logicielle permettant la conception et l'exploitation de chaînes éditoriales. La suite Scenari contient à la fois

  • SCENARIbuilder, un logiciel de conception de chaînes éditoriales selon une méthode d'ingénierie dirigée par les modèles ;

  • SCENARIchain, un logiciel exploitant le cœur produit par SCENARIbuilder pour instancier une chaîne éditoriale fonctionnelle.

Cette méthode de conception permet à la société Kelis de proposer une offre de services en ingénierie documentaire souple et compétitive, exclusivement basée sur l'exploitation des technologies Scenari. Pour l'exemple, on pourra citer :

  • la production des contenus du site service public,

  • la production des contenus pédagogiques de l'afpa.

Depuis 2014, Kelis poursuit ses travaux de recherche et développement en intégrant à la suite logicielle des outils de publication (sur le web) et d'exploitation des documents produits par des chaînes éditoriales Scenari. Ainsi, là où une chaîne éditoriale classique s'arrête à la production de documents web, la suite Scenari vise à instrumenter l'exploitation de ces documents en ligne.

Pour l'exemple, on pourra citer :

  • Vocabula, un lexique accessible produit par l'AFPA ;

  • ISIPAD, une plateforme d'information sur la chirurgie ambulatoire dans les hauts de France ;

  • Faq2Sciences, une plateforme pédagogique pour faciliter le positionnement et l'auto-évaluation des élèves bacheliers avant leur entrée à l'université.

Quelques exemples d'usages pédagogiques

Les modalités pédagogiques des plateformes produites avec Scenari peuvent fortement varier d'une chaîne éditoriale à une autre. On trouve ainsi :

  • Des plateformes de positionnement comme Faq2sciences :

    • exploitation de questionnaires de positionnement ;

    • documents produits avec les modèles Topoze ou Quetzal.

  • Des plateformes de formation à distance classiques (du SPOC au MOOC) :

    • exploitation de ressources (documents, audio, video, etc.) et d'évaluations ;

    • documents produits avec Opale, Emeraude, Rubis...

  • Des plateformes reposant sur les productions et les interactions des apprenants (modèle type Social Learning) :

    • fortes interactions entre documents et plateformes (messagerie, annotation, production des apprenants en équipe, évaluation par les pairs...) ;

    • modèle documentaire et plateforme en cours de développement par Kelis.

  • Des plateformes exploitant des jeux sérieux :

    • exploitation de documents non linéaires sous la forme de jeux sérieux (cf le projet PROFFIteROLE de Lille2) ;

    • documents produits avec Topaze.

Enjeu technologique des travaux

Kelis souhaite enrichir la suite technologique Scenari avec des outils d'analyse des apprentissage. Pour y parvenir, il convient :

  • de développer des modèle de génération de traces propres aux différents types de ressources pédagogiques exploitées (évaluations, interactions entre apprenant, ressources linéaires ou non, etc.)

  • de développer des modèles d'analyse de traces propres aux modalités d'exploitation des ressources pédagogiques

  • de développer une approche orientée par les modèles pour la conception de ces modèles de génération et d'analyse de traces, à savoir :

    • un langage d'expression des modèles d'émission et d'analyse des traces (métamodèle) ;

    • des modalités techniques de génération et d'analyse des traces (résultat de génération) ;

    • les algorithmes de transformation permettant de produire cette génération.

Enjeux scientifiques des travaux

Un premier enjeu scientifique de la thèse vise à déterminer quels modèles de génération de traces et donc quelles modalités d'exploitation de ces traces sont utiles en fonction des modalités pédagogiques des différentes plateformes produites avec des chaînes éditoriales (positionnement, SPOC/MOOC, Social Learning, jeux sérieux). Il s'agit ici d'expérimenter plusieurs modèles de génération de traces afin de concevoir l'approche orientée par les modèles évoquée comme enjeu technologique.

Au delà du cœur scientifique et technologique, la thèse s'attachera à qualifier l'opportunité de l'approche technologique des chaînes éditoriales pour généraliser la création, le suivi et l'analyse de données apprenants quelles que soient les modalités d'apprentissage.

Un des problèmes majeurs de la communauté fédérée autour des thèmes des learning analytics et de la fouille de données éducatives (EDM – Educational Data Mining) est relatif à la réplicabilité des travaux à des contextes connexes. Ainsi, dans un article de synthèse sur l'évolution de ce jeune champ de recherche, Romero et Ventura (2013) concluaient sur le fait que « les résultats de la recherche en EDM sont typiquement obtenus dans le contexte étroit de projets de recherche ou d'environnements éducatifs donnés, alors qu'il est nécessaire d'obtenir des résultats plus généraux (...) par exemple si un modèle prédictif est toujours fiable lors de son utilisation dans un contexte différent ». L'approche généralement considérée pour répondre à cette problématique passe par la capitalisation des traces et/ou des processus d'analyse. Ainsi, DATAShop (Koedinger et al. 2010) permet de partager des traces (données d'interaction, modèles d'apprenants et résultats d'analyse), notamment liés à l'utilisation de système de tuteurs intelligents développés au Pittsburgh Science of Learning Center. Au niveau français, le projet Mulce (Reffay et al. 2012) poursuivait un objectif comparable, mais surtout depuis 2014 le projet ANR HUBBLE tente d'aller plus loin dans cette approche en partageant également les processus d'analyse afin notamment de « permettre la reproductibilité d'analyses sur plusieurs corpus » (Luengo 2014). Toutefois dans chacun de ces cas, si le partage de données et de processus facilite les comparaisons d'algorithmes par exemple, il reste difficile de comprendre pourquoi un processus d'analyse appliqué à deux jeux de données différents recueillis dans des contextes plus ou moins similaires ne donne pas toujours les mêmes résultats. Dans ce contexte, l'exploitation de traces générées à l'aide de modèles permettrait des analyses facilement comparables car issues de plateformes dont les différences sont connues et parfaitement identifiées par nature, puisqu'elles proviendraient d'instanciations différentes d'une même chaîne éditoriale. Une telle approche permettrait donc d'améliorer la détermination de la robustesse des processus d'analyse utilisés, et la compréhension des paramètres qui permettent à un processus d'analyse d'être pertinent ou non.

Références

  • Bachimont B, Crozat S. « Instrumentation numérique des documents : pour une séparation fonds/forme ». Information - Interaction - Intelligence, 2004. Vol. 4 N°1.

  • Crozat S. Scenari, la chaîne éditoriale libre. Eyrolles, 2007.

  • El moukhtar Aliouat, Christophe Carnoy, et al. « Quand l'innovation pédagogique ambitionne la production de masse via un learning game: REX sur un groupe d'enseignants-chercheurs. » TICE 2014 Montpellier.

  • Romero, C., & Ventura, S. (2013). Data mining in education. Wiley Interdisciplinary Reviews: Data Mining and Knowledge Discovery, 3(1), 12-27.

  • Koedinger, K.R., Baker, R.S.J.d., Cunningham, K., Skogsholm, A., Leber, B., Stamper, J.. A Data Repository for the EDM community: In Handbook of Educational Data Mining. Boca Raton, FL: CRC Press. 2010.

  • Reffay, Christophe, Marie-Laure Betbeder, and Thierry Chanier. "Multimodal learning and teaching corpora exchange: lessons learned in five years by the Mulce project." International Journal of Technology Enhanced Learning 4.1-2 (2012): 11-30.

  • Vanda Luengo. Projet ANR HUBBLE HUman oBservatory Based on anaLysis of e-Learning traces. 2014. <hal-01116630>