J’ai découvert récemment le PORTL et quelques vidéos autour du sujet. J’ai essayé de les proposer dans un groupe que j’administre, mais il semblerait que la vue des vidéos ne suffisent pas forcément à comprendre le but de l’exercice. J’ai donc commenté ces vidéos, mais on m’a dit que ce serait intéressant de pouvoir partager les commentaires, donc je vous propose cet article avec les vidéos et les commentaires qui n’engagent que moi.
Tout d’abord, il s’agit de faire du clicker sur l’humain. Le clicker, c’est un petit objet, généralement rectangulaire, qui produit un son unique, un "click" et qui ne sert qu’à ça. Le fait que le son retentisse indique que l’individu a trouvé la bonne réponse ou qu’il est sur la bonne piste et annonce l’arrivée d’une récompense. Click = récompense, c’est la règle absolue lorsque l’on emploi le clicker. On l’utilise sur de très nombreuses espèces. Dans le cadre du clicker sur humain, c’est bien évidement pour s’amuser ou pour comprendre différemment l’intérêt du clicker.
Le clicker n’est pas une méthode d’apprentissage en soit, c’est une aide qui vient s’incruster dans différentes méthodes telles que la capture, le leurre, le shaping ou encore le mimétisme. Dans les vidéos que l’on va voir, il s’agit de shaping.
Le shaping est une série d’indice conduisant à la solution. Plus simplement lorsqu’on joue au jeu du "chaud / froid ?" en cherchant un endroit, c’est exactement le même principe que le shaping.
Nous avons donc nos bases, voyons ce que donne les vidéos.
On nous présente l'équipement. Il y a donc un clicker, des récompenses qui ici seront des boutons mais ça pourrait être autre chose, dans une vidéo suivante nous verrons des perles par exemple et il y a également une série de petits objets. Ensuite, on la voit s'entraîner à faire click = récompense. C’est un exercice intéressant car ce n’est pas quelque chose de naturel à faire. Nous risquons donc de nous tromper et d’envoyer le mauvais message. En s’entraînant, on limite ce risque.
Ensuite elle apprend à mettre l'objet puis à le retirer. Je ne sais pas exactement pourquoi elle le fait. Peut-être pour que ce soit très clair : c'est cet objet dont il faut s'occuper et relancer l’exercice. Mais vu le résultat de la fin, je pense qu'il y a un autre intérêt (j’en parlerai un peu plus bas). C’est tout le soucis de la compréhension de chaîne d’indice, il n’y a que le "maître du jeu" qui sait jusqu’où il désire aller, lorsqu’on suit le jeu, c’est parfois très nébuleux, pourtant nous sommes ici dans une chaîne très simple.
Puis arrive la personne qui va donc être l’individu qui va chercher la solution et on commence de zéro. Donc étape 1, lui apprendre à prendre les récompenses. Chez le chien, cette période est appelé "chargement". Le but est d’intégrer : click = récompense. Et dans la vidéo, si l’individu prend la récompense, le jeu continue.
Quand ça devient évident, on attaque une autre demande. C’est un point compliqué dans les chaînes d’indices car on peut être tenté d’aller "un peu trop vite". En allant "un peu trop vite", le chemin ne sera plus aussi clair et on a un gros risque d’erreur. L’étape suivante, c’est l'arrivé du "légo" (le petit objet bleu / violet). La personne reproduit la même chose qu'avec les récompenses : ok c'est à moi, je prends et je pose devant. Sauf que ce n'est pas ce que l'on attend d'elle, donc la personne qui click reprend l'objet et attend pour avoir une nouvelle proposition.
C’est également ce que l’on fait avec le chien en cas d’erreur, on remet simplement la situation de départ en place, sans l’engueuler car il a le droit à l’erreur et on attend qu’il teste autre chose.
Donc la personne comprend qu'elle s'est trompée (elle n'a pas reçue son bouton) et essaie de faire autrement. Là le click arrive très vite, le but étant d'attraper le moment exact qui nous intéresse avant qu'elle n'embarque le légo ... Et c'est cette précision du timing qui va être compliqué. On peut voir que parfois, elle s'arrête avant même de toucher le légo, parfois elle va jusqu'à la soulever. La personne voit qu'elle tourne autour et ralentit ses gestes pour comprendre d'elle-même quand le click est censé arriver exactement.
C’est toujours un moment délicat car cela demande une très grande précision à la personne qui click. Transposer au jeu chaud / froid, imaginons que nous voulions que la personne aille prendre une feuille précisément dans un bloc. L’amener jusqu’au bloc en lui indiquant quand elle chauffe sera simple. Arriver à lui faire prendre la bonne feuille sera très compliqué. Le timing va permettre cette précision et le clicker est justement là pour ça.
Et on arrive au résultat : tu poses les doigts autour du légo, sans le bouger et tu me le rends pour avoir ta récompense. Et du coup, je parlais d'un autre intérêt d'enlever systématiquement : elle a appris dès le début que l'objet devait repartir, ce qui a éviter d'obtenir un : je pose mes doigts autour du légo et je ne le lâche plus ! Ce type de petites nuances peuvent poser d’énormes difficultés. C’est pourquoi on peut les intégrer au tout début, presque comme un "pré-requis".
Une fois que nous avons ce premier résultat qui est simplement une première étape, il est possible d’arrêter la séance. C’est ce qu’il se passe ici et nous avons une seconde vidéo que je vous laisse regarder.
Donc on attaque une nouvelle session et on commence par vérifier ce que l'on avait appris. Comme c'est déjà compris, y'a beaucoup moins d'erreur et ça va vite. C’est important de ne pas oublier cette étape, au risque de régresser dans le cas contraire.
Ensuite elle va chercher un autre objet et le ramène puis re-propose le légo. Comme la personne a appris à toucher le légo, elle touche le légo et ignore l'autre objet ce qui est récompensé. L'objet bouge, mais la personne choisit le légo à chaque fois. Puis la personne qui click introduit un autre objet mais ce coup-ci plus petit que le premier et d'une couleur proche du légo et on peut voir le moment de doute de la personne avant qu'elle ne touche le légo... L’exercice se complique. Elle a ralenti mais à fait le bon choix, puis elle décide de tester quand même et touche l'autre objet. Rien ne se passe : ce n'est pas ce qui est attendu.
C'est l'une des particularités de l'éducation positive. L'individu qui réfléchit est invité à tester. Rien de grave ne se produit. Au pire, il se loupe et n'aura pas sa récompense. Ce n'est pas grave, il peut tenter. Et c'est ça qui va nous permettre parfois d'aller très vite car l’individu en testant va proposer pleins de choses intéressantes.
A l'introduction de nouveaux objets de "même type", petit, même couleur, la personne a tendance à vouloir vérifier. Ils rentrent dans "la même catégorie". C'est normal ! Et la curiosité joue également son rôle.
Une fois que c'est clair : c'est ce légo est seulement ce légo que l'on touche, elle intègre une autre donnée. C'est ce légo, ce n'est pas une question de position. Il peut être placé n'importe où, c'est ce lego qui est intéressant.
Fin de la seconde vidéo et on commence à voir l'intérêt de l'exercice. On est sur de la discrimination d'objet. Et ça, c'est un "jeu" que l'on retrouve avec les chiens qui permet de les faire réfléchir et de leur apprendre certaines choses.
Notre chaîne est presque fini mais il manque une étape importante. Donc on reprend. Au départ, la personne ne savait pas quoi faire du légo. Maintenant elle sait qu'il faut le toucher -où qu'il soit- puis le lâcher et ne pas s'intéresser aux autres objets.
Nouvelle séance : on intègre un signal ici c'est une image d'étoile. Alors ce signal, c'est un ordre et là, l'intérêt de tout l'exercice va devenir beaucoup plus clair.
Elle intègre l'étoile puis le légo, comme pour la discrimination d'objet, donc la personne touche le légo. Puis, elle ne retire plus le légo. Elle enlève uniquement l'étoile et l'étoile devient la commande "on reprend l'exercice, tu peux toucher le légo".
Du coup maintenant la personne sait que si elle voit l'étoile elle doit toucher le légo. Une application pratique de ce type d’exercice chez les chiens. L’ordre "clef" : le chien cherche les clefs ... Ici la différence serait dans le type de code puisqu’on a tendance à utiliser un mot ou un geste au lieu d'une image, mais tout et n'importe quoi peut devenir un code. Donc, on a notre code "clef", on a notre discrimination d'objet : toucher la clef où qu'elle soit et il n'y a plus qu'à la chercher !
Ça se fait plus couramment avec des jouets, le chien devant aller chercher "la peluche" et pas "la balle" ou "le frisbee" si on le demande.
Donc si on reprend. Nous avons vu la chaîne suivante : Tu touches (et tu lâches) -> tu touches uniquement cet objet -> tu le touches où qu'il soit -> tu le touches quand je le demande.
Cette chaîne est relativement simple à concevoir car elle se déroule dans l’ordre. Par exemple si je désire emmener un chien à toucher une cible, je peux concevoir une chaîne comme celle-ci : Tu regardes la cible -> Tu avances vers la cible -> Tu touches la cible.
Ce n’est pas la seule conception de chaîne possible, il en existe des plus complexes. Généralement on les utilise car elles rendent les choses plus simples pour celui qui cherche à "résoudre l’énigme".
J’ai également trouvé une autre vidéo qui est intéressante car la chaîne est plus complexe. Voici la vidéo :
Donc je vous propose d’essayer de décrire la chaîne au fur et à mesure. Nous commençons directement avec un apprenant qui connait click = récompense et qui sait qu’il doit tester. L’air de rien, ceci est une espèce de règle qui va amener les deux individus à pouvoir jouer autour de l’apprentissage de façon plus ou moins fluide.
La personne doit toucher le dé. Au début, toucher suffit et rapidement le niveau d’exigence augmente. Il ne faut pas juste toucher mais le déplacer, puis le jeter. Dès que cette chaîne est comprise, un signal est intégré. Ici ce ne sera pas une image d’étoile mais une carte. Carte = jette le dé.
Nous avons donc cette première chaîne : Touche le dé -> bouge le dé -> prend le dé et jette le -> jette le dé sur commande. Nous pouvons la voir comme un "pré-requis". C’est un bout de notre exercice complet, mais ce n’est pas notre véritable finalité.
A ce moment-là, le dé disparaît au profit d’un tube. Ce tube va être un objet transitoire. Il ne servira à rien à la fin, il n’est là que pour apprendre un mouvement. L’apprenant re-teste pour voir ce qu’il faut faire de cet objet. On peut voir que l’on repart d’une chaîne à 0. Touche l’objet entraîne le click et donc la récompense. On peut également observer des essais infructueux comme "faire tourner le tube" puis viens la réussite : faire rouler le tube.
A présent, un second objet est ajouté. C’est également un objet transitoire. Il sert de cible, le but : faire rouler le tube jusqu’à ce qu’il touche la cible qui se trouve toujours au même endroit. Une fois l’exercice compris, nous avons l’intégration du signal : montrer le "1" du dé entraîne pousser le tube en direction de la cible.
Nous avons donc cette petite chaîne : Touche le tube -> Fait rouler le tube -> Fait rouler le tube jusqu’à la cible -> Fait rouler le tube jusqu’à la cible quand je montre "1".
En suivant, la cible se déplace et le code change pour indiquer "3". L’apprenant tente de reproduire ce qu’il sait faire : faire rouler jusqu’à la cible et obtient son click = récompense. Donc très vite, il apprend 2 codes différents, le code "1" et le code "3". A ce moment-là il n’y avait qu’une seule cible, une seconde est ajoutée pour vérifier que les codes sont acquis.
Puisqu’ils le sont visiblement, il y a l’introduction d’une troisième cible et le retrait du signal. Il n’est plus demandé "1" ou "3" mais la personne attends juste que l’autre teste... Le test est rapidement concluant car il a déjà appris à pousser vers les cibles. Les autres sont codés, celle la non, ça va très vite. Le signal est donc ajouté, il s’agit du "2". Puis l’opération recommence pour obtenir le code du "4". En suivant nous avons de nouveau une opération de vérification des codes. Ce sont vraiment des étapes importantes pour s’assurer que l’on ne va pas trop vite.
Une fois les codes acquis, la personne qui utilise le clicker retire les cibles puis redemande "1", "2", "3" et "4" avec le tube seul.
La chaîne s’est donc allongée jusqu’à l’intégration des 4 signaux et nous retirons les cibles pour ne garder que le mouvement. Cette étape étant comprise, la personne retire le tube et donne le dé. Elle sort la carte, ce qui revient à notre première chaîne. L’apprenant envoie donc le dé. Ceci étant vérifié, on combine à présent les deux chaînes. Le dé est posé et montre "1".
La personne pousse le dé dans la direction de "1", comme il le faisait avec le tube. Il obtient son click = récompense.
A ce moment-là, la personne qui utilise le clicker augmente la difficulté. Elle montre la carte. L’apprenant envoie le dé et rien ne se passe. Cette petite attente est utilisée pour forcer la personne qui teste à aller plus loin. Ici, elle va regarder le chiffre et pousser le dé dans la direction indiqué. C’était la finalité de l’exercice, les derniers clicks sont uniquement employés pour le confirmer.
Du coup, nous avons eu 2 chaînes distinctes qui ont été ensuite reliées et des objets transitoires qui ont permis d’apprendre les commandes de mouvements. Ceci est une chaîne relativement complexe à mettre en place car il faut que la personne qui manie le clicker sache réellement où elle veut aller et comment elle veut y aller. Cela peut paraître simple mais ce type de travail peut aussi demander d’être capable de s’adapter en temps réel si la personne en face ne propose pas ce que l’on attend ou pas dans le même ordre.
Voilà, nous avons fait les 4 vidéos que j’avais proposé pour découvrir un peu le PORTL et le shaping. J’espère que les explications ont pu vous aider si certains points étaient flous. N’hésitez pas à tester, amusez-vous et dites-moi si ce type d’articles vous plait ! Il y a d’autres vidéos de shaping que je pourrais essayer de commenter de cette façon pour décrypter un petit peu comment le travail a été mis en place.