Depuis une dizaine d’années, on assiste à un développement sans précédent de l’intelligence artificielle (cf. Les promesses de l’intelligence artificielle). Afin de comprendre comment de tels exploits sont possibles, il faut s’intéresser notamment aux algorithmes d’apprentissage automatique ou machine learning.
Certes, la puissance de calculs croissante des ordinateurs a permis l’exécution d’algorithmes de plus en plus complexe, mais ce n’est que lorsque ces algorithmes se sont enrichis de modèles statistiques que le vrai potentiel d’une intelligence artificielle a été libéré. Aujourd’hui, il existe une quantité astronomique de modèles statistiques, chacun avec ses avantages et ses inconvénients. L’atout majeur à une telle prolifération de modèles réside dans la possibilité de créer plusieurs représentations différentes d’un même problème. Conséquemment, un modèle s’appliquant dans un contexte ne s’applique pas forcément dans un autre. L’art de la science de la donnée repose notamment dans la découverte de patterns favorisant l’utilisation d’un modèle plutôt qu’un autre.
Selon la fameuse définition de Mitchell (1997), on dit qu’un algorithme apprend de son expérience à une tâche lorsque sa performance à cette tâche s’améliore avec l’expérience. Pour de tels algorithmes, l’expérience prend en général la forme de données informatisées. Par ailleurs, un algorithme a besoin d’une mesure de sa performance pour apprendre. Cette mesure se traduit souvent par la minimisation d’un taux d’erreurs. Ainsi, pour une tâche donnée, ces algorithmes d’apprentissage automatique ou machine learning utilisent des données afin de minimiser de façon automatique et optimal leurs taux d’erreurs. Conséquemment, il n’y a pas vraiment d’intelligence ou d’apprentissage au sens biopsychologique du terme, mais uniquement un problème d’optimisation à résoudre. Les scientifiques de la donnée classent les algorithmes dans trois grandes catégories en fonction de la tâche à exécuter qui contiennent elle-même des sous-catégories.
Apprentissage supervisé
La plupart des tâches d’intelligence artificielle sont réalisées à l’aide d’algorithmes d’apprentissage automatique dit supervisés. Ces algorithmes simulent en quelque sorte un apprentissage avec un enseignant ou un expert. Si on décompose leurs fonctionnements, dans un premiers temps ces algorithmes doivent apprendre à réaliser la tâche avec des données d’entrainement. Ce n’est que dans un deuxième temps que le modèle sera capable de faire des prédictions.
Par exemple, Stitch Fix® une entreprise californienne offrant un service de style personnel pour leurs clients se démarque de sa concurrence à l’aide de leur intelligence artificielle. Pour bénéficier de leurs services, il faut dans un premier temps remplir un questionnaire sur nos goûts et préférences. Un algorithme va ensuite recommander à un styliste des articles de mode afin qu’il fasse la sélection pour son client (cf. How one clothing company blends AI and human expertise). Cette tâche se prête bien à une modélisation avec un algorithme supervisé. Dans un tout premier temps, il est nécessaire de réconcilier les données historiques des transactions avec que les réponses aux questionnaires des clients. En mettant en liens ces données, on obtient un jeu de données avec lequel on sait pour chaque personne et chaque produit si la personne l’a acheté ou renvoyé. Afin d’utiliser un algorithme d’apprentissage supervisé, il est primordial d’avoir un tel jeu de données d’entrainement. Lors de la phase d’apprentissage, l’algorithme va essayer de découvrir des patterns dans ces données d’entrainement afin de maximiser la probabilité de recommander les bons articles aux clients. Dans un deuxième temps, l’algorithme va exploiter les patterns qu’il a découvert afin de prédire sur de nouvelles données quelles articles vont plaire ou non au client.
L’exemple ci-dessus illustre le cas d’un algorithme de classification automatique, car notre prédiction n’a qu’un nombre fini de modalités, l’article va plaire ou ne pas plaire. Cependant, une démarche similaire peut être utilisée pour prédire des valeurs continues, par exemple le prix de votre voiture après 100’000 km. Dans ce cas, on parle alors de régression.
Apprentissage non supervisé
Les algorithmes d’apprentissage automatique non supervisés sont utilisés pour répondre à des problèmes très différents des précédents. En général, les questions auxquelles ils peuvent répondre sont des questions ouvertes où il n’y a pas de « bonne » réponse. Il existe plusieurs sous-catégories d’algorithmes de machine learning non supervisés. La plus connue est probablement celle composée d’algorithmes de clustering. Ces algorithmes visent à partitionner les données en groupes contenant des individus « similaires ». Pour ce faire, ces algorithmes ont besoin d’une notion de distance entre deux lignes de données. Par exemple, il va être assez naturel de grouper des données selon des critères de similarités comme l’âge, ou la taille. En revanche, il est moins évident d’identifier une distance entre le goût de deux Whiskey (cf. article de Lapointe et Legendre (1994)) ou encore deux langues européennes (cf. Lexical distance among languages of Europe).
Apprentissage par renforcement
La dernière grande famille de machine learning est celles des algorithmes d’apprentissage automatique par renforcement. Ces modèles sont inspirés de l’approche béhavioriste de la psychologie et de l’apprentissage. Au début du 20e siècle, les psychologues Américains comme Watson, Thorndike, Skinner et Pavlov rejettent l’étude des processus mentaux selon l’approche introspective. Ils déclarent que ces derniers ne peuvent être étudié objectivement et que seul les comportements mesurables et observables peuvent et doivent l’être. Leurs travaux sur l’apprentissage mettent en lumière les liens entre une situation (ou stimulus), une réponse comportementale et sa conséquence. De façon schématique:
Stimulus \( \longrightarrow \) Réponse \( \longrightarrow \) Conséquence.
Thorndike postule l’existence de lois d’apprentissages. La loi de l’exercice stipule que la liaison entre stimulus et réponse est renforcée par l’exercice et que la probabilité de réponse augment avec le nombre d’essais effectuées. Par ailleurs, la loi de l’effet stipule que la liaison entre le stimulus et la réponse est renforcée ou affaiblie par l’effet immédiat de ses conséquences.
Sans aller dans les détails, ces algorithmes de machine learning par renforcement implémentent ces lois d’apprentissages. Ils vont ainsi optimiser leurs actions (réponses) à des situations (stimulus) à l’aide d’une fonction de récompense (conséquence). Mnih et al. (2013) ont élaboré un algorithme d’apprentissage automatique par renforcement utilisant un réseau neuronal convolutif. La vidéo ci-dessous illustre la performance de leur algorithme au jeu Breakout d’Atari®.