L’IA obtient le score ultime à Miss Pac-Man
Comment permettre à une IA à répondre à des situations imprévisibles et difficiles à résoudre par des méthodes classiques ? En divisant le problème en plusieurs sous-problèmes et en assignant une IA à chacun.
C’est la méthode employée par une équipe de recherche de Microsoft issue de la start-up Maaluba, spécialisée dans le deep learning, sur un objet de recherche un peu particulier : Miss Pac-Man. Ce jeu d’arcade propose des situations très difficiles à prévoir, même pour une IA bien entraînée, ce qui en fait un objet d’étude intéressant. Et les chercheurs ont réussi à atteindre le score maximum, dépassant de très loin celui des meilleurs joueurs humains.
Pour réaliser cette prouesse, ils ont utilisé le reinforcement learning (apprentissage par renforcement) et un réseau de neurones artificiels pour entraîner leurs IA. Ils ont attribué à chacune d’entre elles – 150 IA au total – un élément (gomme, fantôme, Ms. Pac-Man…) . Chaque IA a donc un seul but, précis : manger les boulettes, éviter les fantômes… Chaque IA tente donc d’optimiser le déplacement de Ms. Pac-Man pour atteindre ce but et obtenir une récompense, sans se soucier des objectifs des autres IA.
A LIRE AUSSI » Comment l’IA donne des yeux aux machines
En parallèle, une IA « centrale », sorte de manager de l’équipe, coordonne les mouvements. Eviter de se faire manger par un fantôme est ainsi plus important, donc plus pris en compte, que de manger une gomme supplémentaire.
Cette méthode, calquée sur le fonctionnement du cerveau humain, pourrait avoir de larges implications pour apprendre à une IA à réaliser des tâches complexes avec une information limitée.
La nouvelle méthode de reinforcement learning, appelée Hybrid Reward Architecture, pourrait rapidement trouver des applications très concrètes, par exemple dans le domaine commercial. Pour prévoir le moment optimal pour contacter un client, on pourrait ainsi imaginer un système dans lequel chaque IA représente ce client, avec une IA « manager » pondérant des facteurs tels que le renouvellement de contrats, leurs valeurs pour l’entreprise, et la probabilité que le client soit au bureau. Avec à la clé plus de temps libre pour les responsables des ventes, qui pourront concentrer leur attention sur les clients les plus réceptifs.