L’IA obtient le score ultime à Miss Pac-Man

Temps de lecture : 2 minutes

Comment permettre à une IA à répondre à des situations imprévisibles et difficiles à résoudre par des méthodes classiques ? En divisant le problème en plusieurs sous-problèmes et en assignant une IA à chacun.

C’est la méthode employée par une équipe de recherche de Microsoft issue de la start-up Maaluba, spécialisée dans le deep learning, sur un objet de recherche un peu particulier : Miss Pac-Man. Ce jeu d’arcade propose des situations très difficiles à prévoir, même pour une IA bien entraînée, ce qui en fait un objet d’étude intéressant. Et les chercheurs ont réussi à atteindre le score maximum, dépassant de très loin celui des meilleurs joueurs humains.

Replay

Vers un numérique plus durable et soutenable

Découvrez la proposition de Microsoft pour un numérique soutenable et durable traduite en 21 actions.

Visionner le replay

Pour réaliser cette prouesse, ils ont utilisé le reinforcement learning (apprentissage par renforcement) et un réseau de neurones artificiels pour entraîner leurs IA. Ils ont attribué à chacune d’entre elles – 150 IA au total – un élément (gomme, fantôme, Ms. Pac-Man…) . Chaque IA a donc un seul but, précis : manger les boulettes, éviter les fantômes… Chaque IA tente donc d’optimiser le déplacement de Ms. Pac-Man pour atteindre ce  but et obtenir une récompense, sans se soucier des objectifs des autres IA.

A LIRE AUSSI » Comment l’IA donne des yeux aux machines

En parallèle, une IA « centrale », sorte de manager de l’équipe, coordonne les mouvements. Eviter de se faire manger par un fantôme est ainsi plus important, donc plus pris en compte, que de manger une gomme supplémentaire.

 

Cette méthode, calquée sur le fonctionnement du cerveau humain, pourrait avoir de larges implications pour apprendre à une IA à réaliser des tâches complexes avec une information limitée.

La nouvelle méthode de reinforcement learning, appelée Hybrid Reward Architecture, pourrait rapidement trouver des applications très concrètes, par exemple dans le domaine commercial. Pour prévoir le moment optimal pour contacter un client, on pourrait ainsi imaginer un système dans lequel chaque IA représente ce client, avec une IA « manager » pondérant des facteurs tels que le renouvellement de contrats, leurs valeurs pour l’entreprise, et la probabilité que le client soit au bureau. Avec à la clé plus de temps libre pour les responsables des ventes, qui pourront concentrer leur attention sur les clients les plus réceptifs.

A la une

#hololense

Le métavers au service de l’industrie

Alors que le métavers fait progressivement son chemin vers le grand public, il est déjà depuis déjà quelques années une réalité dans le secteur de l’industrie. Des technologies industrielles matures, dont Microsoft et ses partenaires se sont fait une spécialité. Une usine qui prend forme virtuellement avant d’être construite. D’immenses cuves de brassages connectées qui […]

Lire l'article
Etudiant devant un écran

L’adaptive learning change les codes de l’apprentissage

L’adaptive learning s’impose de plus en plus dans les formations, et pour cause : face à la pluralité des profils au sein d’un système scolaire l’adaptive Learning offre des outils pour traiter équitablement l’ensemble des profils d’apprenants. Mais quand est-il vraiment de cette méthode de pédagogie innovante ? Rencontre avec Pascal Bringer, directeur général de Maskott, […]

Lire l'article
Data loss prevention (DLP)

Data Management: tout ce qu’il faut savoir

Les données sont aujourd’hui indissociables des modes de travail et de production des organisations, encore faut-il savoir les gérer de façon efficace et intelligente : c’est ce qu’on appelle le « Data management » ou « gestion des données ». Explorons ce concept ensemble. Sommaire : 1. Présentation du Data Management 2. Explication de la […]

Lire l'article