Principal Services De Diffusion En Continu L'IA apprend à tricher à Q*bert d'une manière qu'aucun humain n'a jamais fait auparavant

L'IA apprend à tricher à Q*bert d'une manière qu'aucun humain n'a jamais fait auparavant



Une IA a réussi à tricher avec le meilleur de l'humanité après avoir découvert un exploit dans le jeu d'arcade classique Q*bert et l'avoir utilisé.

Alors que les précédentes itérations de l'IA jouaient correctement à Q*bert, à un moment donné de son apprentissage du fonctionnement du jeu, il découvre un exploit qui lui permet d'accumuler des points insensés. Naturellement, comme le ferait tout joueur de chasse au score, il répète le processus afin de pouvoir augmenter son score de la manière la plus efficace possible.

Vous pouvez voir l'IA se frayer un chemin autour des plates-formes dans la vidéo ci-dessous. Au début, on dirait qu'il saute sans but entre les plates-formes. Au lieu de voir le jeu progresser jusqu'au tour suivant, Q*bert se retrouve coincé dans une boucle où toutes ses plates-formes commencent à clignoter – c'est ici que l'IA peut alors se lancer dans une frénésie de score en accumulant d'énormes points.

LIRE SUIVANT: L'un des records de jeu les plus controversés a finalement été discrédité

¿Qué significa sb en la historia de Snapchat?

Comment l'IA a gagné la guerre Q*bert

Battant le record de tous les temps pour le titre, l'IA a enregistré un score incroyablement élevé grâce à sa programmation d'algorithmes de stratégie d'évolution. Les stratégies d'évolution (ES) diffèrent de l'apprentissage par renforcement (RL) habituel utilisé par l'IA traditionnelle car elle est considérée comme plus évolutive en raison de son apprentissage générationnel.

Chaque boucle d'apprentissage est appelée génération et continue sa tâche jusqu'à ce qu'une condition définie soit remplie (dans ce cas, un score élevé). À chaque génération successive, l'IA absorbe les connaissances de la génération précédente et parvient donc mieux à atteindre le même objectif et à le dépasser. Continuez et vous vous retrouverez avec une IA absolument inégalée dans sa tâche. C'est exactement ce qui s'est passé ici avec le score Q*bert.

Décrit dans le papier , publié la semaine dernière par des chercheurs de l'Université de Fribourg, en Allemagne, il semble que le bogue n'était pas une quantité connue. En fait, même s'ils ne sont pas trop surpris de trouver le bogue, il est intéressant de voir comment l'IA est ensuite allée de l'avant et a appris à l'exploiter à chaque fois qu'elle jouait pour maximiser son potentiel de score.

LIRE SUIVANT: Cette intelligence artificielle a appris à maîtriser Super Mario Bros

Pour trouver le bogue, l'agent a d'abord dû apprendre à presque terminer le premier niveau - cela n'a pas été fait en une fois mais en utilisant de nombreuses petites améliorations, ont expliqué les chercheurs à Le registre . Nous soupçonnons qu'à un moment donné de la formation, l'une des solutions de progéniture a rencontré le bogue et a obtenu un score bien meilleur par rapport à ses frères et sœurs, ce qui a à son tour augmenté sa contribution à la mise à jour – son poids était le plus élevé de la moyenne pondérée. Cela a lentement déplacé la solution dans l'espace où de plus en plus de descendants ont commencé à rencontrer le même bogue.

Nous ne connaissons pas les conditions précises dans lesquelles le bug apparaît ; il est possible qu'il n'apparaisse que si l'agent suit un schéma qui semble sous-optimal, [par exemple lorsque l'agent perd du temps, voire perd une vie]. Si tel était le cas, il serait alors extrêmement difficile pour le RL standard de trouver le bogue : si vous utilisez des récompenses incrémentielles, vous apprendrez des stratégies qui rapportent rapidement une certaine récompense, plutôt que des stratégies d'apprentissage qui ne rapportent pas beaucoup de récompenses pendant un certain temps et puis soudainement gagner gros.

Voir connexes Le champion de dragster Todd Rogers vient de perdre sa couronne après 35 ans Cette intelligence artificielle apprend à maîtriser Super Mario Bros 1-2 depuis 17 jours Regardez cette IA apprendre à conduire dans GTA V sur Twitch

Cependant, malgré les merveilleux résultats du bot, les chercheurs ne disent pas que c'est un cas pour défendre l'apprentissage ES sur RL. En fait, les deux systèmes ont leurs propres problèmes et une combinaison des deux est largement considérée comme la meilleure option pour aller de l'avant.

La même méthode ES sur d'autres jeux Atari n'a pas donné les mêmes résultats positifs. D'autre part, RL est responsable d'avoir battu des records à gauche, à droite et au centre, notamment en battant le meilleur joueur de GO du monde. ES a toujours sa place dans les choses, et c'est en fait la façon dont Nvidia effectue une grande partie de sa formation en IA car elle nécessite plus de puissance de calcul mais obtient de meilleurs résultats sur une plus longue période de temps.

Quelle que soit la voie qui deviendra l'avenir du développement de l'IA, au moins ce bot qui trompe le système n'est pas aussi mauvais que cela champion du monde de jeu vidéo désormais en disgrâce .

Des Articles Intéressants

Choix De L'Éditeur

Comment trouver un groupe dans WhatsApp
Comment trouver un groupe dans WhatsApp
Les groupes WhatsApp sont d'excellents moyens de partager des nouvelles et de réunir amis et famille. Ils peuvent également être une excellente source d'informations sur votre marque ou votre blogueur préféré. Mais si vous êtes nouveau sur WhatsApp ou pas particulièrement technique
Comment enregistrer des messages texte sur iPhone
Comment enregistrer des messages texte sur iPhone
Il n'existe pas de moyen simple d'enregistrer des messages texte sur l'iPhone, mais vous pouvez enregistrer vos messages ou fils de messages avec ou sans horodatage.
Microsoft désactive la fonctionnalité RemoteFX vGPU à partir de juillet 2020
Microsoft désactive la fonctionnalité RemoteFX vGPU à partir de juillet 2020
Parallèlement aux mises à jour d'aujourd'hui, Microsoft a annoncé que la fonctionnalité RemoteFX vGPU sera désactivée pour les machines virtuelles Hyper-V. Microsoft avait trouvé une vulnérabilité sérieuse dans cette fonctionnalité, elle sera donc désactivée à partir de maintenant. La fonctionnalité vGPU pour RemoteFX permet à plusieurs machines virtuelles de partager un GPU physique. Rendu et calcul
Détails de Linux Mint 20 et LMDE 4 révélés
Détails de Linux Mint 20 et LMDE 4 révélés
L'équipe derrière la populaire distribution Linux Mint a fait une nouvelle annonce, révélant ce que les utilisateurs peuvent attendre des prochains Linux Mint 20 et LMDE 4, une édition du système d'exploitation basée sur Debian. Linux Mint 20 sera basé sur Ubuntu 20.04 LTS, une autre grande et populaire distribution Linux. Il héritera de toutes les améliorations apportées
Comment déplacer un dossier Dropbox
Comment déplacer un dossier Dropbox
Lorsque vous installez l'application de bureau Dropbox, vous accédez à votre dossier Dropbox directement depuis votre système d'exploitation. En avoir un est pratique pour de nombreuses raisons - par exemple, cela peut s'avérer inestimable lorsque vous perdez soudainement Internet
Comment trouver des chaînes sur Telegram
Comment trouver des chaînes sur Telegram
Bien que Telegram existe depuis plusieurs années maintenant, c'est toujours une application de messagerie en herbe qui a pris d'assaut le monde. L'application est gratuite, rapide et prétend être l'un des messagers les plus sûrs. Il permet
Comment réinitialiser le LeapFrog Tag Junior aux paramètres d'usine ?
Comment réinitialiser le LeapFrog Tag Junior aux paramètres d'usine ?
LeapFrog Tag junior est un appareil interactif qui permet à votre enfant d'écouter un livre d'images en appuyant sur l'appareil sur une certaine page. Comme il est extrêmement simple à utiliser, même pour un tout-petit, il s'agit d'un