Najnowszy agent sztucznej inteligencji Google uczy się poruszać w znajomym środowisku: grach.
W środę gigant technologiczny opublikował nowe badania dotyczące swojego Scalable Multi-World Agent (Scalable Multi-World Agent, w skrócie SIMA). Ten agent może wykonywać polecenia, aby wykonywać zadania w grach wideo i grać w gry, których nigdy wcześniej nie widziano.
Jednak podobnie jak Genie, o którym DeepMind, dział Google zajmujący się badaniami nad sztuczną inteligencją, omówił w artykule opublikowanym 23 lutego, SIMA jest projektem badawczym.
„W przyszłości moglibyśmy mieć agentów takich jak SIMA grających razem z Tobą” – powiedział Tim Harley, inżynier ds. badań w DeepMind, który był współkierownikiem projektu. „Pomocni agenci, z którymi możesz porozmawiać i których możesz polecić, aby robili z tobą różne rzeczy w grze, gdziekolwiek jesteś”.
DeepMind twierdzi, że jego zainteresowanie grami wideo wynika częściowo z faktu, że są one dobrym poligonem szkoleniowym dla systemów sztucznej inteligencji. Firma zajmująca się sztuczną inteligencją ma nadzieję, że tego typu badania pozwolą jej „zrozumieć, w jaki sposób systemy sztucznej inteligencji mogą stać się bardziej przydatne”.
Odkąd OpenAI wypuściło ChatGPT w listopadzie 2022 r., rynek został zalany generatywnymi narzędziami AI firm Microsoft, Google, Adobe, Meta i Anthropic. Ostatnio generatywna sztuczna inteligencja rozszerzyła się poza pisanie i objęła zdjęcia, wideo, muzykę i oczywiście gry, ponieważ firmy technologiczne starają się różnicować swoje oferty w tej rozwijającej się przestrzeni.
cele badawcze
Według Harleya SIMA jest przeszkolona do robienia tego, co się jej każe, co niekoniecznie oznacza zwycięstwo.
Początkowo główne pytania badaczy dotyczyły tego, czy agent sztucznej inteligencji może przenosić umiejętności między grami i jak zachowa się w grze, w którą nigdy wcześniej nie grał.
„Cele te są udostępniane przez niektórych użytkowników w darmowym języku naturalnym o otwartym kodzie źródłowym [SIMA] „Działa w środowiskach gier wideo, wykorzystując naturalny interfejs gry” – powiedział Harley. „Agent może monitorować te gry tylko w czasie rzeczywistym, korzystając z ekranu”.
ćwiczenie
Badacze nagrywali obrazy oraz dane wejściowe osób grających za pomocą klawiatury i myszy, a następnie wykorzystali techniki uczenia się przez naśladownictwo, aby nauczyć SIMĘ grać w gry takie jak No Man's Sky, Eco, Teardown i Goat Simulator jak ludzie.
Ocenili agenta pod kątem 600 umiejętności, w tym nawigacji (np. „skręć w lewo”), interakcji z obiektami („wspinaj się po drabinie”) i korzystania z menu („otwórz mapę”) i odkryli, że SIMA radziła sobie lepiej niż specjaliści od gier.
„Może wykorzystywać koncepcje typowe dla gier, aby zdobywać lepsze umiejętności i uczyć się, jak lepiej wykonywać instrukcje” – powiedział Frederic Pace, inżynier ds. badań w DeepMind. „Zaobserwowanie pozytywnego transferu między grami jest kamieniem milowym w badaniu”.
Ale SIMA nie jest idealna.
„Wszystkie błędy, które widzimy, dotyczą dokładnego zrozumienia” – powiedział Harley. „Jeśli więc poprosimy klienta o wycięcie drzewa w Valheim, pojedzie i ściąnie drzewo, ale nie możemy dokładnie powiedzieć, które”.
Niechętnie nazywa wady SIMY „halucynacjami”.
Dodał: „Często to, co widzimy, gdy klient zawodzi… Nie mogę tego nazwać halucynacjami. Jego zachowanie często wydaje się zamierzone, ale nie wykonuje niezbędnych zachowań”.
„Świetny poligon”
DeepMind ma nadzieję w ten sposób poprawić wydajność SIMA, w tym sprawić, że jej agenci będą mogli postępować zgodnie z bardziej szczegółowymi instrukcjami, a ostatecznie opracować systemy sztucznej inteligencji, „które mogą działać w jak największej liczbie środowisk i osiągać różnorodne cele oprócz komunikacji z użytkownikiem. „Powiedział Pace.
Ale nie chodzi tylko o komunikację człowiek-agent w grach.
„Wierzymy, że gry i symulacje ogólnie stanowią doskonały poligon szkoleniowy dla systemów sztucznej inteligencji” – powiedział Pace.
Dzieje się tak częściowo dlatego, że gry są przybliżeniem prawdziwego świata. Charakteryzują się różnorodnością wizualną, a także różnorodnymi ustawieniami, mechaniką i stylami graficznymi. Ale mają też wspólne motywy, takie jak poruszanie się po skomplikowanych przestrzeniach i interakcja z obiektami, postaciami i graczami.
„Zła entuzjasta podróży. Irytująco skromny ćpun internetu. Nieprzepraszający alkoholiczek”.