Škola hrou: Umělá inteligence se sama učí metodou pokus-omyl

Foto: Shutterstock

Čas na přečtení: 2 min

Představte si počítačovou hru, ve které hraje počítač sám proti sobě. Postavička, které se ve hře říká “agent”, je řízena strojovým učením a musí sám před sebou nejprve ukrývat a následně hledat nejrůznější předměty. Umělá inteligence se díky tomu učí, jak funguje svět.

Podrobnosti: Klára Ponczová; 5. červenec 2021

Metodou pokus-omyl a nahlížení situací z různých úhlů, pak agenti neustále zdokonalují své strategie. V 50. letech 20. století se sociolog Jean Piaget zabýval průkopnickými studiemi kognitivního vývoje. Na to v současnosti navazují vědci z Allenova institutu pro AI (AI2), kteří dokázali AI naučit jeden z Piagetových vývojových konceptů, konkrétně ten o trvalosti objektu.

Maminka neumřela, jen se schovala

Jde o porozumění tomu, že objekt skrytý před naším zrakem, stále existuje, i v případě, kdy jej zrovna nevidíme. U lidí se toto chápání rozvíjí postupně, proto se malé děti tolik radují, když si maminka zakryje obličej dlaněmi se slovy: “Kdepak je maminka?” A následně jej opět odkryje s radostným výkřikem: “Tady je!” “Znovuobjevení” maminky totiž pro dítě znamená něco jako její “znovuzrození”. Ještě vteřinu zpátky bylo totiž bytostně přesvědčené o tom, že mu maminka ze světa nadobro zmizela.

Hra na schovávanou, kterou vědci nazvali “Cache” neboli “Schovka”, se odehrávala v simulovaném, ale docela realistickém 3D domě. Tam museli “agenti” před jinou verzí sebe samých skrývat například záchodový zvon, rajčata, bochníky chleba, šálky nebo nože.

Metoda pokus-omyl

3D prostředí, o kterém agenti na začátku nic nevěděli, prozkoumávali náhodnými akcemi metodou pokus-omyl. Zkoušeli třeba zatáhnout za šuplík nebo za nepohyblivou zeď. Zároveň předměty, které měli za úkol schovat, umisťovali na zcela náhodná a nepromyšlená místa.

K výraznému zlepšení u nich došlo v okamžiku, kdy hráli proti jiné verzi sebe samých a učili se z výsledků - tedy pokud “hledající” nenašel rajče, pak ten, kdo ho schovával, věděl, že vymyslel dobrý úkryt.

Sebezkušenostní učení

Tým AI2 věří, že právě tím, že nechají roboty ve hře Cache si jen tak “hrát”, se všechno po čase naučí sami. Chápání “agentů” toho, jak objekty ve hře fungují v čase a prostoru, může být později pro skutečné roboty užitečné.

V dohledné době však podobné robotické experimenty ve skutečném světě vědci neplánují. “”Agenti” se učí tím, že dělají náhodné věci,” říká Roozbeh Motaghi, vedoucí výzkumu v AI2 a dodává: “Jen si představte ten zmatek, který by mohl způsobit darebácký robot prohánějící se neustále tam a zpátky po laboratoři se záchodovým zvonem.”

ZDROJ

Škola hrou: Umělá inteligence se sama učí metodou pokus-omyl

Maminka neumřela, jen se schovala

Metoda pokus-omyl

Sebezkušenostní učení

Nemáte oprávnění vkládat komentáře