Алгоритм, який освоїв "понг" тепер відмінно в "Flappy Bird", все ще одномісний

$config[ads_kvadrat] not found

Как справиться со стрессом?

Как справиться со стрессом?
Anonim

Вдосконалення методу глибокого навчання Понг, Космічні загарбники і інші ігри Atari, студент комп'ютерних наук Стенфордського університету Кевін Чен створив алгоритм, який є досить хорошим у класичному скроллері 2014 року Flappy Bird. Чень використовує концепцію, відому як "q-learning", в якій агент прагне поліпшити свою винагороду за кожну ітерацію гри, аби поліпшити практично неможливу і неможливу захоплюючу гру.

Чень створив систему, в якій його алгоритм був оптимізований, щоб шукати три нагороди: невелику позитивну винагороду за кожен кадр, що залишився в живих, велику винагороду за проходження труби і настільки ж велику (але негативну) винагороду за вмирання. Настільки мотивована так звана глибока мережа може переграти людей, згідно з доповіддю Chen: «Ми змогли успішно грати в гру Flappy Bird навчання безпосередньо з пікселів і оцінка, досягнення супер-людських результатів."

Оригінальна стаття Atari, опублікована в 2015 році в Росії Природа, прийшла з компанії Google, що належить компанії DeepMind (тепер вона відома своєю майстерністю в давній китайській настільній грі Go). Досягнення DeepMind було проривом у тому, що вона потребувала візуальної - або піксельної, принаймні - інформації, і, з мінімальним вкладом, могла максимізувати винагороду. Така система винагороди була порівняна з дофамінергічною реакцією головного мозку, просто спрощеною.

Це не перший раз, коли алгоритм завойовує птаха, що пхає: Раніше клас студентів комп'ютерних наук Стенфордського університету створив програму, яка під час навчання пройшла ніч, її оцінка покращилася з 0 до 1600.

$config[ads_kvadrat] not found