Глибоке 'зміцнення навчання' є викладання роботів Нові навички швидше, ніж коли-небудь

$config[ads_kvadrat] not found
Anonim

Роботи навчаються виконувати завдання у швидких віртуальних світах, розвиваючи навички протягом декількох годин, які могли б зайняти кілька місяців. Симульоване навчання глибокого підкріплення (або Deep RL) означає майстерність, яка зазвичай займає 55 днів для A.I. Вчитися в реальному світі займає лише день у гіпер-прискореному класі.

"Це має потенціал, щоб дійсно революціонізувати те, що ми можемо зробити в області робототехніки", - заявила вчора дослідник з DeepMind Рая Хадселл на саміті Re-Work Deep Learning Summit у Лондоні. "Ми можемо навчитися навичкам людського рівня".

Можливо, це звучить контр-інтуїтивно, тому що, напевно, вся робота полягає в тому, що програмісти можуть навчити їх робити речі, правда? Проте, при розробці машини, що працює в реальному світі, роботам потрібна велика кількість даних, щоб зрозуміти, як зробити завдання в незнайомій ситуації. A.I. можуть використовувати ці дані для "вивчення" уміння, заснованого на всіх випадках, які були раніше.

Навчання з глибокого підкріплення збирає ці дані подібно до того, як люди вчаться: робот буде виконувати завдання багато разів, як ловити м'яч, і записувати дані, щоб створити картину того, як краще зловити м'яч у новій ситуації. Коли DeepMind використовувала цю модель в 2013 році, щоб навчити робота, як оволодіти іграми Atari, просто засипавши її перед екраном і сказавши йому про кінцеву мету, наукове співтовариство любило його.

Проблема в тому, що це займає назавжди. Потрібно неодноразово кидати м'ячі у робота, або у випадку з Atari, залишити робота на самоті у своїй спальні на деякий час. Запускаючи симуляцію MuJoCo, в поєднанні з прогресивною нейронною мережею, тренери можуть запускати програму, яка імітує робота, передає вивчену поведінку роботові і відображає віртуальні рухи в реальний світ.

"Ми можемо керувати цими тренажерами цілий день і всю ніч", - сказав Хадселл.

Результати говорять самі за себе. Цей робот, який отримав свій диплом у лові, може тепер стежити за віртуальними м'ячами, як якщо б вони були реальними, доводячи його до великого дня, коли просять зловити справжній м'яч:

$config[ads_kvadrat] not found