Глибоке 'зміцнення навчання' є викладання роботів Нові навички швидше, ніж коли-небудь

Роботи навчаються виконувати завдання у швидких віртуальних світах, розвиваючи навички протягом декількох годин, які могли б зайняти кілька місяців. Симульоване навчання глибокого підкріплення (або Deep RL) означає майстерність, яка зазвичай займає 55 днів для A.I. Вчитися в реальному світі займає лише день у гіпер-прискореному класі.

"Це має потенціал, щоб дійсно революціонізувати те, що ми можемо зробити в області робототехніки", - заявила вчора дослідник з DeepMind Рая Хадселл на саміті Re-Work Deep Learning Summit у Лондоні. "Ми можемо навчитися навичкам людського рівня".

Можливо, це звучить контр-інтуїтивно, тому що, напевно, вся робота полягає в тому, що програмісти можуть навчити їх робити речі, правда? Проте, при розробці машини, що працює в реальному світі, роботам потрібна велика кількість даних, щоб зрозуміти, як зробити завдання в незнайомій ситуації. A.I. можуть використовувати ці дані для "вивчення" уміння, заснованого на всіх випадках, які були раніше.

Навчання з глибокого підкріплення збирає ці дані подібно до того, як люди вчаться: робот буде виконувати завдання багато разів, як ловити м'яч, і записувати дані, щоб створити картину того, як краще зловити м'яч у новій ситуації. Коли DeepMind використовувала цю модель в 2013 році, щоб навчити робота, як оволодіти іграми Atari, просто засипавши її перед екраном і сказавши йому про кінцеву мету, наукове співтовариство любило його.

Проблема в тому, що це займає назавжди. Потрібно неодноразово кидати м'ячі у робота, або у випадку з Atari, залишити робота на самоті у своїй спальні на деякий час. Запускаючи симуляцію MuJoCo, в поєднанні з прогресивною нейронною мережею, тренери можуть запускати програму, яка імітує робота, передає вивчену поведінку роботові і відображає віртуальні рухи в реальний світ.

"Ми можемо керувати цими тренажерами цілий день і всю ніч", - сказав Хадселл.

Результати говорять самі за себе. Цей робот, який отримав свій диплом у лові, може тепер стежити за віртуальними м'ячами, як якщо б вони були реальними, доводячи його до великого дня, коли просять зловити справжній м'яч:

"Полювання на трейлер Wilderpeople" демонструє нові навички режисера Тора

Taika Waititi є трохи легенди у його рідній Новій Зеландії - але не, люблять, Петро Джексон легендарний. Він більше нагадує легендарний "Політ". Тим не менш, він вирізав собі приємну, примхливу комедійну нішу для фільмів, таких як Eagle vs. Shark, Boy (який є найвищою грошовою одиницею нової Zeala ...

Коли ти відчуваєш себе нікчемним: як відскочити сильніше, ніж будь-коли

Будь то від розриву чи листа про відмову, коли ви відчуваєте себе нікчемним, відмовитися назад може бути важко. На щастя, ми тут, щоб допомогти.

Як завести більше друзів, коли почуваєш себе самотніше, ніж будь-коли

Можливо, вам не потрібен партнер, щоб бути щасливим, але вам потрібна дружба. Дізнайтеся, як завести більше друзів, коли ви відчуваєте себе самотнім. Ви будете раді, що зробили.

$config[ads_kvadrat] not found