Як DeepMind розробив Eerily самонавчання А.І. Це може перехитрити людей

Настя и сборник весёлых историй

Зміст:

Як навчати А.І. Навчити себе
Чому Alpa Zero так добре

Комп'ютери б'ють наші крихкі людські дупи на шахи вже кілька десятиліть. Перший раз це сталося в 1996 році, коли Deep Blue компанії IBM змогли зняти чемпіона світу з гарі Гарі Касперова. Але нове дослідження з A.I. Спорядження DeepMind проливає світло на те, наскільки обмежена сфера дії, що дійсно була рання перемога.

З одного боку, Касперов повернувся назад, завоювавши три гри і двічі розігравши в шести матчах, за старими Щоденні новини звіт.

Але набагато більш примітно, як розповідає дослідник DeepMind Джуліан Шріттвізер Обернено, програми, такі як Deep Blue, також були запрограмовані вручну. Це означає, що люди повинні були навчати А.І. все, що потрібно було знати про те, як впоратися з усіма уявними випадками. Інакше кажучи, вона може колись бути такою ж хороша, як і люди, що програмують. Та в той час, як Deep Blue очевидно спроможний приїхати досить гарний у шахах; дайте йому іншу, схожу, гру, як Go, і вона була б невідомою.

Alpha Zero абсолютно інший. У новому дослідженні, опублікованому сьогодні в журналі Наука, автори показують, як їм вдалося не просто навчити Альфу Нуль, як бити людей в шахах, а як навчити Альфу Нуль як навчати себе освоїти кілька ігор.

Як навчати А.І. Навчити себе

Альфа Нуль розроблявся з використанням методики, яка називається глибоким навчанням підкріплення. По суті, це передбачає навчання А.І. щось дуже просте, як основні правила шахів, а потім робити цю просту річ знову і знову, поки не дізнається більш складні, цікаві речі, як стратегії та методи.

"Традиційно … люди будуть брати свої знання про гру і намагатися кодувати її в правилах", - каже Шрітвізер, який вже майже чотири роки працює над Alpha Zero. "Наш підхід полягає в тому, щоб ми ініціалізувалися випадковим чином, а потім дозволяли йому грати проти себе, а з самих ігор він може дізнатися, які стратегії працюють".

Всі Alpha Zero отримують основні правила, і звідти він дізнається, як виграти, граючи сам. Згідно з новими даними, Альфа Зеро зайняло лише дев'ять годин, щоб освоїти шахи, 12 годин освоїти сеги і близько 13 днів, щоб освоїти Go. Тому що вона грає сама по собі, вона, по суті, самоучка. Вона зробила фарш з усіх чемпіонів світу з алгоритмів, керованих людьми, випередивши чемпіона світу в 2017 році в Сегі 91% часу.

"Він може самостійно виявити цікаві знання про гру", - говорить Шрітвізер. "Це призводить до програм, які грають більш людські".

Хоча його стиль є людським і творчим, однак, ймовірно, він є оптимальним, стверджує він, достатньо для того, щоб Alpha Zero мав змогу домінувати практично в будь-якій грі, в якій вона має доступ до всієї доступної інформації. Фактично, Alpha Zero настільки досконалий, що нам може знадобитися перейти до зовсім іншого класу ігор для того, щоб продовжувати рухати межі того, як A.I. вирішує проблеми.

Чому Alpa Zero так добре

A.I. Дослідники люблять використовувати ці ігри як тестові підстави для більш складних форм алгоритмів з кількох причин. Вони елегантні, і люди грають їх протягом сотень років, наприклад, це означає, що у вас є багато потенційних претендентів, щоб перевірити свій алгоритм. Але вони також складні і складні, а це означає, що вони можуть слугувати наріжним каменем до А.І. які можуть вирішувати проблеми в реальному світі. Schrittwieser говорить, що наступна область досліджень полягає в створенні алгоритму, такого як Alpha Zero, який все ще може приймати оптимальні рішення з недосконалою інформацією.

"У всіх цих іграх ви знаєте все, що відбувається", - говорить він. «У реальному світі ви можете знати лише частину інформації. Ви можете знати свої власні картки, але ви не знаєте свого опонента, у вас є часткова інформація."

Є ще кілька настільних ігор, здатних давати алгоритми, такі як Alpha Zero, такого роду виклик, теж - Schrittwieser згадав Stratego, в якому гравці приховують свої рухи один від одного - і Starcraft, що є іншою сферою інтересу для дослідників, орієнтованих на ігри DeepMind.

"Ми хочемо, щоб проблеми, які ми вирішуємо все більш і більш складними", говорить він. "Але це завжди один вимір за один раз."

У той же час, наступне покоління комп'ютерів, що вирішують проблеми Deep Mind, вже демонструють потенціал для переходу від ігрового світу до реального світу. Раніше на цьому тижні він оголосив про інший алгоритм, який називається AlphaFold, який здатний екстраполювати послідовність білка в точний прогноз його 3D-структури.Це проблема, яку незрозумілі вчені протягом десятиліть могли б допомогти відкрити двері для лікування захворювань, починаючи від хвороби Альцгеймера і кістозного фіброзу.

Зберегти велику на цьому самонавчання дистанційної камери руху сьогодні

Отримуйте доступ до відео на свої цінності або близьких, поки ви відсутні. Можна панорамувати, нахиляти та іншим чином керувати за допомогою супутнього додатка та записувати відео на загальнодоступне хмара. Оскільки Oco дізнається більше про середовище, в яке ви його розміщуєте, воно автоматично передбачає повторне нешкідливе рух.

MIT розробив новий пошук помилок для популярного веб-каркасу Ruby на рейках

Дослідники Массачусетського технологічного інституту розробили програмне забезпечення, що представляє собою прорив у сфері безпеки для програм, написаних у популярній рамці веб-додатків Ruby on the Rails. При тестуванні на 50 веб-додатках, написаних на Ruby on Rails, програмне забезпечення виявило 23 помилки, не беручи більше, ніж ...

Аеробус розробив суперзвуковий двигун, який рухався на Мач 4.5

Ремінь себе, міжнародних мандрівників, тому що Airbus тільки виграний патент для "ультра-швидкого повітряного судна" що міг slingshot ви на півдорозі навколо світу у часі це бере спостерігати The Godfather: Частина II. Згідно з планами, поданими в Патентному відомстві США, затвердженому в липні, неназваний надзвуковий реактивний ...