Як Multi-Armed Bandit визначає, які оголошення та історії ви бачите в Інтернеті

CS885 Lecture 8a: Multi-armed bandits

CS885 Lecture 8a: Multi-armed bandits
Anonim

Уявіть, що ви є гравцем, і ви стоїте перед кількома ігровими автоматами. Ваша мета - максимізувати виграш, але фактично нічого не знаєте про потенційні винагороди, що пропонуються кожною машиною. Ви, однак, розумієте, що важелі, які ви тягнете, і частота, з якою ви це робите, впливатимуть на результати вашого азартного розгулу.

Цей сценарій, з яким кожен день відвідують Лас-Вегас і Атлантик-Сіті (якою мірою люди ще йдуть до Атлантик-Сіті), також є класичною логічною головоломкою, що називається "Мульти-озброєний бандит" - ігрові автомати називаються "Один зброєю" Бандити », старіючи Reno-типами, тому що вони мають один важіль і беруть гроші людей. Хоча не існує жодного правильного способу розв'язання ситуацій з багатомандатним бандитом - найближчим кандидатом є індекс Gittins - існують стратегічні підходи до вирішення цих проблем, які ви бачите без реєстрації щодня, коли ви виходите в Інтернет. Багато алгоритмів, які керують способом відображення вмісту через Google і на веб-сайтах, будуються на основі стратегій MAB. Майже у всіх випадках мета полягає в поєднанні навчання і результатів і максимізації потенціалу для обох.

Багатосторонній бандитський підхід використовується The Washington Post щоб з'ясувати, які фотографії та заголовки найчастіше натискатимуть, а також бездротові мережі, щоб визначити, які оптимальні, енергозберігаючі маршрути є найкращими. Алгоритми, які ростуть з підходів MBA, надзвичайно важливі для цих компаній і багатьох інших, оскільки вони в основному визначають, коли і які реклами з'являються в Інтернеті.

Визначення того, які оголошення показувати людям, є складною проблемою, тому що існує так багато озброєних бандитів, які бігають навколо, натискаючи речі в Інтернеті. Алгоритми MAB для реклами зазвичай використовують швидко мінливу «смертельну багатосторонню бандитську проблему», яка застосовується протягом кінцевих періодів часу. Дані трафіку використовуються для розробки більш ефективних методологій.

Важко прив'язати MAB до точної мети, оскільки можна створити стільки варіантів формули. Наприклад, озброєні бандити мають “зброю”, що змагається за отримання найвищої очікуваної винагороди. Контекстнація бандитів робить те ж саме, але з «експертними порадами» - дані, зібрані раніше про користувача, - і веб-готові з ім'ям «ILOVETOCONBANDITS» працює тільки за розкладом попередньо визначених раундів. Навпаки, класичний підхід MAB не має жодної побічної інформації, і результат залежить тільки від потенціалу обраної дії.

Хоча найбільш корисним додатком для MAB досі, здається, пов'язані з Інтернетом, дослідники працюють над тим, щоб знайти спосіб застосувати їх до сценаріїв «реального життя» (так званий «космічний»). У документі 2015 року дослідники з Університету Британської Колумбії розглядають застосування МАБ до медичних випробувань. Мета, якщо МАБ виявляться можливими тут, полягає в тому, що алгоритм MAB може вимірювати вплив конкретного лікарського засобу. Очевидна проблема полягає в тому, що, якщо не буде створено комп'ютерно-модульовану версію цього, підхід до такого підходу буде просто занадто багато часу. Немає можливості, щоб дизайн MAB містився в клінічному випробуванні.

Ідея хороша, але зараз неможлива. Аж поки тут не буде майбутнього, ви відчуватимете в основному наявність багаторазового бандита, коли ви відчайдушно намагаєтеся вилучити спливаючі оголошення.