Чи може "надлюдна" нейронна мережа Google дійсно розповісти про місцезнаходження будь-якого зображення?

$config[ads_kvadrat] not found

НОВОГОДНИЙ РОЛИК для нашиÑ

НОВОГОДНИЙ РОЛИК для нашиÑ
Anonim

Пошук зображень простіше, ніж будь-коли. Але якщо ви намагаєтеся знайти картину чогось на місці, яке не є абсолютно очевидним (так не єгипетські піраміди або гігантська скульптура великого пальця в Парижі), це важче, ніж ви думаєте - навіть з інформацією про геолокацію на основі того, що на зображенні.

Введіть інженера Google по імені Тобіаса Вейянда і пару його колег. Відповідно до нової статті в журналі arXiv (вимовляється як «архів»), тріо побудувало машину глибокого навчання, здатну точно визначити розташування майже будь-якої фотографії, що базується виключно на аналізі її пікселів.

Щоб отримати машину для успішного виконання подібного завдання, ви хочете надати їй можливість інтуїції інформації на основі візуальних підказок. Ви хочете, щоб він думав, іншими словами, як людина.

Weyand розпочав розвивати штучну нейронну мережу - машинну систему, призначену для імітації неврологічних шляхів мозку, які дозволяють їй вчитися, обробляти та згадувати інформацію, подібну людській. Ця нова система, PlaNet, очевидно, здатна перевершувати людей при визначенні розташування зображень незалежно від того, яка установка - будь то крита або відкритий, і показуючи будь-які унікальні або невиразні візуальні підказки.

Як працює PlaNet? Weyand та його команда розділили карту світу у сітку що поклала над 26.000 квадратними-формами у різних регіонах, залежно від скільки зображень були зроблені у цих місцях. Щільні місця, де зроблено багато знімків, вміщуються на меншій площі, а більші, більш віддалені області можуть розрізати на більші площі.

Потім команда створила велику базу даних зображень, вже геолокацію - майже 126 мільйонів різних фотографій. Близько 91 мільйон були використані в якості набору даних, щоб навчити PlaNet, як визначити, яке зображення може бути розміщено в сітці на карті світу.

Потім нейронній мережі було доручено геолокацію інших 34 мільйонів зображень з бази даних. Нарешті, PlaNet був встановлений на наборі даних з 2,3 млн. Зображень з геотегами з Flickr.

Результати? PlaNet може визначити країну походження для 28,4 відсотка фотографій, а континент - 48 відсотків. Крім того, система може визначити розташування на рівні вулиці для 3,6 відсотка зображень Flickr та розташування на рівні міста на 10,1 відсотка.

І PlaNet краще в цьому, ніж більшість людських істот - навіть найбільших глобусів. Weyand залучив 10 добре подорожуваних осіб, щоб змагатися з PlaNet в грі позначення місць розташування зображень, знайдених на Google Street View.

«Загалом PlaNet виграв 28 з 50 раундів з середньою помилкою локалізації 1131,7 км, а медіанна помилка локалізації людини - 2320,75 км», - написали дослідники. "Цей дрібномасштабний експеримент показує, що PlaNet досягає надлюдської продуктивності при виконанні завдання геолокації сцен із перегляду вулиць".

Це реально? Хіба інженер Google просто розробив «надлюдське» A.I. системи?

Коли справа доходить до геолокації зображень, можливо. І це не надто дивно - суть А.І. не полягає в тому, щоб принципово імітувати людський мозок усіма способами, а перевершувати людські обмеження в декількох конкретних способах досягнення набагато складніших завдань. Тому в цьому сенсі те, що пишуть дослідники, є істинним.

Тим не менш, це натяк назвати PlaNet "нейронною мережею". Ідеальна форма такого роду технологій була б здатна навчитися набагато більше, ніж геолокація зображень. A.I. Системи здатні писати порівняння і грати Супер Маріо, але це невелика речовина в порівнянні з ідеальною системою «майстра», яка може автоматично контролювати та підтримувати життєві функції, керувати транспортом або енергетичною інфраструктурою та багато іншого.

$config[ads_kvadrat] not found