DeepMind A.I. Містки розрив між роботом і людськими голосами

$config[ads_kvadrat] not found

AlphaGo - The Movie | Full Documentary

AlphaGo - The Movie | Full Documentary
Anonim

Штучний інтелект тільки зробив голоси роботів більш реалістичними.

DeepMind, який раніше демонстрував силу А.І. Збиваючи людського гравця в березні і перерізуючи свій енергетичний рахунок в половині в липні, тепер це зосереджено на синтезі мови.

Дослідницька група A.I, яка є частиною материнської компанії Google Alphabet, відкрила сьогодні вранці, що вона створила нову технологію під назвою WaveNet, яка може бути використана для генерації мови, музики та інших звуків більш точно, ніж раніше.

DeepMind пояснює, що багато існуючих методів синтезу мовлення покладаються на «дуже велику базу даних коротких мовних фрагментів, які записуються з одного диктора, а потім рекомбінуються для формування повних висловлювань». WaveNet, з іншого боку, використовує «сиру форму сигналу звукового сигналу». »Для створення більш реалістичних голосів і звуків.

Це означає, що WaveNet працює з окремими звуками, створеними, коли людина говорить, а не використовує повні склади або цілі слова. Ці звуки потім проходять через «дорогий» обчислювальний процес, який DeepMind знайшов «необхідним для створення складного, реалістичного звучання» з машинами.

Результатом усієї додаткової роботи є 50-відсоткове поліпшення синтезованого мовлення в англійській та китайській мовах. Ось приклад мови, створеної за допомогою параметричного перетворення тексту в мову, який є загальноприйнятим сьогодні, який використовується DeepMind для демонстрації того, як цього методу синтезу мовлення бракує:

Ось приклад того самого речення, створеного WaveNet:

Оскільки компанії продовжують свою роботу над інтерфейсами з природних мов, пропонування більш реалістичних відповідей стає все більш важливим. WaveNet може допомогти вирішити цю проблему.

$config[ads_kvadrat] not found