Нейросеть научилась реалистично имитировать речь человека.
Британская компания Google Deepmind представила новый алгоритм для синтеза человеческой речи под названием Wavenet. В его основе лежит использование нейросетей, что позволяет добиться более реалистичной имитации голоса. Статья разработчиков, описывающая программу, доступна на сайте компании.
Как правило, в системах преобразования текста в речь используются готовые аудиозаписи голоса людей. Программа выделяет из них звуки и компонует их на основе введенных данных, что позволяет добиться довольно естественного звучания - хорошим примером в данном случае может служить помощник Siri или Google Assistant. Однако такой подход, известный как компиляционный синтез, весьма ограничен, так как для того, чтобы можно было создать нового голосового ассистента или просто изменить тон речи, требуется наличие человека, который запишет все возможные звуки для базы данных.
Существует также и альтернативный метод, параметрический синтез, которой использует полностью сгенерированный компьютером голос, и не требует библиотеки "Живой" речи. Его работа основывается на уже заданных параметрах, соответствующих правилам грамматики и принципам произнесения звуков. Тем не менее, на выходе получается достаточно "Машинная" по звучанию речь.