Новости из мира высоких технологий

Нейронную сеть научили практически идеально копировать человеческий голос

В прошлом году компания DeepMind, занимающаяся разработками технологий искусственного интеллекта, поделилась деталями о своем новом проекте WaveNet – нейронной сети глубинного обучения, использующейся для синтезации реалистичной человеческой речи. На днях была выпущена усовершенствованная версия этой технологии, которая будет использоваться в качестве основы цифрового мобильного ассистента Google Assistant.

Система голосового синтезирования (также известная как функция преобразования «текст-в-речь», text-to-speech, TTS) обычно строится на базе одного из двух основных методов. Конкатенативный (или компилятивный) метод подразумевает построение фраз путем сбора отдельных кусков записанных слов и частей, заранее записанных с привлечением актера озвучания. Основным недостатком такого метода является необходимость постоянной замены звуковой библиотеки всякий раз, когда происходят какие-нибудь обновления или вносятся изменения.

Другой метод носит название параметрического TTS, и его особенностью является использование наборов параметров, с помощью которых компьютер генерирует нужную фразу. Минус метода в том, что чаще всего результат проявляется в виде нереалистичного или так называемого роботизированного звучания.

Что же касается WaveNet, то она производит звуковые волны с нуля на базе системы, работающей на основе сверточной нейронной сети, где генерация звука происходит в несколько слоев. Сначала для тренировки платформы синтезации «живой» речи ей «скармливают» огромный объем образцов, при этом отмечая, какие звуковые сигналы звучат реалистично, а какие нет. Это наделяет голосовой синтезатор возможностью воспроизводить натуралистичную интонацию и даже такие детали, как чмокающие звуки губами. В зависимости от того, какие образцы речь прогоняются через систему, это позволяет ей развить уникальный «акцент», что в перспективе может использоваться для создания множества разных голосов.

Остра на язык

Пожалуй, самым большим ограничением системы WaveNet являлось то, что для ее работы требовалось наличие огромного объема вычислительной мощности, и даже при выполнении этого условия она не отличалась скоростью работы. Например, для генерации 0,02 секунды звука ей требовалось около 1 секунды времени.

Спустя год работы инженеры DeepMind все-таки нашли способ, как улучшить и оптимизировать систему таким образом, что теперь она способна производить сырой звук длительностью в одну секунду всего на 50 миллисекунд, что в 1000 раз быстрее ее изначальных возможностей. Более того, специалистам удалось повысить частоту дискретизации звука с 8-битного до 16-битного, что положительно сказалось на тестах с привлечением слушателей. Благодаря этим успехам, для WaveNet была открыта дорога к интеграции в такие потребительские продукты, как Google Assistant.

В настоящий момент WaveNet может использоваться для генерации английских и японских голосов через Google Assistant и все платформы, где используется этот цифровой ассистент. Так как система может создавать особый тип голосов в зависимости от того, какой набор образцов был ей предоставлен для обучения, то в скором времени Google, вероятнее всего, внедрит в WaveNet поддержку синтезации реалистичной речи и на других языках, и в том числе с учетом их местных диалектов.

Речевые интерфейсы становятся все более и более распространенными на самых разных платформах, однако их явно выраженная неестественная природа звучания отталкивает многих потенциальных пользователей. Попытки компании DeepMind усовершенствовать эту технологию, безусловно, поспособствуют более широкому распространению таких голосовых систем, а также позволят улучшить пользовательский опыт от их использования.

С примерами английской и японской синтезированной речи с помощью нейронной сети WaveNet можно ознакомиться, перейдя по этой ссылке.


Источник: Нейронную сеть научили практически идеально копировать человеческий голос
Автор:
Теги: технологии DeepMind google звук нейронные сети английский библиотека быстрый

Комментарии (0)

Сортировка: Рейтинг | Дата
Пока комментариев к статье нет, но вы можете стать первым.
Написать комментарий:
Напишите ответ :
Нейронную сеть научили распознавать замазанные на картинках объекты и текст
Нейронную сеть научили распознавать замазанные на картинках объекты и текст
0
Новости высоких технологий 06:00 18 сен 2016
Научили трахаться
Научили трахаться
13
Живи правильно 14:00 12 июл 2017
Ценные секреты умелых хозяюшек, которые помогут сохранить плиту идеально чистой
Ценные секреты умелых хозяюшек, которые помогут сохранить плиту идеально чистой
1
Человек познаёт мир 09:20 25 дек 2023
Неожиданные факты про человеческий рот
Неожиданные факты про человеческий рот
0
Интересности 17:01 27 июл 2016
Нейросеть научили видеть в людях преступников
Нейросеть научили видеть в людях преступников
0
Интересности 16:02 23 ноя 2016
Научили жарить сочные драники по-белорусски без муки и яиц – как пирожные нежные, воздушные. И 5 хитростей приготовления
Научили жарить сочные драники по-белорусски без муки и яиц – как пирожные нежные, воздушные. И 5 хитростей приготовления
2
Застолье 00:52 18 ноя 2023
Человеческий пупок – одна из самых интересных частей человеческого тела
Человеческий пупок – одна из самых интересных частей человеческого тела
8
Интересный мир 08:52 06 сен 2016
Модные джинсовые шорты, которые стоят практически 300 долларов
Модные джинсовые шорты, которые стоят практически 300 долларов
5
Страничка добра и сплошного жизненного позитива! 21:26 09 авг 2023
Дети звёзд, которые провалились в шоу «Голос»
Дети звёзд, которые провалились в шоу «Голос»
5
Интересный мир 22:22 17 дек 2022
Делайте так каждый раз после каждого использования духовки, и она всегда будет идеально чистой
Делайте так каждый раз после каждого использования духовки, и она всегда будет идеально чистой
5
УДачные советы 14:00 13 фев 2023
Catterbox – ошейник-переводчик с кошачьего языка на человеческий
Catterbox – ошейник-переводчик с кошачьего языка на человеческий
0
Новости высоких технологий 11:00 01 май 2016
Мы неправильно оцениваем человеческий мозг
Мы неправильно оцениваем человеческий мозг
0
Новости высоких технологий 06:00 13 ноя 2016

Выберете причину обращения:

Выберите действие

Укажите ваш емейл:

Укажите емейл

Такого емейла у нас нет.

Проверьте ваш емейл:

Укажите емейл

Почему-то мы не можем найти ваши данные. Напишите, пожалуйста, в специальный раздел обратной связи: Не смогли найти емейл. Наш менеджер разберется в сложившейся ситуации.

Ваши данные удалены

Просим прощения за доставленные неудобства