Новости из мира высоких технологий

Как это работает? | Синтез речи



В прошлом выпуске мы говорили о распознавании речи, сегодня же обсудим обратную задачу. Итак, как происходит синтез речи, или, иными словами, преобразование произвольного текста в голос — об этом в сегодняшнем выпуске!

Задача синтеза речи решается в несколько этапов. Прежде всего специальному алгоритму необходимо подготовить текст, чтобы роботу было удобно его читать: он записывает все числа словами и расшифровывает сокращения. Затем текст разбивается на отдельные словосочетания, которые нужно читать с непрерывной интонацией — для этого система ориентируется на знаки препинания и устойчивые конструкции.

Далее для всех слов составляется фонетическая транскрипция. Чтобы понять, как читать слово и где поставить в нём ударение, система обращается к встроенным, составленным людьми словарям. Если нужное слово в них отсутствует, компьютер строит транскрипцию самостоятельно, опираясь на академические правила. Если же их оказывается недостаточно, в дело вступают статистические правила: система перебирает записи дикторов и определяет, на какой слог они делали ударение.

Когда транскрипция составлена, компьютер рассчитывает, сколько в ней фреймов, или, иными словами, фрагментов длиной 25 миллисекунд. Далее каждый фрейм описывается множеством параметров: частью какой фонемы он является, какое место в ней занимает, в какой слог входит эта фонема. Также описывается ударность или безударность фонемы, в случае если это гласная. Кроме того, система создает правильную интонацию, используя данные о фразе и предложении.

Затем система задействует акустическую модель, чтобы прочитать подготовленный текст. Она устанавливает соответствия между фонемами с определёнными характеристиками и звуками. Акустическая модель знает, как правильно произнести фонему и придать верную интонацию предложению благодаря машинному обучению. Чем больше данных, на которых учится модель, тем лучше выдаваемый ей результат.

Что же касается голосов, то узнаваемыми их делает, в первую очередь, тембр, который зависит от особенностей строения органов речевого аппарата. Тембр любого голоса можно смоделировать, то есть описать его характеристики — для этого достаточно начитать в студии небольшой объем текстов. После этого данные о тембре можно использовать при синтезе речи на любом языке. Когда системе нужно что-то сказать, она использует генератор звуковых волн — вокодер. В него загружается информация о частотных характеристиках фразы, полученная от акустической модели, а также данные о тембре, который придаёт голосу узнаваемую окраску.

Стоит отметить, что современные технологии синтеза речи имеют некоторые проблемы. Первая их них заключается в искусственности. Любая синтезированная речь воспринимается человеком с трудом, и он вынужден задействовать дополнительные ресурсы для ее понимания. Тем самым люди могут нормально воспринимать синтезированную речь только около 20 минут. Также у синтезированной речи, как правило, отсутствует эмоциональная окраска, и она имеет низкую помехоустойчивость. Иными словами, восприятию синтезированной речи человеку мешают любые, даже самые небольшие посторонние шумы.


Источник: Как это работает? | Синтез речи
Опубликовал:
Теги: Это интересно видео искусственный интеллект Технологии будущего Алгоритм голос

Комментарии (0)

Сортировка: Рейтинг | Дата
Пока комментариев к статье нет, но вы можете стать первым.
Написать комментарий:
Напишите ответ :
Холодный синтез: желаемое или действительное?
Холодный синтез: желаемое или действительное?
0
Новости высоких технологий 15:30 04 окт 2016
От речи зависит здоровье и материальное благополучие
От речи зависит здоровье и материальное благополучие
10
Интересности 08:02 27 авг 2016
Что такое кераминовые полы? Достоинства и недостатки, отзывы Что такое кераминовые полы? Достоинства и недостатки, отзывы
Речь отражает состояние ума
Речь отражает состояние ума
8
Общество и я 14:44 12 фев 2017
Как речь убивает вашу харизму
Как речь убивает вашу харизму
5
Женский каприз 01:34 21 июн 2018
Эта маска избавит даже от самых глубоких носогубных складок! Секретный компонент стимулирует синтез коллагена.
Эта маска избавит даже от самых глубоких носогубных складок! Секретный компонент стимулирует синтез коллагена.
0
Интересный мир 11:46 07 янв 2018
Можно потерять дар речи, если взглянуть, как этот человек выглядит сегодня
Можно потерять дар речи, если взглянуть, как этот человек выглядит сегодня
2
Интересный мир 09:21 16 дек 2018
Как иностранцы воспринимают русскую речь
Как иностранцы воспринимают русскую речь
0
Общество и я 22:00 11 окт 2017
Она думала, прыщи — это гормональное. Врач потерял дар речи, когда сел за микроскоп!
Она думала, прыщи — это гормональное. Врач потерял дар речи, когда сел за микроскоп!
3
Интересный мир 07:15 23 июн 2017
О каких сказках идет речь?
О каких сказках идет речь?
5
Интересности 10:00 31 июл 2017
Пес нашел в мусорке сверток и понял, что речь идет о жизни и смерти
Пес нашел в мусорке сверток и понял, что речь идет о жизни и смерти
6
Дача сад огород и просто интересное 13:13 25 сен 2016
Соседка постоянно возилась с бутылками, когда выяснилось зачем, у всех пропал дар речи!
Соседка постоянно возилась с бутылками, когда выяснилось зачем, у всех пропал дар речи!
3
Человек познаёт мир 11:28 10 фев 2018
Человек, у которого больше всего пальцев: Эрнандес Гарридо
Человек, у которого больше всего пальцев: Эрнандес Гарридо
0
Здесь только хорошие новости! 20:24 Сегодня

Выберете причину обращения:

Выберите действие

Укажите ваш емейл:

Укажите емейл

Такого емейла у нас нет.

Проверьте ваш емейл:

Укажите емейл

Почему-то мы не можем найти ваши данные. Напишите, пожалуйста, в специальный раздел обратной связи: Не смогли найти емейл. Наш менеджер разберется в сложившейся ситуации.

Ваши данные удалены

Просим прощения за доставленные неудобства