Предложение по разметке текста для ИИ озвучки и виртуальным чтецам

Avatar

Проблемы:

1. Если загрузить свою книгу в читалку, то озвучка ИИ часто пропускает паузы (несмотря на довольно хорошие интонации).

2. Нельзя изменить скорость ниже 1.


Пожелание:

Добавить возможность настройки пауз по простым параметрам (хотя бы по абзацам).


Предложение 1 (возможно, оно открывает Америку, т. к. фонетические разметки, скорее всего, давно существуют и Яндекс обо всем уже подумал):

  • Взять озвучки популярных серий книг одного автора, у которых есть профессиональный чтец (например, непревзойденный Александр Клюквин).
  • Вручную или существующими алгоритмами выполнить разметку интонаций, скорости, громкости, пауз и т. п. в тексте.
  • Меняя параметры голоса и разметки, можно добиться близкого сходства с оригиналом.

Возможно, из этих параметров получится делать виртуальные копии популярных чтецов для озвучки похожих книг (или приглашать их к сотрудничеству).

В браузере, например, уже неплохо работает озвучка «живыми ИИ голосами», но без воображения правильно озвучить текст сложно.


В чем выгода:

На примере книг Терри Пратчетта — Клюквин озвучил не все книги, но его чтение самое востребованное для серии.

Неозвученные книги — упущенная выгода.

Живую озвучку можно продавать дороже, озвучку виртуальной копией чтеца предоставлять по подписке.

Качественная озвучка — трудоемкий талант, актеры не в состоянии самостоятельно озвучить всю потребность в их голосе. Но роялти за сотрудничество могут удовлетворить спрос.

Предложение 2:

Если в разметке разных книг серии видна четкая корреляция, можно сделать алгоритм автоматической разметки или обучить нейросеть на примерах.

Сами книги можно ранжировать по массиву параметров, которые также можно использовать в анализе (жанр, настроение и т.п.).