Загрузка...
скачать
Реферат на тему:

Клонирование голоса



План:

    Введение
  • 1 Общая оценка технологии
  • 2 Программные продукты
  • 3 Услуга через сайт и телефон
  • 4 Применение
  • 5 Интересные факты
  • Примечания
    Литература

Введение

Клонирование голоса (англ. voice changing, voice cloning) — это технология, реализующая изменение голоса человека, производимая с помощью программно-аппаратных средств, в режиме как реального времени, так и в отложенном пакетном режиме.

Технология позволяет моделировать персональные характеристики речи человека с достаточно полным совпадением с оригиналом, называемым «мишенью копирования».


1. Общая оценка технологии

В настоящее время сравнительно хорошо развиты системы распознавания речи. Они используются в голосовом управлении различными бытовыми приборами (в телефонах, автомобильных аудиосистемах, и заканчивая стиральными машинами). Обратный процесс, извлечение слов из аудио сигнала и синтез речи встречает ряд трудностей.

2. Программные продукты

Программы считаются принадлежащими категории «Voice Changing Software», или «Voice changer»:

  • Morphvox
  • Voice changer

Также SDK пакеты:

  • Voice Cloning Toolkit for Festival and HTS (Mac) — Исследовательский пакет от Исследовательского Центра Речевых Технологий и Junichi Yamagishi из Эдинбургского Университета

3. Услуга через сайт и телефон

Ранее, некоторые компании (http://clonevoice.com, англ. clone voice; http://voice-change.foxcom.su, англ. voice change) предлагали на коммерческой основе услугу изменения голоса абонента по телефону в режиме реального времени. Производилось это следующим образом:

  1. Предварительно абонентом (заказчиком) на web-сайте заказывался обратный звонок на свой телефон и звонок на телефон «мишени копирования» и системе предоставлялись образцы голосов заказчика и «мишени копирования»;
  2. Затем абонент заказывал обратный звонок на свой телефон и телефон интересующего его абонента. Система соединяла абонента, сигнал от него проходил через сервер компании, где менялись частотные характеристики и тембральная окраска голоса на параметры голоса человека — «мишени копирования». Абонент слышал слова заказчика, но для него эти слова (якобы) звучали голосом человека — «мишени копирования».

Описание технологии

Технология клонирования речи в условиях телефонного разговора в режиме реального времени базируется[источник не указан 382 дня] на известных алгоритмах математической обработки сигнала-носителя голоса[1] [2, 4]. При этом используются[источник не указан 382 дня] методы DFT анализа частот в дискретном сигнале (методом специального преобразования Фурье), полученном оцифровкой аналогового телефонного сигнала с применением узкополосного речевого кодека G.729[2] [5, 6, 7, 8]. Синтез измененной речи на основе сигнал-носителя, то есть получившийся «клонированный голос» реализует возможность максимального сохранения персональных акустических характеристик копируемого исходного голоса: фонетических особенностей произношения, акцента и даже артефактов такого рода, как заикание[3] [9]. Таким образом идентифицировать искусственность говорящего невозможно даже при специальной обработке и математическом анализе исходного телефонного сигнала. Незаконное использование технологии клонирования речи строго исключается в соответствии со специальной программой защиты он-лайн сервиса, предоставляющего данную услугу. Описываемая технология клонирования голоса в телефонных сетях являелась, по утверждению создателей, новейшим продуктом, не имевшим аналогов ранее.[источник не указан 382 дня]

Предшествующий уровень

Существующие сейчас системы создания машинной речи хорошо зарекомендовали себя в определенных технических нишах: в навигационных системах автомобилей, наручных часах, электронных «читающих» словарях-переводчиках и так далее. В подобных системах не ставится задача подражания голосу конкретного человека, поэтому получаемая машинная речь также не является персонифицированной, и легко узнается по причине своего ярко выраженного искусственного происхождения.

Ранее попытки синтезировать речь конкретного человека базировались на принципе создания «ядра» речевого клона, который содержит полный набор акустических, фонетических и просодических признаков — индивидуальных особенностей речи. Для этого требовалось наличие довольно подробной персонифицированной базы данных «копируемого» голоса. Человеку, голос которого требовалось скопировать, необходимо было прочитать длинный подготовленный текст, специально разработанный и содержащий в себе большое количество фонем, для максимального выявления особенностей речи говорящего.

Это представляло определенные трудности, так как известно, что обычный человек утомляется даже после 15-ти минут непрерывного чтения, а после 20 минут чтения его голос может и вовсе сорваться. Даже для профессионального диктора 45 минут непрерывного чтения с сохранением всего комплекса индивидуальных характеристик речи — довольно трудная задача. Требования к качеству записи голоса также предъявлялись весьма высокие — требовалось исключение различного рода шумов, способных помешать моделированию. Полученная таким образом персонифицированная запись исходного голоса подвергалась частотному анализу и математической обработке, причем вычислительный процесс часто занимал не одни сутки. После этого индивидуальная база данных голоса конкретного человека могла использоваться синтезатором речи. Естественно, длительность процесса кодирования и главное — необходимость записи эталонной речи в условиях студии существенно сужало спектр применения системы копирования речи в обычных условиях.


4. Применение

В настоящее время наиболее ярким примером коммерческого применения инновационной технологии клонирования речи может являться игровая индустрия. Звоня абоненту и общаясь с ним голосом другого лица (например, вашего общего знакомого) вы можете разыграть его, или выяснить его мнение о вас самих. Дети получат возможность слушать сказки, которые изначально были озвучены профессиональными дикторами, но переозвученные родительским голосом. Следует отметить, что подобная технология открывает простор для широкого спектра злоупотреблений, попадающих под различные статьи уголовного кодекса.


5. Интересные факты

  • Технология клонирования речи и даже само мобильное устройство для этого (в виде «мини-диктофона») было показано как небольшой гаджет в самом первом фильме из сериала «BUGS. Электронные жучки».
  • Клонированным голосом виртуальной актрисы общался герой Аль Пачино в фильме режиссера Виктора Тарански «Симона» (англ. Simone).
  • Способностью мастерски имитировать голоса других людей, выдавая себя за них в телефонном разговоре для получения собственной выгоды, обладал Игорь Луценко в исполнении Игоря Скляра — герой отечественного фильма «Имитатор» режиссера Олега Борисовича Фиалко.
  • Устройство способное имитировать голоса других людей, выдавая себя за них в телефонном разговоре для мошенничества, использовалось отрицательным персонажем в одной из последних серий сериала «Тайны следствия».

Примечания

  1. Abe M., Nakamura S., Shikano K. and Kuwabara H. «Voice conversion through vector quantization», in Proc. of the Int. Conf. on Acoust., Speech and Sig. Proc. ICASSP, New York, USA, Apr. 1988, vol. 1, pp. 655—658.
  2. Levine S. and Smith J.O. «A sines+transients+noise audio representation for data compression and time/pitch scale modifications», in Proc. 105th Conv. Audio Eng. Soc., preprint #4781, Sep. 1998.
  3. Huang X., Acero A., Hon H-W. «Spoken Language Processing: a guide to theory, algorithms, and system development», Prentice Hall, NJ, 2001. — p. 980.

Литература

  1. Б. М. Лобанов, Л. И. Цирульник «Компьютерный синтез и клонирование речи», Минск «Белорусская Наука», 2008, 316 стр.
  2. Abe M., Nakamura S., Shikano K. and Kuwabara H. «Voice conversion through vector quantization», in Proc. of the Int. Conf. on Acoust., Speech and Sig. Proc. ICASSP, New York, USA, Apr. 1988, vol. 1, pp. 655—658.
  3. Patent No.: US 6615174B1, Sep. 2, 2003.
  4. ITU-T Rec. G.729, «Coding of speech at 8 kbit/s using conjugate-structure algebraic-code-excited linear — prediction (CS-ACELP)», Mar. 1996.
  5. Levine S. and Smith J.O. «A sines+transients+noise audio representation for data compression and time/pitch scale modifications», in Proc. 105th Conv. Audio Eng. Soc., preprint #4781, Sep. 1998.
  6. Talkin D. «Robust algorithm for pitch tracking» in «Speech Coding and Synthesis», Kleijn, W.B. and Palival, K.K. Eds. Elsevier, Amsterdam, Netherlands, 1995.
  7. Grocholevski S. «First Database for Spoken Polish», in Proc. Int. Conf. On Language Resources and Evaluation, Grenada, 1998, pp. 1059—1062.
  8. KY Lee, Y Zhao, «Statistical Conversion Algorithms of Pitch Contours Based on Prosodic Phrases». Proceedings of the International Conference «Speech Prosody 2004». (SP 2004)", Nara, Japan March 23-26 2004.
  9. Huang X., Acero A., Hon H-W. «Spoken Language Processing: a guide to theory, algorithms, and system development», Prentice Hall, NJ, 2001. — p. 980.
скачать

Данный реферат составлен на основе статьи из русской Википедии. Синхронизация выполнена 18.07.11 15:19:17

Похожие рефераты: Клонирование ДНК, Клонирование, Долли (клонирование), Терапевтическое клонирование, Безлигазное клонирование, Клонирование (информатика), Клонирование SIM-карты, Клонирование (биотехнология), Клонирование человека.

Категории: Информационные технологии, Связь, Системы обработки звука, Телекоммуникационное оборудование, Программные синтезаторы.

Текст доступен по лицензии Creative Commons Attribution-ShareAlike.