21.06.2011 в 09:34 1824

Компьютерный голос с человеческим лицом

Израильская фирма придает синтезированной речи человеческие обертоны

Израильтянин разработал первую в мире систему синтеза слов, продукцию которой трудно отличить от настоящей человеческой речи.

Наберите номер линии обслуживания клиентов почти каждой компании, и голос, который ответит вам, будет, скорее всего, принадлежать компьютеру. Машины разговаривают с нами через приборы GPS, интернет-сайты, игрушки и видеоигры, мобильные телефоны, приборы дистанционного управления и многие другие аппараты. Все они используют технологию синтеза речи TTS, благодаря которой компьютер преобразует документ в звуки.

Однако, как объясняет руководитель израильской новой технологической компании Vivotext Гершон Сильберт, голоса, издаваемые ТТS, просто неприятно слушать. "Вивотекст" разработала первую в мире систему синтеза слов, продукцию которой трудно отличить от настоящей человеческой речи. Сильберт отмечает, что спрос на "искусственные голоса" огромен и постоянно растет, однако до сих пор многие потребители и клиенты испытывали немалый дискомфорт и раздражение, когда на другом конце линии им отвечал механический голос.

Холодные, лишенные эмоций голоса, производимые популярными системами компаний AT&T, Nuance и Loquendo, производят, как утверждает Сильберт, резко отталкивающее впечатление на слушателей. Исследования подтверждают, что чем более естественно звучит синтезируемая речь, тем более позитивна реакция потребителей. Проблема состоит в том, что живая речь стоит намного дороже.

"Мы все знакомы с аудиокнигами, но не все понимают, что стоимость их производства так высока, что всего два процента публикуемых книг получают звуковую версию, тем более что для чтения бестселлеров принято нанимать известных людей и артистов", - отмечает Сильберт. - "Если бы на рынке появился более дешевый, автоматизированный способ преобразования текста в живую речь, издатели ухватились бы за него".

Именно это и предлагает Вивотекст. "Наша запатентованная технология опирается на результаты из области анализа исполнения музыкальных произведений, а также исследования в сферах фонетики, синтакса, лексикографии и обработки цифровых сигналов (DSP). Мы собрали богатую коллекцию голосовых образцов, которые можно отрегулировать для отражения широкого спектра эмоций и выразительности", - подчеркивает Сильберт. Именно это делает голоса, производимые Вивотекст, более "человеческими".

Технология анализа музыкальных произведений, разработанная Сильбертом, применяет методы, используемые для превращения печатной партитуры в слышимую музыку, для трансформации текста в живую речь. Именно это позволяет насытить компьютерный синтезированный звук эмоциями и смысловыми акцентами.

"Так же, как изменения темпа, артикуляции и динамики делают исполнение музыкального произведения более выразительным, так и ударения, тон, интонация - то, что в целом называется просодия - определяют эффективность TTS, имея критическое значение при передаче слушателю фонематического, синтаксического и прагматического содержания слов и предложений", - отмечает Сильберт.

Руководитель "Вивотекст" знает природу звуков не понаслышке - в течение многих лет он был пианистом международного уровня. В 1994 году было опубликовано его самое популярное исполнение "Вариаций Гольдберга" Иоганна Себастьяна Баха. Теперь, применяя свои знания качественного музыкального исполнения к синтезу речи, используя метод под названием МОR (распознание музыкальных объектов), Сильберт может производить "голоса с высоким качеством произношения, естественным потоком слов и различными словарными стилями".

Используя систему "Вивотекст", программисты могут, используя простые меню и рабочие инструменты, повышать или снижать эмоциональный уровень синтезируемой речи. Базисная программа способна оценить содержание текстового отрывка, используя фонетический, семантический и синтактический анализ, и сама установить, к примеру, является ли данный текст вопросом, частью разговора, утверждением либо просьбой ввести данные. Анализ принимает во внимание и пунктуацию текста. На заключительном этапе программист может выделить желаемую эмоциональную нагрузку - радость, огорчение, энтузиазм, сочувствие - и получить на выходе голос, звучащий совсем "по-человечески".

Компания "Вивотекст" создана и финансируется технологической теплицей "Мофет Бе-Иегуда", расположенной к югу от Иерусалима. Несколько независимых инвесторов уже проявили интерес к ее перспективам. Руководство фирмы состоит из самого Сильберта, технического эксперта доктора Йосефа Бен Эзры и председателя Самуэля Соломона.

Поскольку ничего подобного продукции "Вивотекст" на рынке до сих пор не было, индустрия синтезированной речи уже проявляет к израильской молодой компании растущий интерес. Ведутся переговоры о сделках с ведущим американским производителем игрушек и крупной фирмой-издателем аудиокниг. "На всех ярмарках и промышленных конференциях к нам поступает масса запросов, и всех поражает теплота и человеческое качество наших голосов. Все, кто нуждается в синтезированной речи для работы, влюбляются в наш продукт с первого взгляда", - говорит Сильберт.