Компьютерный голос с человеческим лицом

Израильская фирма придает синтезированной речи человеческие обертоны

Израильтянин разработал первую в мире систему синтеза слов, продукцию которой трудно отличить от настоящей человеческой речи.

Израильская фирма придает синтезированной речи человеческие обертоны
Основатель "Вивотекст" Гершон Сильберт, фото mfa.gov.il

Наберите номер линии обслуживания клиентов почти каждой компании, и голос, который ответит вам, будет, скорее всего, принадлежать компьютеру. Машины разговаривают с нами через приборы GPS, интернет-сайты, игрушки и видеоигры, мобильные телефоны, приборы дистанционного управления и многие другие аппараты. Все они используют технологию синтеза речи TTS, благодаря которой компьютер преобразует документ в звуки.

Однако, как объясняет руководитель израильской новой технологической компании Vivotext Гершон Сильберт, голоса, издаваемые ТТS, просто неприятно слушать. "Вивотекст" разработала первую в мире систему синтеза слов, продукцию которой трудно отличить от настоящей человеческой речи. Сильберт отмечает, что спрос на "искусственные голоса" огромен и постоянно растет, однако до сих пор многие потребители и клиенты испытывали немалый дискомфорт и раздражение, когда на другом конце линии им отвечал механический голос.

Холодные, лишенные эмоций голоса, производимые популярными системами компаний AT&T, Nuance и Loquendo, производят, как утверждает Сильберт, резко отталкивающее впечатление на слушателей. Исследования подтверждают, что чем более естественно звучит синтезируемая речь, тем более позитивна реакция потребителей. Проблема состоит в том, что живая речь стоит намного дороже.

"Мы все знакомы с аудиокнигами, но не все понимают, что стоимость их производства так высока, что всего два процента публикуемых книг получают звуковую версию, тем более что для чтения бестселлеров принято нанимать известных людей и артистов", - отмечает Сильберт. - "Если бы на рынке появился более дешевый, автоматизированный способ преобразования текста в живую речь, издатели ухватились бы за него".

Именно это и предлагает Вивотекст. "Наша запатентованная технология опирается на результаты из области анализа исполнения музыкальных произведений, а также исследования в сферах фонетики, синтакса, лексикографии и обработки цифровых сигналов (DSP). Мы собрали богатую коллекцию голосовых образцов, которые можно отрегулировать для отражения широкого спектра эмоций и выразительности", - подчеркивает Сильберт. Именно это делает голоса, производимые Вивотекст, более "человеческими".

Технология анализа музыкальных произведений, разработанная Сильбертом, применяет методы, используемые для превращения печатной партитуры в слышимую музыку, для трансформации текста в живую речь. Именно это позволяет насытить компьютерный синтезированный звук эмоциями и смысловыми акцентами.

"Так же, как изменения темпа, артикуляции и динамики делают исполнение музыкального произведения более выразительным, так и ударения, тон, интонация - то, что в целом называется просодия - определяют эффективность TTS, имея критическое значение при передаче слушателю фонематического, синтаксического и прагматического содержания слов и предложений", - отмечает Сильберт.

Руководитель "Вивотекст" знает природу звуков не понаслышке - в течение многих лет он был пианистом международного уровня. В 1994 году было опубликовано его самое популярное исполнение "Вариаций Гольдберга" Иоганна Себастьяна Баха. Теперь, применяя свои знания качественного музыкального исполнения к синтезу речи, используя метод под названием МОR (распознание музыкальных объектов), Сильберт может производить "голоса с высоким качеством произношения, естественным потоком слов и различными словарными стилями".

Используя систему "Вивотекст", программисты могут, используя простые меню и рабочие инструменты, повышать или снижать эмоциональный уровень синтезируемой речи. Базисная программа способна оценить содержание текстового отрывка, используя фонетический, семантический и синтактический анализ, и сама установить, к примеру, является ли данный текст вопросом, частью разговора, утверждением либо просьбой ввести данные. Анализ принимает во внимание и пунктуацию текста. На заключительном этапе программист может выделить желаемую эмоциональную нагрузку - радость, огорчение, энтузиазм, сочувствие - и получить на выходе голос, звучащий совсем "по-человечески".

Компания "Вивотекст" создана и финансируется технологической теплицей "Мофет Бе-Иегуда", расположенной к югу от Иерусалима. Несколько независимых инвесторов уже проявили интерес к ее перспективам. Руководство фирмы состоит из самого Сильберта, технического эксперта доктора Йосефа Бен Эзры и председателя Самуэля Соломона.

Поскольку ничего подобного продукции "Вивотекст" на рынке до сих пор не было, индустрия синтезированной речи уже проявляет к израильской молодой компании растущий интерес. Ведутся переговоры о сделках с ведущим американским производителем игрушек и крупной фирмой-издателем аудиокниг. "На всех ярмарках и промышленных конференциях к нам поступает масса запросов, и всех поражает теплота и человеческое качество наших голосов. Все, кто нуждается в синтезированной речи для работы, влюбляются в наш продукт с первого взгляда", - говорит Сильберт.

Что еще почитать

В регионах

Новости региона

Все новости

Новости

Самое читаемое

Автовзгляд

Womanhit

Охотники.ру