Речь говорящего японцы восстанавливают по видеозаписи его горла

 


Исследователи Токийского университета успешно испытали экспериментальную систему, которая позволяет восстановить звуковую информацию по видеосъемке движений горла говорящего человека. Необходимость в восстановлении текста может возникнуть при неудовлетворительной слышимости в ситуации значительных помех, когда микрофоны воспринимают не только важный для восприятия сигнал, но и шум внешнего окружения.

Традиционно восстановление аудиоинформации по видеозаписи производится по данным о движении нижней челюсти и губ говорящего. Для подобного анализа используется специализированное программное обеспечение, которое, в конечном итоге, и трансформирует изображение в искомый текст. В некоторых случаях система способна даже определить язык, используемый говорящим.

Японские разработчики предложили иной подход, в котором используется запись горла человека, выполненная с помощью высокоскоростной видеокамеры. Движения участков шеи и кожи фиксируются с частотой 10000 кадров в секунду, в четыреста с лишним раз чаще, чем в случае кинематографической съемки. Полученная запись подвергается в дальнейшем компьютерной обработке, где, с использованием специальных алгоритмов, преобразуется в звуковой сигнал.

В настоящее время технология позволяет различить лишь некоторые слова, но разработчики считают технологию весьма перспективной. В частности, исследователи утверждают, что дополнительная видеосъемка, включающая движение щек, может значительно улучшить интерпретацию аудиосигнала. Исследователи предполагают, что данная методика позволить воспроизводить не только текст, произносимый говорящим, но и интонации, что невозможно при традиционном подходе.