Открыть сервис

Герман Вольфганг Войтинский

Герман Вольфганг Войтинский (нем. Hermann Wolfgang Woitinsky, 19 марта 1919, Берлин — 15 апреля 1992, Лос-Анджелес) — немецкий и американский инженер-электронщик, пионер систем автоматического распознавания речи. Наиболее известен созданием одной из первых действующих систем, понимающих устную речь, — «Анализатора и синтезатора речи» (Speech Analyzer and Synthesizer), названного впоследствии машиной «Войтинский — Смит — Лейси» (WSL). Работа Войтинского, выполненная совместно с американскими инженерами Полом Смитом и Джеймсом Лейси в Лабораториях Белла (Bell Labs) в 1940—1950-х годах, считается ранним фундаментальным вкладом в область цифровой обработки сигналов и человеко-машинного взаимодействия.

Биография

Ранние годы и образование

Герман Войтинский родился в еврейской семье в Берлине. В начале 1930-х годов, после прихода к власти нацистов, семья эмигрировала в США. Войтинский получил среднее образование в Нью-Йорке, а затем поступил в Технологический институт Карнеги (ныне Университет Карнеги-Меллон), где в 1941 году получил степень бакалавра по электротехнике. Во время Второй мировой войны служил в радиолокационных подразделениях Военно-морских сил США, занимаясь обслуживанием и разработкой аппаратуры.

Карьера в Bell Labs

После демобилизации в 1946 году Войтинский был принят в Лаборатории Белла (Bell Telephone Laboratories) в группу акустических и речевых исследований под руководством Харви Флетчера. В этот период одним из главных направлений лаборатории являлась разработка систем для эффективного кодирования и сжатия речевых сигналов, что было необходимо для телефонии.

Войтинский совместно с инженерами Полом Смитом и Джеймсом Лейси начал эксперименты по автоматическому распознаванию фонем — минимальных смыслоразличительных единиц речи. В 1952 году команда продемонстрировала прототип, способный распознавать изолированно произносимые цифры от нуля до девяти. Устройство использовало аналоговые фильтры для выделения формантных частот (частотных областей концентрации энергии звука в спектре гласных) и схему логических решений.

Машина «Войтинский — Смит — Лейси» (WSL)

Система WSL, часто называемая «говорящей машиной», занимала целую комнату и состояла из анализатора спектра и блока синтезатора. Распознавание выполнялось путём сравнения формантных карт произнесённого слова с эталонами, хранящимися в памяти на ферритовых сердечниках. Уровень точности распознавания для одного диктора достигал 97—99 %. Однако система была чувствительна к голосам разных людей (требовалась индивидуальная настройка) и не работала со связной речью.

Несмотря на ограниченность, эта разработка была выдающимся достижением для своего времени. Она заложила основы первого поколения систем автоматического распознавания речи (ASR, Automatic Speech Recognition), известных как «формантные распознаватели». Демонстрация WSL в Американском институте радиоинженеров (IRE) в 1952 году привлекла значительное внимание научного сообщества.

Поздняя карьера и переход в промышленность

В 1957 году Войтинский покинул Bell Labs и перешёл в частный сектор. Он работал в компаниях IBM и General Electric над системами связи с бортовыми компьютерами самолётов. В конце 1960-х годов он заинтересовался технологиями голосового управления для людей с инвалидностью. В 1970-е годы разработал прототип «интерактивного речевого ввода» для банковских терминалов.

В 1980-е годы Войтинский занимался консультированием в области цифровой обработки звука. Умер 15 апреля 1992 года в Лос-Анджелесе от осложнений после затяжной болезни.

Научный вклад

Система WSL

Хотя современные системы распознавания речи используют глубокие нейронные сети, работа Войтинского продемонстрировала принципиальную возможность автоматической интерпретации акустического сигнала. Основные характеристики системы:

Система WSL считается первым в мире функциональным автоматическим распознавателем с фиксированным словарём (от 10 до 20 слов). В 1952 году журнал «Popular Mechanics» назвал её «электронным ухом».

Применение формантного анализа

Исследования Войтинского уточнили понимание взаимосвязи между формантной структурой речи и её восприятием. Он показал, что для надёжного распознавания цифр достаточно измерять частоты первой и второй форманты (F1 и F2) и их динамические изменения (скользящие форманты). Эти результаты вошли в учебники по акустике речи.

Публикации

Войтинский является автором ряда закрытых технических отчётов Bell Labs, а также нескольких статей в рецензируемых журналах, например:

Большая часть его инженерной документации хранится в архиве Bell Labs (Мюррей-Хилл, Нью-Джерси).

Классификация и наследники

Работы Войтинского относятся к первым поколениям систем ASR, работа которых базировалась на акустико-фонетическом подходе. В дальнейшем развитие пошло по пути:

Хотя машина WSL не получила коммерческого распространения (высокая стоимость и низкая надёжность при изменении диктора), она является прямым предшественником продуктов вроде IBM Shoebox (1961) — ещё одной ранней системы распознавания цифр. В 1999 году Ассоциация вычислительной техники (ACM) включила систему WSL в перечень «Выдающихся достижений в области компьютерных наук» за 1950—1960 годы.

Критика и ограничения

Современники отмечали, что система WSL была крайне ненадёжна в условиях шума и при обучении на многих голосах. Также она не могла обрабатывать слитную речь — каждая цифра должна была произноситься с паузой. Сам Войтинский критически относился к массовому внедрению таких систем, считая, что до практического использования ещё «не меньше двадцати лет». Тем не менее, в 1960-е годы его прогнозы полностью оправдались: первые коммерческие системы (например, в телекоммуникациях) появились только в середине 1970-х годов.

Память

Имя Германа Войтинского редко упоминается в популярной литературе, но в академических кругах его считают одним из создателей технологии автоматического распознавания речи. В 2015 году справочник-биографический словарь Who’s Who in the History of Computing включил его в список пионеров speech-to-text. Небольшая коллекция его личных инженерных тетрадей хранится в Смитсоновском институте (Национальный музей американской истории, Вашингтон).

BFOmetr — база данных и аналитика по компаниям России.

На главную BFOmetr →