Дистрибутивный анализ
Дистрибутивный анализ — это метод лингвистического исследования, основанный на изучении окружения языковых единиц (фонем, морфем, слов) в тексте. Суть метода заключается в определении классов единиц по их сочетаемости, или дистрибуции: чем более схоже окружение у двух единиц, тем выше вероятность их принадлежности к одному классу. Дистрибутивный анализ является одним из базовых инструментов структурной лингвистики, особенно в рамках дескриптивизма, и широко применяется в фонологии, морфологии и синтаксисе.
История возникновения и развития
Дистрибутивный анализ получил систематическое развитие в первой половине XX века в рамках американского структурализма (дескриптивизма). Его теоретическую основу заложили работы Леонарда Блумфилда, который в книге «Язык» (1933) предложил строгие процедуры описания языка на основе наблюдаемых данных, без обращения к значению. Однако ключевыми фигурами в разработке метода стали Зеллиг Харрис и Чарльз Хоккет.
В 1940–1950-х годах Харрис опубликовал серию статей и монографию «Методы структурной лингвистики» (1951), где формализовал процедуры дистрибутивного анализа — от выделения фонем до классификации морфем и синтаксических конструкций. Хоккет, в свою очередь, ввёл важные понятия «дополнительной дистрибуции», «контрастной дистрибуции» и «свободного варьирования», которые стали ключевыми для разграничения аллофонов и фонем.
В советской лингвистике дистрибутивный анализ активно применялся с конца 1950-х годов, в частности, в работах Московской фонологической школы (Р. И. Аванесов, В. Н. Сидоров) и при автоматическом анализе текстов. Одной из знаковых работ стала книга Ю. Д. Апресяна «Идеи и методы современной структурной лингвистики» (1966), где метод был подробно описан и подвергнут критике.
Основные понятия метода
Дистрибуция
Дистрибуция — это совокупность всех контекстов (окружений), в которых данная языковая единица может встречаться. Под контекстом понимается последовательность единиц того же уровня, предшествующих и следующих за рассматриваемой единицей. Например, для слова «кот» контекстами будут «рыжий кот», «кот спит», «у кота» и т. д.
Типы дистрибуции
В зависимости от степени совпадения окружений двух единиц выделяют три основных типа дистрибутивных отношений:
- Контрастная дистрибуция — единицы встречаются в одних и тех же контекстах, но при подстановке одной вместо другой меняется смысл (или грамматическая правильность) высказывания. Например, в русском языке [п] и [б] в позиции между гласными: «пал» и «бал» — разные слова. Такие единицы обычно являются отдельными единицами (фонемами, морфемами).
- Дополнительная дистрибуция — единицы никогда не встречаются в одинаковых контекстах; их окружения взаимно исключают друг друга. Например, в русском языке звонкие согласные [б], [в], [г] и их глухие пары [п], [ф], [к] находятся в дополнительной дистрибуции на конце слова: в этой позиции возможны только глухие. Такие единицы являются вариантами одной единицы (аллофонами, алломорфами).
- Свободное варьирование — единицы могут заменять друг друга в одном и том же контексте без изменения смысла. Например, в русском языке варианты произношения слова «энергия» — [энэрг’ия] и [эн’эрг’ия] — находятся в свободном варьировании. Такие единицы также считаются вариантами одной единицы.
Оппозиция
Понятие оппозиции тесно связано с дистрибуцией. Оппозиция — это различие между единицами, которое проявляется в контрастной дистрибуции. Выделяют три типа оппозиций (по Н. С. Трубецкому):
- Привативная — одна единица обладает признаком, другая — нет (например, «звонкость» у [д] и [т]).
- Эквиполентная — обе единицы имеют разные признаки (например, [п] — губной, [т] — переднеязычный).
- Градуальная — различие в степени проявления признака (например, долгие и краткие гласные в латыни).
Процедура дистрибутивного анализа
В классической форме, описанной Зеллигом Харрисом, процедура дистрибутивного анализа включает несколько последовательных шагов:
- Сбор корпуса текстов — запись достаточно большого объёма устных или письменных высказываний на исследуемом языке.
- Сегментация — разбивка текста на минимальные единицы (сегменты): сначала на слова (или морфемы), затем на фонемы. Сегментация проводится по принципу: если две последовательности звуков в разных контекстах имеют одинаковое значение, они считаются вариантами одной единицы.
- Выделение дистрибутивных классов — группировка единиц на основе сходства их окружений. Например, все слова, которые могут стоять после «вижу» и перед «стол», образуют класс прилагательных.
- Определение статуса единиц — на основе типа дистрибуции (контрастная, дополнительная, свободное варьирование) решается, являются ли данные варианты самостоятельными единицами (фонемами, морфемами) или их аллофонами/алломорфами.
- Построение системы единиц — формальное описание всей системы языка в виде набора классов и правил их сочетаемости.
Применение в лингвистике
Фонология
Дистрибутивный анализ наиболее широко применяется в фонологии. С его помощью устанавливается инвентарь фонем языка. Например, в русском языке звуки [к] и [к’] находятся в контрастной дистрибуции (кит — кот), следовательно, являются разными фонемами. Звуки [и] и [ы] — в дополнительной дистрибуции: [ы] встречается только после твёрдых согласных, [и] — в остальных позициях; поэтому они считаются вариантами одной фонемы <и>.
Морфология
В морфологии метод применяется для выделения морфем и их алломорфов. Например, в русском языке окончание родительного падежа единственного числа существительных имеет варианты: -а (стола), -я (коня), -у (чаю, редко), -и (ночи). Анализ их дистрибуции показывает, что -а и -я находятся в дополнительной дистрибуции (после твёрдых и мягких основ соответственно) и являются алломорфами одной морфемы.
Синтаксис
В синтаксисе дистрибутивный анализ позволяет выделить классы синтаксических конструкций и их трансформационные отношения. Например, Зеллиг Харрис разработал процедуру трансформационного анализа, где из ядерных предложений (типа «Мальчик читает книгу») с помощью формальных правил выводятся производные (например, «Книга читается мальчиком»). Этот подход лёг в основу генеративной грамматики Ноама Хомского.
Критика и ограничения
Дистрибутивный анализ подвергался критике по нескольким причинам:
- Игнорирование семантики — метод опирается только на формальные признаки (окружение) и не учитывает значение, что может приводить к парадоксальным результатам. Например, слова «о» (предлог) и «о» (междометие) могут иметь одинаковую дистрибуцию, но быть разными единицами.
- Проблема тождества единиц — для проведения анализа необходимо заранее решить, какие вхождения считать вариантами одной единицы, а какие — разными. Это решение часто требует интуитивных или семантических критериев.
- Ограниченная применимость — метод хорошо работает для языков со строгой системой чередований (например, для фонологии), но менее эффективен для синтаксиса из-за сложности и многообразия конструкций.
- Цикличность — процедура сегментации и классификации может требовать предварительных знаний о языке, что нарушает принцип строгой формальности.
Значение и наследие
Несмотря на критику, дистрибутивный анализ остаётся одним из фундаментальных методов лингвистики. Он дал строгий инструментарий для фонологического и морфологического описания многих языков мира, включая бесписьменные. Метод лёг в основу автоматического анализа текстов и компьютерной лингвистики, где формальные процедуры выделения единиц и их классов используются в задачах токенизации, стемминга и частеречной разметки. В современной лингвистике дистрибутивный анализ часто применяется в комбинации с корпусными методами и статистическими подходами, что позволяет преодолеть часть его ограничений.
Источники
- Апресян Ю. Д. Идеи и методы современной структурной лингвистики. — М.: Просвещение, 1966.
- Блумфилд Л. Язык. — М.: Прогресс, 1968.
- Трубецкой Н. С. Основы фонологии. — М.: Издательство иностранной литературы, 1960.
- Харрис З. С. Методы структурной лингвистики // Новое в лингвистике. — Вып. 2. — М.: Прогресс, 1962. — С. 15–107.
- Хоккет Ч. Ф. Проблемы морфематического анализа // Новое в лингвистике. — Вып. 2. — М.: Прогресс, 1962. — С. 195–225.
- Звегинцев В. А. История языкознания XIX–XX веков в очерках и извлечениях. — М.: Просвещение, 1965.
BFOmetr — база данных и аналитика по компаниям России.
На главную BFOmetr →