Корпусная лингвистика

Корпусная лингвистика — это раздел лингвистики, занимающийся созданием, обработкой и использованием корпусов текстов — структурированных, размеченных и репрезентативных собраний письменных или устных текстов на электронных носителях. Основной задачей корпусной лингвистики является эмпирическое изучение языка на основе реальных речевых данных, что позволяет выявлять статистические закономерности, лексические и грамматические модели, а также проверять лингвистические гипотезы. В отличие от традиционной лингвистики, опирающейся на интуицию носителя и отдельные примеры, корпусная лингвистика опирается на большие массивы данных и количественные методы анализа.

История

Предыстория и первые корпуса

Идея составления представительных коллекций текстов возникла задолго до появления компьютеров. Первым систематическим корпусом считается Брауновский корпус американского английского языка (Brown University Standard Corpus of Present-Day American English), созданный в 1960-х годах под руководством Генри Кучера и У. Нельсона Фрэнсиса. Он включал 500 текстов по 2000 слов каждый (всего около 1 миллиона слов) и стал образцом для последующих проектов. Ранние корпуса создавались вручную или с помощью перфокарт и требовали значительных трудозатрат.

Развитие в эпоху компьютеризации

С 1980-х годов, с распространением персональных компьютеров и оцифровкой текстов, корпусная лингвистика получила мощный импульс. В 1990-х годах появились Национальный корпус британского английского (British National Corpus, BNC) объёмом 100 миллионов слов и Корпус современного американского английского (Corpus of Contemporary American English, COCA), который регулярно пополняется. В России в начале 2000-х годов начал разрабатываться Национальный корпус русского языка (НКРЯ), который на сегодняшний день является крупнейшим представительным собранием текстов на русском языке (более 2 миллиардов словоупотреблений в разных подкорпусах).

Современный этап

В XXI веке развитие интернета и методов автоматической обработки текстов привело к появлению гигантских корпусов, включающих миллиарды слов (например, корпус Common Crawl для английского языка, корпус TenTen разных языков). Активно развиваются мультимодальные корпуса, включающие не только текст, но и аудио, видео и изображения. Технологии машинного обучения, особенно нейронные сети, позволили автоматизировать разметку и извлечение лингвистической информации из корпусов.

Типы корпусов

По языку

Одноязычные — содержат тексты только на одном языке (например, НКРЯ, BNC).
Двуязычные и многоязычные — состоят из параллельных текстов на двух и более языках (например, корпус OPUS, UN Parallel Corpus), что используется для машинного перевода и контрастивного анализа.
Сопоставимые корпуса — содержат подборки текстов на разных языках, объединённые тематически или хронологически.

По типу материала

Письменные — включают книги, газеты, научные статьи, интернет-тексты.
Устные — содержат транскрипции спонтанной или подготовленной речи (например, корпус устной речи русского языка).
Смешанные — объединяют письменные и устные данные.

По жанровой представленности

Сбалансированные — стремятся отразить всё разнообразие функциональных стилей и жанров (художественная литература, публицистика, научные тексты, разговорная речь).
Специализированные (терминологические) — посвящены одной области (юридические тексты, медицинские статьи, техническая документация).
Диахронические — содержат тексты разных исторических периодов для изучения языковых изменений.

По объёму

Малые (до 1 миллиона слов) — часто используются в дидактике или узкоспециальных исследованиях.
Средние (от 1 до 100 миллионов слов) — типичный размер для национальных корпусов первого поколения.
Большие и гигантские (от 100 миллионов до миллиардов слов) — создаются с помощью автоматизированного сбора с веб-страниц.

Структура и разметка корпуса

Представление данных

Корпус существует в электронной форме и обычно состоит из трёх уровней:

Текстовые файлы — исходный материал в формате plain text, XML, JSON или специализированных форматах.
Метаданные — информация о каждом тексте: автор, дата создания, жанр, тип издания, возраст и пол автора (если известны).
Лингвистическая разметка (аннотация) — добавление дополнительной информации к каждому слову или предложению.

Основные виды разметки

Морфологическая (лемматизация и частеречная) — каждому слову приписывается начальная форма (лемма) и грамматические признаки (часть речи, род, число, падеж, время, лицо и т.д.). Например, в корпусе слово «читала» будет иметь лемму «читать», грамматические признаки: глагол, единственное число, женский род, прошедшее время, изъявительное наклонение.
Синтаксическая (деревья зависимостей) — описывает структуру предложения: связи между словами (подлежащее-сказуемое, управление, согласование). Синтаксически размеченные корпуса называются древовидными банками (treebanks). Наиболее известны Пенсильванский древовидный банк (Penn TreeBank) для английского языка и Уппсальский древовидный банк для русского языка.
Семантическая разметка — тегирование значений, тематических рубрик, лексических функций (например, гипонимы, синонимические ряды). Пример — корпус WordNet, который является и лексической базой, и корпусом.
Разметка просодии и интонации — применяется в устных корпусах для обозначения ударений, пауз, изменения тона.

Инструменты для работы с корпусами

Для поиска и извлечения данных из корпусов используются специализированные программы, называемые конкордансерами (например, AntConc, Sketch Engine, NoSketch Engine). Они позволяют получать конкордансы (все вхождения заданного слова или фразы в контексте), строить списки словоформ, вычислять коллокации (слова, статистически часто встречающиеся рядом), частотные словари и коэффициент лексического разнообразия.

Применение корпусной лингвистики

Лексикография

Корпуса стали основой современной лексикографии. Большинство толковых, двуязычных и учебных словарей (например, толковые словари Oxford, Collins, Longman, «Большой толковый словарь русского языка» под редакцией С. А. Кузнецова) создаются на основе корпусных данных. Корпус позволяет определить реальные частотность и контекст употребления слова, выявить новые значения и устойчивые выражения, а также ранжировать значения по частоте. Примером корпусного словаря является словарь Macmillan English Dictionary и «Грамота.ру».

Грамматические исследования

Корпусные данные позволяют изучать реальную грамматику языка в отличие от нормативных предписаний. С их помощью исследуются варьирование порядка слов, использование времен, согласование времен, употребление предлогов и союзов. Например, анализ НКРЯ показал, что в русском языке творительный падеж в роли предикатива (например, «Он был врачом») в XIX веке был менее частотен, чем в XX веке.

Социолингвистика

Используя корпуса с метаданными, лингвисты изучают социальную вариативность языка: различия в речи мужских и женских персонажей, возрастные изменения, региональные особенности. Корпуса устной речи позволяют анализировать разговорные явления (обрывы фраз, междометия, хезитации).

Дискурс-анализ и изучение идеологии

Крупные корпусы исторических текстов применяются для изучения изменений в дискурсе — как менялась частота и контекст употребления слов, обозначающих социальные группы, политические понятия, идеологемы. Например, корпусный анализ показывает, как в российских газетах 1990-х годов снизилась частота слова «социализм» и выросло употребление термина «рынок».

Автоматическая обработка языка (NLP)

Корпуса являются основой для обучения и тестирования систем обработки естественного языка:

Машинный перевод — системы переводчика обучаются на параллельных корпусах.
Распознавание речи и синтез речи — используются устные корпуса с транскрипциями.
Сентимент-анализ — размеченные корпусы отзывов и мнений.
Извлечение информации (NER) — корпуса с выделенными именами, датами, названиями организаций.
Языковые модели — большие языковые модели (LLM), такие как GPT или YandexGPT, обучаются на огромных текстовых корпусах (TeraWords, Common Crawl), что позволяет им генерировать человекоподобный текст (см. методика обучения на корпусах — корпусное обучение нейросетей).

Крупнейшие корпуса русского языка

Национальный корпус русского языка (НКРЯ, ruscorpora.ru) — самый представительный корпус с современными и историческими текстами, содержит разметку морфологическую, семантическую, синтаксическую (для части текстов). Имеет подкорпусы: диалектный, поэтический, устный, региональные варианты русского языка.
Генеральный интернет-корпус русского языка (ГИКРЯ, created на основе Генерального корпуса) — включает тексты социальных сетей, блогов, форумов, что позволяет изучать живую интернет-речь.
Корпус «Томского государственного университета» — специализируется на сибирских говорах и региональной лексике.
Корпус устной русской речи — включает транскрипции диалогов и монологов с указанием пауз, интонации.

Критика и ограничения

Репрезентативность — ни один корпус не может абсолютно точно отражать всё разнообразие языка, особенно редкие явления. Составители корпуса вынуждены делать выбор между жанрами, временными периодами и источниками, что может создавать искажения.
Зависимость от метаданных — корпусные исследования требуют точных метаданных (год, жанр, автор). При их отсутствии или неполноте выводы могут быть некорректными.
Различия в разметке — разные корпусы используют разные системы тегов и грамматические описания, что затрудняет сопоставимость результатов.
Проблема устной речи — большинство корпусов основаны на письменных текстах. Корпуса устной речи ограничены объёмом и сложностью расшифровки.

Интересные факты

Первый корпус в мире (доцифровой) — «Тристанский корпус» (французский язык, XII–XIII века) — был создан в 1900-х годах для изучения старофранцузских романов.
Крупнейший национальный корпус — Chinese Gigaword (китайский язык) содержит более 1 миллиарда слов.
Корпусные методы позволили выявить, что в современном английском языке слово «the» составляет около 7% всех текстов, а 100 самых частотных слов покрывают более 50% любого текста.

Источники

Кибрик А. А., Добрушина Н. Р. Корпусная лингвистика // Энциклопедия «Кругосвет».
Матвеева Т. В. Корпусная лингвистика: теория и практика. М.: Флинта, 2021.
Национальный корпус русского языка. Официальный сайт (ruscorpora.ru).
Kennedy G. An Introduction to Corpus Linguistics. Longman, 1998.
Biber D., Conrad S., Reppen R. Corpus Linguistics: Investigating Language Structure and Use. Cambridge University Press, 1998.

BFOmetr — база данных и аналитика по компаниям России.

На главную BFOmetr →