Корпусная лингвистика
Корпусная лингвистика — это раздел лингвистики, занимающийся созданием, обработкой и использованием корпусов текстов — структурированных, размеченных и репрезентативных собраний письменных или устных текстов на электронных носителях. Основной задачей корпусной лингвистики является эмпирическое изучение языка на основе реальных речевых данных, что позволяет выявлять статистические закономерности, лексические и грамматические модели, а также проверять лингвистические гипотезы. В отличие от традиционной лингвистики, опирающейся на интуицию носителя и отдельные примеры, корпусная лингвистика опирается на большие массивы данных и количественные методы анализа.
История
Предыстория и первые корпуса
Идея составления представительных коллекций текстов возникла задолго до появления компьютеров. Первым систематическим корпусом считается Брауновский корпус американского английского языка (Brown University Standard Corpus of Present-Day American English), созданный в 1960-х годах под руководством Генри Кучера и У. Нельсона Фрэнсиса. Он включал 500 текстов по 2000 слов каждый (всего около 1 миллиона слов) и стал образцом для последующих проектов. Ранние корпуса создавались вручную или с помощью перфокарт и требовали значительных трудозатрат.
Развитие в эпоху компьютеризации
С 1980-х годов, с распространением персональных компьютеров и оцифровкой текстов, корпусная лингвистика получила мощный импульс. В 1990-х годах появились Национальный корпус британского английского (British National Corpus, BNC) объёмом 100 миллионов слов и Корпус современного американского английского (Corpus of Contemporary American English, COCA), который регулярно пополняется. В России в начале 2000-х годов начал разрабатываться Национальный корпус русского языка (НКРЯ), который на сегодняшний день является крупнейшим представительным собранием текстов на русском языке (более 2 миллиардов словоупотреблений в разных подкорпусах).
Современный этап
В XXI веке развитие интернета и методов автоматической обработки текстов привело к появлению гигантских корпусов, включающих миллиарды слов (например, корпус Common Crawl для английского языка, корпус TenTen разных языков). Активно развиваются мультимодальные корпуса, включающие не только текст, но и аудио, видео и изображения. Технологии машинного обучения, особенно нейронные сети, позволили автоматизировать разметку и извлечение лингвистической информации из корпусов.
Типы корпусов
По языку
- Одноязычные — содержат тексты только на одном языке (например, НКРЯ, BNC).
- Двуязычные и многоязычные — состоят из параллельных текстов на двух и более языках (например, корпус OPUS, UN Parallel Corpus), что используется для машинного перевода и контрастивного анализа.
- Сопоставимые корпуса — содержат подборки текстов на разных языках, объединённые тематически или хронологически.
По типу материала
- Письменные — включают книги, газеты, научные статьи, интернет-тексты.
- Устные — содержат транскрипции спонтанной или подготовленной речи (например, корпус устной речи русского языка).
- Смешанные — объединяют письменные и устные данные.
По жанровой представленности
- Сбалансированные — стремятся отразить всё разнообразие функциональных стилей и жанров (художественная литература, публицистика, научные тексты, разговорная речь).
- Специализированные (терминологические) — посвящены одной области (юридические тексты, медицинские статьи, техническая документация).
- Диахронические — содержат тексты разных исторических периодов для изучения языковых изменений.
По объёму
- Малые (до 1 миллиона слов) — часто используются в дидактике или узкоспециальных исследованиях.
- Средние (от 1 до 100 миллионов слов) — типичный размер для национальных корпусов первого поколения.
- Большие и гигантские (от 100 миллионов до миллиардов слов) — создаются с помощью автоматизированного сбора с веб-страниц.
Структура и разметка корпуса
Представление данных
Корпус существует в электронной форме и обычно состоит из трёх уровней:
- Текстовые файлы — исходный материал в формате plain text, XML, JSON или специализированных форматах.
- Метаданные — информация о каждом тексте: автор, дата создания, жанр, тип издания, возраст и пол автора (если известны).
- Лингвистическая разметка (аннотация) — добавление дополнительной информации к каждому слову или предложению.
Основные виды разметки
- Морфологическая (лемматизация и частеречная) — каждому слову приписывается начальная форма (лемма) и грамматические признаки (часть речи, род, число, падеж, время, лицо и т.д.). Например, в корпусе слово «читала» будет иметь лемму «читать», грамматические признаки: глагол, единственное число, женский род, прошедшее время, изъявительное наклонение.
- Синтаксическая (деревья зависимостей) — описывает структуру предложения: связи между словами (подлежащее-сказуемое, управление, согласование). Синтаксически размеченные корпуса называются древовидными банками (treebanks). Наиболее известны Пенсильванский древовидный банк (Penn TreeBank) для английского языка и Уппсальский древовидный банк для русского языка.
- Семантическая разметка — тегирование значений, тематических рубрик, лексических функций (например, гипонимы, синонимические ряды). Пример — корпус WordNet, который является и лексической базой, и корпусом.
- Разметка просодии и интонации — применяется в устных корпусах для обозначения ударений, пауз, изменения тона.
Инструменты для работы с корпусами
Для поиска и извлечения данных из корпусов используются специализированные программы, называемые конкордансерами (например, AntConc, Sketch Engine, NoSketch Engine). Они позволяют получать конкордансы (все вхождения заданного слова или фразы в контексте), строить списки словоформ, вычислять коллокации (слова, статистически часто встречающиеся рядом), частотные словари и коэффициент лексического разнообразия.
Применение корпусной лингвистики
Лексикография
Корпуса стали основой современной лексикографии. Большинство толковых, двуязычных и учебных словарей (например, толковые словари Oxford, Collins, Longman, «Большой толковый словарь русского языка» под редакцией С. А. Кузнецова) создаются на основе корпусных данных. Корпус позволяет определить реальные частотность и контекст употребления слова, выявить новые значения и устойчивые выражения, а также ранжировать значения по частоте. Примером корпусного словаря является словарь Macmillan English Dictionary и «Грамота.ру».
Грамматические исследования
Корпусные данные позволяют изучать реальную грамматику языка в отличие от нормативных предписаний. С их помощью исследуются варьирование порядка слов, использование времен, согласование времен, употребление предлогов и союзов. Например, анализ НКРЯ показал, что в русском языке творительный падеж в роли предикатива (например, «Он был врачом») в XIX веке был менее частотен, чем в XX веке.
Социолингвистика
Используя корпуса с метаданными, лингвисты изучают социальную вариативность языка: различия в речи мужских и женских персонажей, возрастные изменения, региональные особенности. Корпуса устной речи позволяют анализировать разговорные явления (обрывы фраз, междометия, хезитации).
Дискурс-анализ и изучение идеологии
Крупные корпусы исторических текстов применяются для изучения изменений в дискурсе — как менялась частота и контекст употребления слов, обозначающих социальные группы, политические понятия, идеологемы. Например, корпусный анализ показывает, как в российских газетах 1990-х годов снизилась частота слова «социализм» и выросло употребление термина «рынок».
Автоматическая обработка языка (NLP)
Корпуса являются основой для обучения и тестирования систем обработки естественного языка:
- Машинный перевод — системы переводчика обучаются на параллельных корпусах.
- Распознавание речи и синтез речи — используются устные корпуса с транскрипциями.
- Сентимент-анализ — размеченные корпусы отзывов и мнений.
- Извлечение информации (NER) — корпуса с выделенными именами, датами, названиями организаций.
- Языковые модели — большие языковые модели (LLM), такие как GPT или YandexGPT, обучаются на огромных текстовых корпусах (TeraWords, Common Crawl), что позволяет им генерировать человекоподобный текст (см. методика обучения на корпусах — корпусное обучение нейросетей).
Крупнейшие корпуса русского языка
- Национальный корпус русского языка (НКРЯ, ruscorpora.ru) — самый представительный корпус с современными и историческими текстами, содержит разметку морфологическую, семантическую, синтаксическую (для части текстов). Имеет подкорпусы: диалектный, поэтический, устный, региональные варианты русского языка.
- Генеральный интернет-корпус русского языка (ГИКРЯ, created на основе Генерального корпуса) — включает тексты социальных сетей, блогов, форумов, что позволяет изучать живую интернет-речь.
- Корпус «Томского государственного университета» — специализируется на сибирских говорах и региональной лексике.
- Корпус устной русской речи — включает транскрипции диалогов и монологов с указанием пауз, интонации.
Критика и ограничения
- Репрезентативность — ни один корпус не может абсолютно точно отражать всё разнообразие языка, особенно редкие явления. Составители корпуса вынуждены делать выбор между жанрами, временными периодами и источниками, что может создавать искажения.
- Зависимость от метаданных — корпусные исследования требуют точных метаданных (год, жанр, автор). При их отсутствии или неполноте выводы могут быть некорректными.
- Различия в разметке — разные корпусы используют разные системы тегов и грамматические описания, что затрудняет сопоставимость результатов.
- Проблема устной речи — большинство корпусов основаны на письменных текстах. Корпуса устной речи ограничены объёмом и сложностью расшифровки.
Интересные факты
- Первый корпус в мире (доцифровой) — «Тристанский корпус» (французский язык, XII–XIII века) — был создан в 1900-х годах для изучения старофранцузских романов.
- Крупнейший национальный корпус — Chinese Gigaword (китайский язык) содержит более 1 миллиарда слов.
- Корпусные методы позволили выявить, что в современном английском языке слово «the» составляет около 7% всех текстов, а 100 самых частотных слов покрывают более 50% любого текста.
Источники
- Кибрик А. А., Добрушина Н. Р. Корпусная лингвистика // Энциклопедия «Кругосвет».
- Матвеева Т. В. Корпусная лингвистика: теория и практика. М.: Флинта, 2021.
- Национальный корпус русского языка. Официальный сайт (ruscorpora.ru).
- Kennedy G. An Introduction to Corpus Linguistics. Longman, 1998.
- Biber D., Conrad S., Reppen R. Corpus Linguistics: Investigating Language Structure and Use. Cambridge University Press, 1998.
BFOmetr — база данных и аналитика по компаниям России.
На главную BFOmetr →