Открыть сервис

Корпусная лингвистика

Корпусная лингвистика — это раздел лингвистики, занимающийся созданием, обработкой и использованием корпусов текстов — структурированных, размеченных и репрезентативных собраний письменных или устных текстов на электронных носителях. Основной задачей корпусной лингвистики является эмпирическое изучение языка на основе реальных речевых данных, что позволяет выявлять статистические закономерности, лексические и грамматические модели, а также проверять лингвистические гипотезы. В отличие от традиционной лингвистики, опирающейся на интуицию носителя и отдельные примеры, корпусная лингвистика опирается на большие массивы данных и количественные методы анализа.

История

Предыстория и первые корпуса

Идея составления представительных коллекций текстов возникла задолго до появления компьютеров. Первым систематическим корпусом считается Брауновский корпус американского английского языка (Brown University Standard Corpus of Present-Day American English), созданный в 1960-х годах под руководством Генри Кучера и У. Нельсона Фрэнсиса. Он включал 500 текстов по 2000 слов каждый (всего около 1 миллиона слов) и стал образцом для последующих проектов. Ранние корпуса создавались вручную или с помощью перфокарт и требовали значительных трудозатрат.

Развитие в эпоху компьютеризации

С 1980-х годов, с распространением персональных компьютеров и оцифровкой текстов, корпусная лингвистика получила мощный импульс. В 1990-х годах появились Национальный корпус британского английского (British National Corpus, BNC) объёмом 100 миллионов слов и Корпус современного американского английского (Corpus of Contemporary American English, COCA), который регулярно пополняется. В России в начале 2000-х годов начал разрабатываться Национальный корпус русского языка (НКРЯ), который на сегодняшний день является крупнейшим представительным собранием текстов на русском языке (более 2 миллиардов словоупотреблений в разных подкорпусах).

Современный этап

В XXI веке развитие интернета и методов автоматической обработки текстов привело к появлению гигантских корпусов, включающих миллиарды слов (например, корпус Common Crawl для английского языка, корпус TenTen разных языков). Активно развиваются мультимодальные корпуса, включающие не только текст, но и аудио, видео и изображения. Технологии машинного обучения, особенно нейронные сети, позволили автоматизировать разметку и извлечение лингвистической информации из корпусов.

Типы корпусов

По языку

По типу материала

По жанровой представленности

По объёму

Структура и разметка корпуса

Представление данных

Корпус существует в электронной форме и обычно состоит из трёх уровней:

Основные виды разметки

Инструменты для работы с корпусами

Для поиска и извлечения данных из корпусов используются специализированные программы, называемые конкордансерами (например, AntConc, Sketch Engine, NoSketch Engine). Они позволяют получать конкордансы (все вхождения заданного слова или фразы в контексте), строить списки словоформ, вычислять коллокации (слова, статистически часто встречающиеся рядом), частотные словари и коэффициент лексического разнообразия.

Применение корпусной лингвистики

Лексикография

Корпуса стали основой современной лексикографии. Большинство толковых, двуязычных и учебных словарей (например, толковые словари Oxford, Collins, Longman, «Большой толковый словарь русского языка» под редакцией С. А. Кузнецова) создаются на основе корпусных данных. Корпус позволяет определить реальные частотность и контекст употребления слова, выявить новые значения и устойчивые выражения, а также ранжировать значения по частоте. Примером корпусного словаря является словарь Macmillan English Dictionary и «Грамота.ру».

Грамматические исследования

Корпусные данные позволяют изучать реальную грамматику языка в отличие от нормативных предписаний. С их помощью исследуются варьирование порядка слов, использование времен, согласование времен, употребление предлогов и союзов. Например, анализ НКРЯ показал, что в русском языке творительный падеж в роли предикатива (например, «Он был врачом») в XIX веке был менее частотен, чем в XX веке.

Социолингвистика

Используя корпуса с метаданными, лингвисты изучают социальную вариативность языка: различия в речи мужских и женских персонажей, возрастные изменения, региональные особенности. Корпуса устной речи позволяют анализировать разговорные явления (обрывы фраз, междометия, хезитации).

Дискурс-анализ и изучение идеологии

Крупные корпусы исторических текстов применяются для изучения изменений в дискурсе — как менялась частота и контекст употребления слов, обозначающих социальные группы, политические понятия, идеологемы. Например, корпусный анализ показывает, как в российских газетах 1990-х годов снизилась частота слова «социализм» и выросло употребление термина «рынок».

Автоматическая обработка языка (NLP)

Корпуса являются основой для обучения и тестирования систем обработки естественного языка:

Крупнейшие корпуса русского языка

Критика и ограничения

Интересные факты

Источники

BFOmetr — база данных и аналитика по компаниям России.

На главную BFOmetr →