Открыть сервис

Большие данные

Большие данные (англ. big data) — это совокупность подходов, методов и инструментов для обработки структурированных и неструктурированных данных огромных объёмов и значительного многообразия, которые не могут быть эффективно обработаны традиционными системами управления базами данных и приложениями. Ключевыми характеристиками больших данных принято считать «три V»: объём (volume), скорость (velocity) и разнообразие (variety). В более широком смысле термин также обозначает сами массивы данных такого масштаба, а также технологическую инфраструктуру, необходимую для их сбора, хранения, анализа и визуализации.

История и возникновение термина

Предпосылки появления

Концепция больших данных начала формироваться во второй половине 2000-х годов на фоне взрывного роста объёмов цифровой информации. Этому способствовали несколько факторов: распространение интернета, появление социальных сетей, массовое внедрение датчиков и сенсоров (Интернет вещей), а также развитие цифровых технологий в науке (например, в геномике и астрономии). Традиционные реляционные базы данных и методы статистического анализа перестали справляться с новыми вызовами.

Введение термина

Сам термин «большие данные» (big data) в его современном значении ввёл в широкий оборот аналитик компании Gartner Дуг Лейни (Doug Laney) в 2001 году, описав проблему управления данными в контексте роста объёмов, скорости поступления и разнообразия форматов. Однако популярность термин приобрёл в начале 2010-х годов, когда технологические гиганты (Google, Amazon, Facebook) начали активно публиковать описания своих распределённых систем обработки данных (например, Google File System, MapReduce).

Этапы развития

Развитие больших данных прошло несколько этапов:

  1. Первое поколение (2005–2010): Доминирование технологий Hadoop (MapReduce, HDFS) и NoSQL-баз данных. Основное внимание — на масштабируемости хранения и параллельной обработке.
  2. Второе поколение (2010–2015): Появление инструментов в реальном времени (Apache Spark, Storm, Kafka), развитие аналитических платформ (Apache Hive, Presto). Фокус сместился на скорость обработки и сложную аналитику.
  3. Третье поколение (2015 – настоящее время): Переход к облачным решениям (Amazon Web Services, Google Cloud, Microsoft Azure), интеграция с машинным обучением и искусственным интеллектом, автоматизация процессов сбора и анализа (DataOps, MLOps). Возросла роль управления качеством данных и их безопасности.

Характеристики (модель «V»)

Классическое определение больших данных базируется на трёх основных характеристиках. По мере развития концепции к ним добавлялись и другие аспекты.

Объём (Volume)

Объём данных является главной отличительной чертой. Единицы измерения — терабайты (ТБ) и петабайты (ПБ), в отдельных случаях (например, в научных проектах вроде Большого адронного коллайдера) — эксабайты (ЭБ). Объём данных настолько велик, что требует распределённого хранения на сотнях и тысячах серверов.

Скорость (Velocity)

Скорость означает не только высокую частоту поступления новых данных (например, миллионы записей в секунду от датчиков), но и необходимость их быстрой обработки для получения результата в реальном времени или близком к нему. Режимы обработки варьируются от пакетной (пакетный анализ логов за сутки) до потоковой (анализ финансовых транзакций в момент совершения).

Разнообразие (Variety)

Данные имеют разные форматы и структуры:

Дополнительные характеристики

В более поздних версиях модели «V» добавляются:

Технологическая инфраструктура

Обработка больших данных стала возможной благодаря появлению специфических технологий, которые делятся на несколько категорий.

Хранение

Обработка и анализ

Инструменты управления

Применение

Большие данные находят применение практически во всех отраслях экономики и сферах жизни.

Бизнес и коммерция

Наука и здравоохранение

Государственное управление и безопасность

Критика и вызовы

Концепция больших данных не лишена спорных аспектов и серьёзных проблем.

Технические трудности

Этические и правовые проблемы

Ложные корреляции

Один из главных методологических упрёков — склонность к выявлению статистически значимых, но бессмысленных с практической точки зрения зависимостей (например, «чем больше продаж мороженого — тем выше уровень насилия» — корреляция, вызванная сезонным фактором (лето: жара + отпуска)). Критики отмечают, что большие данные без должного контроля гипотез могут a priori подкреплять любые предрассудки.

Дальнейшие перспективы

Развитие больших данных движется в сторону интеграции с другими технологическими трендами. Ключевыми направлениями являются:

BFOmetr — база данных и аналитика по компаниям России.

На главную BFOmetr →