Сколько месяцев данных нужно для MMM?

Минимум 18 месяцев в дневной грануляции. Идеально — 24 месяца: вместе моделируются сезонность (1 год) + промо-эффекты + изменения микса каналов. Меньше данных = шире confidence band = ниже надёжность решений.

У меня уже есть data-команда, зачем работать с Вами?

Analytics engineering (dbt, LookML, MMM, incrementality) — отдельная дисциплина; гибридный скелет data engineer + data analyst + ML engineer. Сначала строим вместе, через 6-12 месяцев передаём операцию через runbook.

Выбор инструментов за нами?

Да. Работаем vendor-agnostic. Из комбинации dbt + warehouse + BI рекомендуем подходящее именно Вам; адаптируемся к Вашему текущему стеку. Lock-in отсутствует.

Как проводится incrementality-тест?

Два метода: (1) Geo-holdout — в одной географии канал отключается и сравнивается с другой (framework GeoLift); (2) Matched-market — статистически сопоставляются два схожих рынка. Оба требуют 4-6-недельного цикла теста + post-test анализа.

Каков диапазон стоимости?

Первый 3-месячный запуск — 18-40 тыс. USD (warehouse + dbt + BI + MMM). Ежемесячная поддержка — 4-10 тыс. USD. Warehouse compute отдельно (в среднем 200-2 000 USD/мес). На enterprise-проектах с акцентом на MMM + incrementality объём может расширяться.

Когда запускается self-serve?

Обычно после 3-го месяца. Первые 3 месяца донастраиваются модель данных + dashboard; после стабилизации бизнес-юниту открывается Metabase/Lightdash и проводится обучение. К 6-му месяцу типовая цель — 30-50 активных self-serve user.

На ком ответственность по data governance?

Runbook и рамки политики — за нами; внедрение и управление доступом — за Вашей IT / security командой. По соответствию KVKK / GDPR работаем вместе с Вашим юридическим партнёром — техническая реализация на нас.

АНАЛИТИКА, ОРИЕНТИРОВАННАЯ НА РЕШЕНИЯ

Анализ данных и инженерия инсайтов

Маркетинговые данные мы подключаем не к dashboard, а к механизмам принятия решений. KPI tree, dbt-моделирование, Bayesian MMM, тесты на incrementality и self-serve аналитика — инфраструктура не измерения, а действия.

Обсудим стратегию

Контакты

SERVICE

Active capacity

— THESIS

01Decision-first: каждая метрика должна запускать решение; если не запускает — это шум, удаляется с панели.
02Tree-first: KPI tree — для каждой метрики прописаны источник, владелец, порог и запускаемое решение.
03Model-first: dbt + версионируемые + тестируемые модели данных; работа в Excel запрещена.
04Cohort-first: средние вводят в заблуждение — стандарт — D1/D7/D30/D90 и сегментная разбивка.
05Alert-first: вместо ожидания взгляда на dashboard — алерт в Slack + email в момент превышения порога.
06Self-serve-first: бизнес-юнит должен сам отвечать на свои вопросы — data-команда не bottleneck, а enabler.

Аналитика — это не «подготовка dashboard»; это операционная система, в которой каждый график напрямую запускает решение.

Большинство компаний тонет в 40+ dashboard, но получает пять разных ответов из пяти разных источников на один и тот же вопрос. KPI обсуждаются, решения откладываются, побеждает HiPPO. Аналитическая операция Roibase устраняет эту неопределённость через шесть принципов; каждый принцип производит не dashboard, а решения.

Roibase perspective

МЕТОДОЛОГИЯ

DIAGNOSE → MODEL → BUILD → AUTOMATE → VALIDATE → EDUCATE

Шесть слоёв аналитической операции; каждый производит отдельный artifact и питает связанный с ним цикл принятия решений.

DIAGNOSE

Инвентаризация решений + карта вопросов

Перечисляются 30 вопросов, которые лица, принимающие решения, задают еженедельно; уточняются источник ответа, частота, SLA и эффект.

MODEL

KPI tree + модель данных

dbt-модели + LookML или Metabase semantic layer; версионируемое, тестируемое, документированное.

BUILD

Dashboard + система алертов

Dashboard по категориям решений (CAC, retention, revenue quality); алерты с порогами + шаблоны триггеров.

AUTOMATE

Pipeline + refresh + monitoring

Refresh-оркестрация через Airflow / Dagster / dbt Cloud; pipeline health + тесты качества данных + Slack-бот.

VALIDATE

A/B + incrementality + валидация MMM

Выводы моделей сверяются с экспериментами; калибровка через тесты incrementality + симуляции сценариев MMM.

EDUCATE

Data council + обучение self-serve

Ежемесячное собрание data council: какие вопросы остались без ответа, какие dashboard не использовались, какое self-serve обучение нужно.

— СРАВНЕНИЕ

В чём наше отличие? Классический BI vs аналитика, ориентированная на решения

Компания может считать «аналитикой» 100 dashboard. Реальная же ценность появляется тогда, когда каждый dashboard связан с решением, а каждое решение — с действием.

Параметр	In-house BI в одиночку	Классическое reporting-агентство	Roibase: аналитика, ориентированная на решения
Определение KPI	Пересекается между подразделениями	Шаблон агентства	KPI tree + письменное ownership
Философия dashboard	Изобилие графиков	Ориентация на ежеквартальный PPT	Каждый график — решение
Слой моделирования данных	Ad-hoc SQL + Excel	Отчёты внутри платформы	dbt + версионируемое + с тестами
Cohort + LTV инженерия	Ограничено средними метриками	Как отчёт — отсутствует	D1-D90 + сегмент + кривая LTV
MMM + incrementality	Нет	Excel-эксперименты	Bayesian MMM + geo-holdout
Аномалии / система алертов	Ручной контроль	Нет	ML drift detector + Slack/email
Self-serve культура	Data-команда — bottleneck	Driven отчётами	Бизнес-юнит спрашивает сам
Governance + PII	Политики нет	Не осознаётся	PII tagging + retention + audit

PROOF

Outcomes, measured

Стратегических вопросов

Число стратегических вопросов, на которые можно ответить в первом спринте.

−%40

Экономия времени на отчётности

Часы, которые маркетинговая команда возвращает на ручной подготовке dashboard.

Refresh MMM в год

Ритм обновления в зависимости от изменений сезона + микса каналов.

18-24

Месяцев исторического горизонта

Минимально необходимый дневной диапазон данных для MMM + forecast.

%99.2

Pipeline uptime

SLA dbt + Airflow + monitoring; включая тесты качества данных.

5 дней

Срок публикации dashboard

Среднее время от brief до live для новой панели по решению.

WHAT WE DO

Engagement scope

Every offering is an outcome-based work package. Roibase blends strategy and execution inside a single team — no hand-offs.

01 / 10

Архитектура KPI tree

Каждая маркетинговая метрика напрямую увязана с бизнес-результатом; у каждой метрики есть владелец, источник, порог и запускаемое решение.

02 / 10

Decision-tree dashboards

Не графики, а решения: панели по логике «при таком пороге — такое действие»; каждая панель для конкретной роли и частоты.

03 / 10

Слой dbt + warehouse + BI

Версионируемые + тестируемые модели данных через dbt; на BigQuery / Snowflake / Redshift; интерфейс LookML / Metabase / Lightdash.

04 / 10

Инженерия cohort и retention

Когортные таблицы D1/D7/D30/D90, кривые LTV, посегментный churn и анализ resurrection — реальное поведение под средними значениями.

05 / 10

Bayesian MMM

Media, промо, сезон и макропеременные моделируются вместе; Robyn + PyMC; ежеквартальный refresh + confidence band.

06 / 10

Моделирование атрибуции

GA4 DDA + multi-touch attribution + подходы shapley value; модель для решений за пределами предвзятой отчётности платформ.

07 / 10

Incrementality testing

Geo-holdout + matched-market тесты; Meta Lift, GeoLift, in-house framework; референс-точность для бюджетных решений.

08 / 10

Обнаружение аномалий

ML-based drift detector + forecast band + Slack/email алерт для тихо ухудшающихся метрик; не утром, а в час события.

09 / 10

Self-serve analytics

Среда (Metabase, Lightdash, Hex), в которой бизнес-юнит сам отвечает на свои вопросы + обучение + менторство.

10 / 10

Data governance

PII tagging, schema registry, retention-политика, аудит доступа к данным, пакет документации; операция, соответствующая KVKK + GDPR.

— РЕЗУЛЬТАТ

Эффект операции с данными на стороне принятия решений

Чем быстрее, чем основательнее на данных и чем повторяемее решения организации, тем сильнее её позиция в непредсказуемых рыночных условиях.

3× к скорости

Скорость решений

Ответы на 30 стратегических вопросов уже на панели; на встречах обсуждаются не данные, а действия.

Data-driven

Снижение HiPPO

Решение запускает не мнение самого высокооплачиваемого, а данные; обсуждение опирается на метрики.

−40 % часов

Экономия времени на отчётности

Завершаются ручные Excel-рутины маркетинговой команды; возвращённые часы переводятся в стратегический анализ.

Часы, а не дни

Раннее предупреждение + действие

С ML drift detector + системой алертов с порогами ухудшающиеся метрики ловятся за часы.

50+ self-serve user

Self-serve культура

Бизнес-юнит сам отвечает на свои вопросы, не дожидаясь data-команды; data-команда фокусируется на стратегической работе.

±8 % accuracy

MMM + точность forecast

Через Bayesian MMM + калибровку incrementality отклонение forecast — в полосе ±8 %; бюджетное решение надёжно.

ПОСТАВКИ

Ежемесячные + ежеквартальные результаты

Конкретные артефакты аналитической операции; каждый передаётся Вашей команде, а к 12-му месяцу полностью работает в формате runbook без нашего участия.

Инвентаризация решений + карта 30 вопросов
Список вопросов, задаваемых лицами, принимающими решения, еженедельно, источник ответа, SLA и потребности в недостающих данных.
KPI tree
Источник, владелец, порог и запускаемое решение для каждой метрики — единая доска Miro / FigJam, версионируемая.
dbt-репозиторий + модели
Версионируемый + тестируемый dbt-проект; слои staging / intermediate / marts, включая документацию.
Semantic layer (LookML / Metabase models)
Слой общих metric definitions, лежащий за вопросами, которые задаёт бизнес-юнит.
Пакет dashboard
Первые 15-25 панелей по категориям решений (CAC, retention, revenue quality); каждая — по роли и частоте.
Система алертов с порогами
ML drift detector + forecast band + интеграция Slack/email; ухудшающиеся метрики выдают сигнал за часы.
Отчёт cohort + retention
Таблицы D1/D7/D30/D90 + кривые LTV + анализ сегментов churn + доля resurrection.
Модель MMM + отчёт
Bayesian MMM (Robyn/PyMC); вклад каналов + saturation + adstock + confidence band.
Протокол incrementality-теста
Framework geo-holdout и matched-market; шаблоны планирования + проведения + анализа.
Runbook по data governance
PII tagging, schema registry, политика retention, аудит доступа — соответствует KVKK + GDPR.
Ежемесячное резюме data council
На какие вопросы дан ответ, какие остались, какие dashboard использовались, список приоритетов на следующий месяц.
Учебные материалы по self-serve
Обучающие видео по Metabase / Lightdash / Hex для бизнес-юнита + словарь SQL / жаргона + практический набор данных.

— ОБЪЁМ

Что входит, а что нет?

Границы аналитической операции чёткие. Знание объёма заранее устраняет ложные ожидания и scope creep.

Что входит в эту услугу

Инвентаризация решений + первый спринт из 30 вопросов
KPI tree + письменное ownership + версионируемый документ
Установка dbt-репозитория + слои staging/intermediate/marts
Интеграция warehouse (BigQuery / Snowflake / Redshift / Databricks)
Semantic layer на LookML или Metabase
Первые 15-25 dashboard + ежеквартальное добавление
ML-обнаружение аномалий + система алертов с порогами
Аналитика cohort + LTV + retention — ежеквартальное обновление
Bayesian MMM (3 refresh в год)
Протокол incrementality-теста + проведение
Runbook по data governance (PII, retention, audit)
Ежемесячный data council + поток self-serve обучения

Не входящие работы (опционально как дополнительный объём)

Финансовый / бухгалтерский BI (сторона ERP — отдельный консалтинг)
Стоимость warehouse compute / лицензий (на стороне клиента)
Custom-обучение ML-моделей (за пределами forecasting)
Инфраструктура real-time streaming (Kafka, Kinesis — отдельный объём)
Консультации по data privacy / праву (с партнёрским адвокатом)
Продление лицензий BI-инструментов
Покупка данных third-party (panel, survey)
Сами маркетинговые операции (PPC / SEO / CRO — отдельная услуга)

HOW WE WORK

Процесс: от диагностики на 1-й неделе до governance на 6+ месяце — аналитическая операция

Недели 1-2 — Инвентаризация решений + audit

Список из 30 стратегических вопросов, инвентаризация существующих dashboard, диагностика здоровья источников данных и SLA.

Неделя 3 — KPI tree + schema

Письменный KPI tree, metric definitions, ownership; принято решение по схеме warehouse + слою staging.

Недели 4-5 — dbt-модели + первый dashboard

dbt staging + intermediate + marts; публикация первых 5-8 dashboard; stakeholder review.

Недели 6-8 — Алерт + cohort + refresh

Система алертов с порогами, отчёты cohort + retention, refresh pipeline на dbt Cloud / Airflow.

Месяц 3 — Тренировка MMM + первый результат

Bayesian MMM на 18 месяцах истории; вклад каналов + saturation + первая рекомендация по корректировке бюджета.

Месяц 4 — Протокол incrementality-теста

Framework geo-holdout или matched-market; первый тест запущен, результат — через 4-6 недель.

Месяц 5 — Data council + self-serve обучение

Запускается рутина ежемесячного data council; для бизнес-юнита — поток self-serve обучения по Metabase / Lightdash.

Месяц 6+ — Ежеквартальный refresh + governance

Ежеквартальный refresh MMM, цикл incrementality-тестов, аудит data governance; полный handoff возможен на 12-м месяце.

— СТЕК ИНСТРУМЕНТОВ

Аналитический stack от warehouse до BI

Работаем vendor-agnostic; но на каждом слое есть открытые инструменты, дающие максимум ценности. Адаптируемся к Вашему текущему стеку.

WAREHOUSE

BigQuery (экономично, on-demand)Snowflake (enterprise, изолированный compute)Redshift (в стеке AWS)Databricks (для ML-нагрузок)Postgres (малый-средний масштаб)

MODELLEME & TRANSFORM

dbt (core + cloud)Dataform (нативно для GCP)Coalesce (visual)Airflow / Dagster (orchestration)Fivetran / Stitch / Airbyte (ingestion)

BI & VISUAL

Looker (LookML semantic layer)Metabase (self-hosted self-serve)Lightdash (dbt-native BI)Tableau (enterprise)Hex / Mode (notebook-driven)Looker Studio (quick-win)

ML & MMM

Robyn (open-source MMM от Meta)PyMC / Pyro (Bayesian-моделирование)scikit-learn (drift detection)Prophet (forecasting)GeoLift (incrementality)Monte Carlo / Great Expectations (data quality)

QUESTIONS

Frequently asked

Для части компаний — да; при менее 10 dashboard, без cross-table join, в одноканальных операциях Looker Studio — практичное решение. Но при 30+ dashboard, версионируемой модели данных, потребности в role-based доступе нужны Looker / Metabase / Lightdash.

— ГЛОССАРИЙ

Аналитическая терминология

Когда команды одинаково понимают одни и те же термины, обсуждение ускоряет решение; иначе — растёт «подозрение в скорости».

KPI Tree: Иерархическое дерево метрик, расходящееся от ключевого бизнес-результата вниз; каждый узел — триггер решения.
dbt: Data build tool — SQL-ориентированный, версионируемый, тестируемый framework преобразования данных; стандарт analytics engineering.
Semantic Layer: Слой общих metric definitions + business logic за BI-инструментом; реализуется через LookML, Metabase models, Cube и аналогичные.
Cohort: Группа пользователей, объединённых характеристикой (датой регистрации, каналом acquisition); анализируется поведение во времени.
LTV (Lifetime Value): Совокупная пожизненная ценность клиента; gross margin × retention × частота заказов × средний чек.
Retention: Доля привлечённых пользователей, всё ещё активных в заданном окне (D1, D7, D30, M1, M3). В SaaS и mobile games — прямой индикатор product-market fit; выходящая на плато когортная кривая — подпись здорового продукта.
Churn: Доля пользователей, покидающих активную клиентскую базу в заданном окне. В subscription напрямую бьёт по MRR; в e-commerce — обратная сторона repeat rate. Делится на voluntary (отменили) и involuntary (сбой оплаты); снижается через онбординг, ценообразование и lifecycle-коммуникацию.
MMM (Marketing Mix Modeling): Модель, оценивающая вклад каналов через Bayesian-статистику; требует 18-24 месяцев исторических данных.
Incrementality: Дополнительные конверсии, которых не было бы без канала; измеряется geo-holdout-тестами и не зависит от attribution.
Anomaly Detection: Зонтик техник автоматического обнаружения значений вне ожидаемого диапазона в time-series-метриках (KPI, конверсия, latency, фрод-сигнал). Применяют STL decomposition, Prophet, isolation forest, нейронные OoD-модели; мозг alerting и observability-дашбордов.
Self-Serve Analytics: Аналитическая среда, в которой бизнес-юнит сам отвечает на свои вопросы, не дожидаясь data-команды; реализуется через Metabase, Lightdash, Hex.
Data Governance: Совокупность политик качества, контроля доступа, управления PII, retention и аудита данных; соответствие KVKK/GDPR.
ETL / ELT: Extract → Transform → Load (старое) vs Extract → Load → Transform (современное). Подходы переноса данных из источника в warehouse. ELT полагается на дешёвый compute облачных DW; dbt + BigQuery/Snowflake/Databricks — сегодняшний стандарт.
Data Lake: Центральное хранилище для всех структурированных и неструктурированных данных (логи, картинки, видео, raw events) без обязательной схемы. На S3, GCS или ADLS в форматах Parquet/Iceberg/Delta Lake; дополняет warehouse и лежит в основе lakehouse-архитектуры.
Stream Processing: Обработка данных как real-time потока событий, а не пачками. Распространённые стеки: Kafka + Flink/Spark Streaming/Kinesis + ksqlDB; кейсы — fraud detection, real-time персонализация, IoT-телеметрия и anomaly alerting.
Data Contract: Заранее согласованный контракт между производителями и потребителями данных о схеме, семантике, SLA и ownership. Реализуется через dbt + Great Expectations + JSON Schema; самая надёжная стена против сюрприза "downstream-модель сломалась".
LLM (Large Language Model): Универсальная языковая модель с миллиардами параметров на архитектуре transformer, предобученная на огромных корпусах текста. GPT-5, Claude, Gemini, Llama; рабочая лошадка для чата, кода, summarization, перевода, retrieval и agent-задач — специализируется fine-tuning или prompt engineering.
Transformer: Архитектура нейросетей из работы "Attention Is All You Need" (2017), захватывающая дальние связи в последовательных данных через self-attention. Преемник RNN и LSTM; основа всех современных LLM (GPT, Claude, Llama, Gemini) и даже vision-моделей (ViT).
Embedding: Высокоразмерное векторное представление слова, предложения, изображения или пользователя — семантическая близость измеряется расстоянием между векторами. Общая валюта для рекомендаций, semantic search, RAG, кластеризации и anomaly detection; OpenAI ada, Cohere и sentence-BERT — частые производители.
RAG (Retrieval-Augmented Generation): Архитектура, в которой LLM перед ответом подтягивает релевантные документы из внешней базы знаний (vector DB, doc store) и инъектирует их в контекст. Снижает галлюцинации и является стандартом доступа модели "open-book" к свежим/приватным данным — тройка embedding + retriever + LLM.
Vector Database: БД, хранящая embedding в высокоразмерном векторном пространстве и находящая похожие векторы за миллисекунды через ANN (Approximate Nearest Neighbor). Pinecone, Weaviate, Qdrant, pgvector, Chroma; реальный движок retrieval-слоя в RAG.
Fine-tuning: Процесс дообучения предобученной foundation-модели на дополнительных (обычно небольших) размеченных данных под конкретную задачу или домен. Full fine-tune, LoRA/QLoRA и instruction-tuning — частые варианты; основа кейсов "кастомный ассистент" поверх ChatGPT и аналогов.
LoRA (Low-Rank Adaptation): Параметр-эффективная техника fine-tuning, добавляющая малые "adapter"-матрицы вместо обновления всех весов foundation-модели. Обучает ~0,1-1 % параметров, экономит 70 %+ GPU-памяти; per-task swap адаптеров делает multi-task serving практичным.
RLHF (Reinforcement Learning from Human Feedback): Финальная стадия тренировочного пайплайна LLM, выравнивающая выходы модели с предпочтениями людей-оценщиков. Reward-модель + алгоритм PPO/DPO направляют модель в сторону "полезного, честного, безвредного" вывода; основа alignment ChatGPT.
Hallucination: Когда LLM уверенно выдумывает несуществующий источник, факт или цитату. Причина — модель с той же уверенностью отвечает на вопросы вне распределения её training-данных; смягчается RAG, citation grounding и self-consistency check — полностью не устраняется.
Prompt Engineering: Дисциплина системного проектирования prompt (инструкция + контекст + примеры + формат), чтобы LLM выдавал нужный результат. Few-shot, chain-of-thought, роль, output-схема, system prompt; слой "как с ней говорить" любой AI-системы в проде.
Context Window: Количество токенов (вход + выход), которое LLM может обработать за один вызов. От 8K-128K (GPT-4) до 200K (Claude) и 1M+ (Gemini); критическая ёмкость для анализа длинных документов, multi-turn-диалога и agent state — RAG — альтернатива "расширения" контекста.
Function Calling / Tool Use: Возможность LLM вызывать внешнюю функцию (API, запрос к БД, code-runner) через структурированный JSON вместо свободного текста. OpenAI tools, Anthropic tool_use; официальный протокол, позволяющий agent'ам касаться реального мира.
AI Agent: Программная конструкция, использующая LLM как решающий движок и автономно выполняющая многошаговые задачи через tool calling + память + цикл plan-execute. ReAct, AutoGPT, Claude/GPT agents, LangGraph; архитектура "исследовать → планировать → запускать tools → достичь цели".
Foundation Model: Крупная модель, предобученная на широких, разнородных данных интернет-масштаба и переносимая на downstream-задачи — LLM, vision-модели (CLIP, ViT), мультимодальные (GPT-4o, Gemini). Сверху строятся приложения через fine-tuning, prompt engineering или RAG.
Multimodal AI: Система ИИ, в которой одна и та же модель понимает и генерирует более чем в одной модальности — текст + изображение + аудио + видео. GPT-4o, Gemini, Claude 3.5 vision; основа кейсов вроде OCR, image captioning, видео Q&A, транскрипции аудио и screen-aware агентов.
NLP (Natural Language Processing): Подобласть ИИ о способности компьютера понимать, генерировать и трансформировать естественный язык (турецкий, английский и т. д.). Токенизация, POS-теггинг, NER, sentiment-анализ, машинный перевод; сегодня LLM — самые мощные универсальные инструменты в этой области.
Token: Наименьшая единица текста, которую обрабатывает LLM — может быть словом, подсловом или одним символом. Tokeniser (BPE, WordPiece, SentencePiece) переводит текст в токены; цены OpenAI и лимиты context window измеряются в токенах (1 английское слово ≈ 1,3 токена).
Temperature: Параметр, управляющий "случайностью" распределения выхода LLM — 0 = всегда самый вероятный токен (детерминистично), 1+ = больше креатива/разнообразия. Обычные значения: 0-0,3 для кода/JSON/числовых выходов, 0,7-1,2 для текста/brainstorm; настраивается вместе с top_p.
Semantic Search: Подход к поиску, возвращающий результаты по смыслу за счёт сравнения embedding запроса и документов, а не совпадения по ключевым словам. Не зависит от правописания, ловит синонимы; retrieval-движок RAG — на vector DB + ANN.
Inference: Этап, на котором обученная AI-модель выдаёт предсказания/генерации на живых данных (противоположность training). Latency, throughput, cost-per-request и стек model serving (vLLM, TGI, Triton); ~90 % продакшен-стороны MLOps.
OLTP (Online Transaction Processing): Подход к БД, оптимизированный для большого числа построчных чтений/записей с низкой задержкой. PostgreSQL, MySQL, MongoDB; стандартное хранилище под бэкендами live-приложений — корзина e-commerce, пользовательская сессия, бронирования.
OLAP (Online Analytical Processing): Колоночный подход к БД, оптимизированный под крупномасштабные аналитические запросы. BigQuery, Snowflake, Redshift, ClickHouse; сканирует миллионы строк за секунды для агрегаций, GROUP BY и time-series — инфраструктура BI и дашбордов.
ACID: Четыре гарантии транзакционных БД: Atomicity (всё-или-ничего), Consistency (правила не нарушаются), Isolation (параллельные операции не видят друг друга), Durability (закоммиченные данные сохраняются). Базовый контракт RDBMS вроде PostgreSQL, MySQL, Oracle.
BASE: Ослабленный набор гарантий распределённых/NoSQL-систем: Basically Available, Soft state, Eventual consistency. Противоположность ACID — допускает кратковременную несогласованность в обмен на availability + масштабируемость. Подход DynamoDB, Cassandra, Riak.
Sharding: Разбиение БД по ключу (user_id mod 16, временной диапазон) с хранением каждого шарда на отдельном сервере. Метод горизонтального масштабирования; cross-shard JOIN становится непрактичным, выбор shard-key — необратимое архитектурное решение.
Replication: Поддержание живой копии БД на нескольких серверах — чтобы распределить нагрузку на чтение (read replica) и обеспечить failover. Async (Postgres streaming) с задержкой, но быстрый; sync согласован, но медленный; каждая стратегия — компромисс.
Eventual Consistency: В распределённой системе обновлению нужно время, чтобы распространиться на все реплики — короткое время разные ноды могут возвращать разные значения. Дефолт DynamoDB и Cassandra; не для банков, идеально для соцсетей.
CDC (Change Data Capture): Паттерн захвата INSERT/UPDATE/DELETE-событий БД в реальном времени и отправки их в downstream-системы (warehouse, search index, cache). Debezium, Kafka Connect; работает на replication slot + log tailing, современная альтернатива polling.
Star Schema: Подход моделирования в хранилище, в котором центральная fact-таблица (напр. orders) окружена dimension-таблицами (customer, product, date) звездой. BI-запросы требуют мало JOIN = быстрые; каноническая архитектура для BigQuery, Snowflake.
Materialized View: Объект БД, физически записывающий результат SELECT-запроса на диск и кеширующий его. Предвычисляет сложную агрегацию вместо пересчёта каждый раз; стратегия refresh (ручной, по расписанию, инкрементный) — компромисс.
Normalization: Процесс разбиения схемы БД на связанные таблицы для устранения избыточности и аномалий обновления (1NF, 2NF, 3NF, BCNF). Стандарт OLTP; гарантирует, что каждое обновление происходит в одном месте — ценой большего числа JOIN.
Denormalization: Намеренное объединение нормализованных таблиц и допущение избыточности в обмен на производительность запросов. Стандарт OLAP / data warehouse; снижает стоимость JOIN, риск несогласованности — через ETL/CDC.
Time-series Database: БД, оптимизированная для записей большого объёма метрик с timestamp (CPU, IoT-сенсоры, финансовые тикеры) и запросов по диапазонам времени. InfluxDB, TimescaleDB, Prometheus, ClickHouse; downsampling + retention policy — ключевые фичи.
Iceberg / Hudi / Delta Lake: Open-source-проекты, добавляющие слой "формата таблиц" над object storage (S3, GCS) — вносят schema evolution, ACID, time-travel и поддержку concurrent writer. Три стандартных движка lakehouse-архитектуры.
Data Quality: Дисциплина измерения датасета по точности, полноте, согласованности, свежести и уникальности. Great Expectations, Monte Carlo, Soda автоматизируют тесты; единственная реальная защита от "garbage in, garbage out".
Data Lineage: Прослеживаемый граф всех шагов трансформации, которые проходит данные от источника (raw event) до конечного пользователя (KPI на дашборде). Atlan, OpenMetadata, dbt docs; детерминированный ответ на "откуда этот KPI" плюс impact analysis.
Data Mesh: Структура self-serve данных-продуктов по доменам (marketing, finance, product) вместо центральной data-команды. Строится на domain ownership + product thinking + federated governance; ответ на проблему "data-команда — bottleneck" на масштабе.
Data Catalog: Центральный каталог, индексирующий все data-активы организации (таблица, дашборд, ML-модель, колонка) с поиском, описаниями и ownership. Atlan, Collibra, OpenMetadata, Amundsen; ответ на "есть ли эти данные, кто владелец?".
Schema Evolution: Способность формата данных (Avro, Parquet, JSON) меняться во времени, не ломая существующих потребителей при добавлении полей. Требует дисциплины по backward + forward compatibility, optional-полям и default; критично для CDC, event sourcing, lakehouse.
AWS DynamoDB: Serverless NoSQL key-value + document БД AWS. Латентность в однозначных мс на миллиардах запросов/сек, авто-партиционирование, point-in-time recovery, global tables (multi-region). Идеально для game-бэкендов, IoT-телеметрии, сессий, leaderboard'ов.
GCP Spanner: Глобально масштабируемая, ACID-совместимая, горизонтально масштабируемая реляционная БД Google. SQL-синтаксис + масштаб уровня DynamoDB + транзакции уровня PostgreSQL; multi-region 99,999 % uptime; на ней работают Google Ads/Maps, идеально для fintech.
Azure Cosmos DB: Глобально масштабируемая multi-model NoSQL БД Microsoft Azure. API SQL, MongoDB, Cassandra, Gremlin (graph), Table на одном движке; пять уровней consistency (strong → eventual); latency и throughput по SLA.
Prometheus: Слой метрик cloud-native monitoring-стека. Pull-based scraping собирает /metrics с target-эндпоинтов; PromQL для time-series-запросов; Alertmanager управляет правилами алертов. De-facto стандарт для Kubernetes и современных микросервисных архитектур.
Grafana: Open-source платформа визуализации данных и дашбордов. Объединяет 100+ источников (Prometheus, Loki, Elasticsearch, CloudWatch, Postgres…) в одном интерфейсе; alerting, аннотации, templating панелей; стандарт NOC-экранов в SRE-командах.
Jaeger: CNCF-платформа distributed tracing. Захватывает каждый hop пользовательского запроса между микросервисами как span; визуализирует bottleneck'и латентности, потерянные зависимости, распространение ошибок. На 100 % совместима с OpenTelemetry.
OpenTelemetry (OTel): CNCF-проект, объединяющий observability (метрики, логи, трейсы) под единым vendor-neutral стандартом. SDK и авто-инструментация делают код приложения переносимым между Datadog, New Relic, Honeycomb, Jaeger — разрушает vendor lock-in.
ELK Stack: Elasticsearch + Logstash + Kibana — open-source стек агрегации, индексации и визуализации логов. Logstash принимает, Elasticsearch индексирует для full-text search, Kibana — дашборды. Loki + Grafana набирает силу на больших масштабах, но ELK остаётся очень распространённым.
SLI (Service Level Indicator): Числовой индикатор здоровья сервиса — success rate, p99-латентность, доступность. Основа для измерения SLO; объективно отвечает на "какой % запросов завершился до 200 мс?". Ключевая концепция из Google SRE Book.
SLO (Service Level Objective): Внутренний целевой показатель, который должен достичь SLI — напр. "p99-латентность < 200 мс в 99,9 % окна за 30 дней". Ответ инженерной команды на "насколько надёжно — достаточно надёжно"; основа для error budget.
SLA (Service Level Agreement): Внешний контракт между провайдером сервиса и клиентом; юридическое отражение SLO. Нарушение SLA влечёт штрафы (возврат, кредит). Правило: SLA < SLO < SLI — инженерия целится строже публичной гарантии.
Error Budget: "Допустимый объём отказов", вытекающий из SLO. SLO 99,9 % = 0,1 % error budget = ~43 минуты downtime в месяц. Бюджет есть → берите риски (релизы); бюджет израсходован → режим стабилизации. Баланс SRE между инновацией и надёжностью.
Diffusion Model: Семейство генеративных моделей, которые учатся постепенно добавлять шум к данным и затем обращать процесс вспять. Ключевая архитектура современных image/video-генераторов: Stable Diffusion, Midjourney, DALL-E 3, Sora. Обучается стабильнее GAN и даёт значительно более разнообразный выход.
GAN (Generative Adversarial Network): Генеративная модель, в которой две нейросети — Generator (фейки) и Discriminator (судья real/fake) — обучаются в конкуренции. Представлена Иэном Гудфеллоу в 2014; технология ранних deepfake, портретов StyleGAN, super-resolution. Сейчас в значительной мере вытеснена diffusion-моделями.
CLIP (Contrastive Language-Image Pre-training): Модель OpenAI 2021 года, выравнивающая изображения и подписи в общем embedding-пространстве — embedding "фото кошки" оказывается рядом с реальными фото кошек. Text-to-image conditioner в Stable Diffusion; основа zero-shot классификации изображений и визуального поиска.
ControlNet: Архитектура 2023 года, добавляющая diffusion-моделям дополнительный conditioning-сигнал. Управляет генерацией по референсам — pose, depth-map, canny edge, scribble — позволяя задавать "эта поза, но другая одежда". Один из самых используемых дополнений экосистемы Stable Diffusion.
Adapter Tuning: Подход fine-tuning, при котором в большую языковую модель встраиваются небольшие "adapter"-слои вместо переобучения всех параметров. Популярные варианты — LoRA, QLoRA, IA³; обучается <1 % исходных параметров, расходы на GPU резко падают.
PEFT (Parameter-Efficient Fine-Tuning): Зонтичный термин для подходов, обучающих небольшое подмножество параметров вместо полного fine-tuning 70B-LLM. LoRA, prompt tuning, prefix tuning, adapter tuning — всё это варианты PEFT. Стандартный инструмент — библиотека peft от HuggingFace.
Quantization (LLM): Техника сжатия весов float32/float16 модели до int8, int4 и даже int2. Потребление памяти падает в 4-8×, inference ускоряется в 2-3×, потери качества обычно невелики. Стандарт — Llama.cpp, формат GGUF и алгоритмы AWQ/GPTQ.
Knowledge Distillation: Техника передачи поведения большой "teacher"-модели маленькой "student"-модели. Нацеливаясь на мягкие вероятностные выходы teacher, student достигает почти такой же точности при гораздо меньшем числе параметров. Секрет DistilBERT, TinyLlama, Phi-3.
Mixture of Experts (MoE): Архитектура, в которой вместо монолитной модели каждый токен направляется через разрежённый выбор (один-два) небольших "expert"-субмоделей. Используется в Mixtral 8x7B, GPT-4, DeepSeek; снижает число активных параметров при сохранении ёмкости и уменьшении стоимости inference.
Speculative Decoding: Техника ускорения inference LLM: небольшая "draft"-модель предлагает несколько токенов вперёд, большая "target"-модель проверяет их параллельно и принимает корректные. Ускорение в 2-3× при той же качестве вывода. Стандарт в vLLM и llama.cpp.
KV Cache: Оптимизация, удерживающая в памяти матрицы Key и Value, посчитанные для предыдущих токенов в attention-слоях трансформера. Каждый новый токен считает только свои K/V вместо повторения истории. Ускоряет inference в 10-100×, но становится bottleneck по памяти на длинных контекстах.
Attention Head: Один из множества небольших attention-механизмов, работающих параллельно внутри трансформера. Каждый head фокусируется на своём аспекте входа — синтаксис, позиция, дальние зависимости. В GPT-4 — 96+ head на слой; строительный блок multi-head attention.
BPE Tokenizer (Byte-Pair Encoding): Алгоритм токенизации, разбивающий текст на самые частые subword-куски — напр. "tokenization" → "token" + "ization". GPT, LLaMA, Mistral — все используют варианты BPE (tiktoken, SentencePiece); словарь фиксирован (~32K-128K), проблема OOV закрыта.
DPO (Direct Preference Optimization): Более простая альтернатива RLHF. Вместо сложного reward-model + PPO выполняет прямую логистическую регрессию на парах "предпочтительный vs отклонённый". Stanford 2023; устойчивее, меньше гиперпараметров, метод выравнивания во многих моделях, включая Llama 3.
Constitutional AI: Метод, представленный Anthropic в 2022: модель выравнивается по письменной "конституции" (списку этических принципов), а не по живым reviewer'ам. Модель критикует и улучшает свои выходы против конституции; основа alignment Claude, также известный как RLAIF.
Chain-of-Thought (CoT): Техника промптинга, заставляющая LLM "думать шаг за шагом" и записывать промежуточный вывод перед ответом. Введена в paper Google 2022 года; резко улучшает результаты на математике, логике и multi-step вопросах. "Let's think step by step" — магическая фраза. Основа современных reasoning-моделей (o1, DeepSeek-R1).
Few-Shot Prompting: Техника, при которой в промпте даются 2-5 примеров (input → output), чтобы LLM применил тот же паттерн к новому input. Быстрая адаптация без fine-tune — "отвечай как в этих примерах". Самое практичное решение для labeled классификации и форматированной экстракции.
Zero-Shot Prompting: Подход промптинга, в котором задача описывается LLM напрямую без примеров — напр. "переведи этот текст на немецкий". Опирается только на знания pre-training; для frontier-моделей (GPT-4, Claude) этого достаточно для большинства задач.
Grounding (LLM): Техника "привязки" ответа LLM к внешнему источнику знаний — документам, БД или web-поиску. Используется retrieved-контекст вместо чисто параметрической памяти; галлюцинации резко падают, появляются цитирования, знания остаются актуальными в реальном времени.
Structured Output (LLM): Возможность приведения вывода LLM к заданной JSON-схеме, Pydantic-модели или regex. OpenAI structured outputs, Anthropic tool use, vLLM grammar-constrained sampling. Ключ к переходу от свободного текста к детерминированному production-готовому потоку данных.
Tool Use (Agent): Способность LLM вызывать внешние инструменты — web search, code interpreter, калькулятор, custom API. Через протокол function calling модель возвращает "tool name + параметры", runtime выполняет и возвращает результат. Ядро agent-архитектур (Claude Agent SDK, AutoGen, LangGraph).
Cross-Modal Embedding: Embedding'и, представляющие разные модальности (текст, изображение, аудио) в одном векторном пространстве. CLIP для image+text, ImageBind для text+image+audio+video+depth+thermal+IMU. Критично для multimodal search ("найди marketing copy похожий на это фото"), cross-modal retrieval и добавления media в RAG.
Hybrid Search (BM25 + Vector): Стратегия retrieval, объединяющая классический keyword-поиск (BM25/lexical) с векторной similarity. BM25 выигрывает на exact-match запросах (числовые ID, артикулы); векторы — на семантике ("как вернуть товар" → "return policy"). Золотой стандарт современного RAG.
Data Fabric: Интегрированная архитектура, объединяющая распределённые источники данных (cloud, on-prem, SaaS) в единый логический data-слой. Управляется метаданными и усилена AI; альтернатива "централизованной интеграции" распределённой модели data mesh. Ключевые продукты — Talend, Informatica, IBM Cloud Pak.
Medallion Architecture: Паттерн организации data lake, популяризированный Databricks — слои Bronze (raw), Silver (очищенный, conformed), Gold (business-ready, агрегированный). Каждый слой строится на предыдущем; чисто разделяет lineage, качество и переобработку.
Apache Spark: Распределённый in-memory движок обработки данных. Преемник Hadoop MapReduce, в 10-100× быстрее; объединяет SQL, streaming, ML (MLlib) и graph (GraphX) в едином API. Ядро Databricks, managed в AWS EMR, GCP Dataproc, Azure HDInsight; PySpark — главный инструмент data engineer.
Apache Flink: Движок true-streaming обработки (событие за событием). По сравнению с micro-batch Spark Streaming — миллисекундные задержки, exactly-once семантика и stateful processing. За реальным fraud- и anomaly-detection в Alibaba, Uber, Netflix.
Kafka Connect: Фреймворк source/sink-коннекторов Apache Kafka. Заводит CDC или batch-ingestion из 100+ систем (Postgres, MySQL, S3, Elasticsearch, Snowflake…) в Kafka и стримит данные обратно во внешние системы. Каталог Confluent на 1 000+ коннекторов — стандартная отсылка.
Singer: Open-source протокол интеграции данных от Stitch (теперь Talend), перемещающий JSON-потоки между "tap" (extract) и "target" (load). Модульный, vendor-нейтральный ELT-фреймворк; ядро open-source ELT-платформ типа Meltano.
Apache Airflow: Платформа оркестрации workflow, в которой DAG'и (Directed Acyclic Graph) описываются на Python. Создана в Airbnb в 2014 и передана Apache Foundation. Scheduling, retry, управление зависимостями, web-UI; де-факто стандарт data-пайплайнов.
Dagster: Современный asset-based фреймворк оркестрации данных. Если Airflow ориентирован на задачи, Dagster — на "data assets": со встроенными lineage, type-checking, software-defined assets и тестированием. First-class интеграции с dbt, Fivetran, Snowflake.
Prefect: Современный pythonic-инструмент оркестрации данных с динамическими DAG. Решает ограничение static-DAG Airflow — flows могут меняться в runtime — даёт hybrid execution (cloud + self-hosted) и гранулярные retry-политики. Популярен и в ML-пайплайнах.
Snowflake: Cloud-native managed data warehouse. Compute (warehouse) и storage полностью развязаны и масштабируются независимо. SQL-запросы по semi-structured данным (JSON, Parquet), secure data sharing, time travel (до 90 дней); сильная альтернатива BigQuery и Redshift.
BigQuery: Serverless columnar data warehouse Google Cloud петабайтного масштаба. Модель pay-per-slot; обучение ML-моделей через SQL (BQML); нативная цель экспорта GA4; встроенные geo-, JSON- и PARTITION/CLUSTER-оптимизации. Ядро GCP analytics-стека.
Databricks: Lakehouse-платформа, основанная создателями Apache Spark. Объединяет слои Bronze/Silver/Gold (medallion), Delta Lake, MLflow, Unity Catalog и notebook-workspace в одном продукте. Разработана для совместной работы data engineer + аналитиков + ML engineer; нативна в AWS, Azure, GCP.
Apache Iceberg: Open-формат таблиц для петабайтных данных (происхождение — Netflix). Добавляет к Parquet ACID, schema evolution, time travel, hidden partitioning и branching. Поддержан Snowflake, Databricks, BigQuery, Trino; стандартный ответ на vendor-lock-in DWH.
Delta Lake: Open-формат таблиц от Databricks, конкурент Apache Iceberg. ACID, time travel, schema enforcement, MERGE/UPDATE/DELETE; самая тесная интеграция — с экосистемой Spark. Формат по умолчанию на стороне Databricks lakehouse-архитектуры.
Parquet: Columnar формат хранения — каждая колонка в собственных блоках. Читаются только нужные колонки, поддерживается predicate pushdown, Snappy/Zstd дают высокую компрессию. Формат по умолчанию для Spark, Iceberg, Delta, Snowflake; аналитика в 10-100× быстрее row-based CSV/JSON.
Apache Avro: Бинарный формат сериализации с JSON-определёнными схемами. Сильный schema evolution (forward/backward compatibility); особенно популярен для payload Kafka-сообщений. Используется вместе со Schema Registry; row-ориентированный аналог Parquet.
Schema Registry: Сервис, централизованно хранящий, версионирующий и проверяющий совместимость схем Avro/Protobuf/JSON. Часть Kafka-стека Confluent; обеспечивает контракт producer-consumer и ловит breaking changes до production.
Window Function (SQL): SQL-функции, считающие по множеству строк ("окну"). ROW_NUMBER, RANK, DENSE_RANK, LAG, LEAD, SUM/AVG OVER (PARTITION BY…). В отличие от GROUP BY строки не схлопываются — каждая получает свой результат. Незаменимы для time-series, ранжирования и running total.
ELT (Extract, Load, Transform): Обратная сторона классического ETL: сначала сырые данные загружаются в warehouse/lake, а затем трансформируются там через SQL/dbt. С дешёвым cloud-DWH storage и мощным compute ELT стал парадигмой по умолчанию; приближает transform-логику к аналитикам.
Feature Store: Платформа, централизованно хранящая и отдающая фичи (исторические + real-time), потребляемые ML-моделями. Решает training-serving skew, выводя offline (batch) и online (low-latency) view из одного определения. Главные инструменты — Feast, Tecton, Hopsworks.
MLOps: Дисциплина, автоматизирующая цикл разработка-обучение-деплой-мониторинг-переобучение ML-моделей. DevOps применительно к ML — experiment tracking (MLflow), model registry, CI/CD для моделей, drift-detection и retraining-пайплайны.
OpenLineage: Открытый стандарт событий data lineage (LF AI & Data). Позволяет Airflow, Spark, dbt, Flink и другим эмитить события lineage в едином формате. Интегрирован в Marquez, Datakin, Astronomer; vendor-нейтральный носитель потока метаданных.
Great Expectations: Open-source фреймворк data quality / валидации данных. Тысячи готовых проверок вроде "expect_column_values_to_be_unique" и "expect_column_mean_to_be_between"; встраивается в Airflow/dbt-пайплайны и автогенерирует HTML data docs.
Apache Atlas: Open-source инструмент управления метаданными и data governance из экосистемы Hadoop. Tag-based access control, графы lineage, business glossary, классификация (PII/PCI). Стандарт enterprise-стека Hortonworks/Cloudera; современные альтернативы — Amundsen и DataHub.
Lambda Architecture (Data): Дата-архитектура, объединяющая real-time и batch результаты. Speed-layer (Storm/Flink) даёт low-latency приближённые результаты, batch-layer (Spark/Hadoop) — точные, но медленные; serving-layer объединяет их. Не путать с AWS Lambda; сегодня всё чаще эволюционирует в Kappa-архитектуру.
Differential Privacy: Математический фреймворк, обеспечивающий безопасный доступ к статистике популяции с защитой индивидуальных записей. К результатам запросов добавляется калиброванный шум; атакующий не может определить, входят ли данные конкретного человека в выборку. Используют Apple iOS-клавиатура, Google Play, US Census 2020.
Federated Learning: Техника обучения модели локально на устройствах пользователей; на центральный сервер отправляются только обновления градиентов/весов, не сырые данные. Канонические примеры — auto-suggest Google Gboard, Apple Siri и privacy-preserving ML на медицинских данных.
On-Chain Analytics: Дисциплина извлечения инсайтов из публичных транзакционных данных блокчейна — активность кошельков, концентрация token-holder, exchange flow, отслеживание smart money, объёмы NFT. Ключевые платформы — Dune Analytics (SQL on-chain), Nansen (помеченные адреса), Glassnode, Arkham.
Oracle (Blockchain): Bridge-сервис, доставляющий доверенные off-chain данные — цены, погоду, спортивные результаты, IoT-сенсоры — в on-chain smart contract. Лидер — Chainlink; Pyth, Band, RedStone — альтернативы. Жизненно важна для DeFi-ликвидаций, страхования и prediction-рынков.
Brand Lift Study: Исследование, измеряющее, как рекламная кампания двигает brand-метрики — ad recall, awareness, message association, purchase intent — сравнивая control- и exposed-группы. Meta, YouTube и TikTok предлагают это нативно; CPM обычно 5-15 $.
Incrementality Test: Тест, сравнивающий конверсии от рекламы с baseline "если бы её не было", чтобы измерить, какая часть конверсий действительно инкрементальная. Методы — PSA placebo ads, ghost bidding, geo holdout; лечит иллюзию классической атрибуции "каждая конверсия — моя". Золотой стандарт ROI современной paid media.
Geo Holdout Test: Квази-эксперимент, измеряющий инкрементальный эффект отключением рекламы в конкретной географии (напр. штат Нью-Йорк) при сохранении в других. Без cookies, без identifier, ATT-proof; matched markets / synthetic control — стандарт современной marketing science.
MTA (Multi-Touch Attribution): Модель, распределяющая взвешенный credit между всеми touchpoint'ами (реклама, email, organic, direct), которые внесли вклад в конверсию. Методы — linear, time-decay, position-based, data-driven. Депрекация cookie и ATT ослабили точность MTA; современный здоровый стек — связка с MMM и incrementality.
Data-Driven Attribution (DDA): Модель атрибуции, которая через machine learning учит маржинальный вклад каждого touchpoint вместо того, чтобы отдавать всё last click. Дефолт в Google Ads + GA4; на Shapley value; честно сравнивает каналы на одной стадии воронки. Заменила классические rule-based модели.
View-Through Conversion (VTC): Конверсия пользователя, который увидел рекламу — без клика — и сконвертировался позже. В display и video кампаниях 30-60 % конверсий могут быть VTC; неверно учтённая, она либо переоценивает, либо недооценивает канал. Отличие от click-only атрибуции — критично.
Attribution Window: Временной интервал, в который конверсия приписывается рекламе после клика или показа. Старая норма — 7-day click + 1-day view; с iOS 14.5 ATT-дефолтом стало 7-day click + 1-day view + same-day view. Чем уже окно — тем меньше конверсий видится у каналов.
Retention Curve (S-Curve): Ожидаемый паттерн: retention когорты должен в какой-то момент выйти на плато. В здоровом приложении кривая выравнивается через ~90 дней; в viral / habit-forming — остаётся горизонтальной; если продолжает падать — PMF слабый. "Smiling curve" Эндрю Чена — современный референс.
Activation Rate: Доля только что зарегистрированных пользователей, выполняющих первое ценное действие. Slack отслеживает "40 %, которые отправили первое сообщение", Notion — "50 %, создавших первую страницу", Spotify — "85 %, запустивших первую песню". Activation — самый прямой индикатор PMF и онбординга и сильно коррелирует с LTV.
TTV (Time-to-Value): Время, за которое пользователь получает первый реальный value (aha-moment). Linear — 30 секунд, Figma — 5 минут, Slack — неделя. Чем короче TTV, тем выше retention; единственная полярная звезда современного onboarding.
Activation Metric (Aha-Moment Metric): Data-driven порог формы "если пользователь сделал N действий за T времени — он retain". Facebook нашёл "10 друзей за 14 дней", Slack — "2K сообщений", Twitter — "30 follow". Весь onboarding оптимизируется под эту метрику; полярная звезда growth-команды.
pLTV (Predictive LTV): Использование machine learning на первых событиях (sign-up, первая покупка, day-1 сессия, IAP) для прогноза LTV на 30/90/365 дней. Стандартное решение для iOS-атрибуции после SKAdNetwork; AppsFlyer, Adjust и Singular встроили pLTV в свои стеки оптимизации маркетинга.
Uplift Modeling: ML-подход, выявляющий, в каких сегментах пользователей вмешательство (купон, push, email) реально создаёт нетто-дополнительный эффект. Находит "persuadable"-сегмент, чтобы не дёргать остальных. Алгоритмы — T-learner, X-learner, causal forest. Поднимает ROI CRM-кампаний в 2-3×.
Crashlytics / Sentry Mobile: Платформы, собирающие mobile-крэши, ANR и JS-ошибки и группирующие их по стек-трейсу, данным устройства и breadcrumbs. Главные — Firebase Crashlytics (Google, бесплатно), Sentry, Bugsnag, Embrace. Цель — Crash-Free Users 99,5 %+; ниже 99 % убивает рейтинг в App Store.
Mobile APM (Application Performance Monitoring): Платформа измерения performance приложения на реальных устройствах: startup time, render экранов, network-запросы, память, батарея, ANR. Опции — Firebase Performance, New Relic Mobile, Embrace, Datadog Mobile RUM. Подсвечивает UX-проблемы, не являющиеся крэшами.
Headless BI: Analytics-движок без собственного слоя визуализации, отдающий все вычисления метрик и измерений через API и GraphQL. Лидеры — Cube, GoodData, AtScale; output потребляют Tableau, Looker, Notion, Hex, Excel или любая custom React-app. Современная парадигма, ломающая моногамию с одним BI-инструментом.
Metric Layer: Metric-only вариант semantic layer — абстракция, хранящая "единственно-правильные" определения метрик компании в YAML или SQL. Примеры — Spectacles Slack, Minerva Airbnb, dbt Semantic Layer. Если "active user" в маркетинге 15 %, а в финансах 10 % — drift начинается здесь.
Data Activation: Процесс выгрузки инсайтов из warehouse в операционные системы — CRM, ad-платформы, support-инструменты, in-app messaging. Reverse ETL — техническая труба; мост между "data analytics" и "marketing automation". Лидеры — Census, Hightouch, Polytomic.
Composable CDP: Подход, ставящий warehouse (Snowflake, BigQuery) в центр вместо single-vendor CDP (Segment, mParticle), и подключающий только нужные слои — audience, real-time activation, identity resolution. Hightouch + Census + RudderStack + Snowplow — типовой composable-CDP-стек.
Operational Analytics: Принцип: аналитические инсайты не должны жить в дашборде, а должны запускать действия в операционных системах. "Этот пользователь не активен 7 дней" появляется не в графике, а в win-back flow Klaviyo. Business-сторона reverse ETL — современная форма "actionable analytics".
Looker LookML: YAML-подобный DSL data modeling от Looker. Таблицы становятся "view", связи — "explore", метрики — "measure"; code-centric BI-подход, генерирующий SQL. Все аналитики говорят на одном языке, version control и Git-workflow работают — lingua franca современных data-команд.
Mode Analytics: BI-платформа, объединяющая SQL, Python-ноутбуки и дашборды в одном продукте (куплена ThoughtSpot в 2023). Sweet spot для data-аналитика: SQL для запросов, Python для ML и потом sharable дашборд. Power-user сторона против GUI-only подхода Tableau.
Hex (Notebook BI): Аналитическая платформа, основанная в 2020, объединяющая SQL, Python и no-code интерактивные приложения в одном месте. Notebook-UI + Magic AI + конструктор shareable app; общая среда для data scientist, аналитика и бизнес-стейкхолдера. Восходящая звезда современного hybrid BI.
Sigma Computing: Современная BI-платформа, надстраивающая spreadsheet-подобный интерфейс над Snowflake или BigQuery. Пользователи делают Excel-стиль pivot, формулы и what-if без SQL — но движок остаётся warehouse-native. Сильный конкурент Looker в командах finance и ops.
Streamlit: Open-source Python-фреймворк, позволяющий выпустить интерактивное web-приложение за 100 строк скрипта (куплен Snowflake в 2022). Дефолтный путь data scientist'ов для internal tools, прототипов и ML-демо; Plotly Dash и Gradio — близкие конкуренты.
Snowflake Streams & Tasks: Связка Snowflake — change-data-capture (Streams) + расписанное выполнение SQL (Tasks). Stream складывает insert/update/delete таблицы в offset-очередь, Task обрабатывает их по расписанию. ELT-пайплайны получают Snowflake-native автоматизацию без Airflow.
dbt Tests: Утверждения о качестве данных, описываемые против dbt-моделей: not_null, unique, accepted_values, relationships и custom SQL. Запускаются в CI; валидируют данные перед каждым model build. Test suite расширяется интеграциями dbt-utils и Great Expectations.
dbt Snapshots: dbt-нативная реализация Slowly Changing Dimension Type 2. Для mutable исходной таблицы (напр. orders.status меняется) каждый snapshot run сохраняет историю через колонки dbt_valid_from/to. Основа audit history и запросов "как это выглядело на дату X".
Materialization Strategy (Table / View / Incremental / Ephemeral): Как dbt-модель сохраняется в warehouse. View: дёшево, но пересчитывается при каждом запросе — для небольших данных. Table: полный rebuild — для маленьких/средних. Incremental: добавляет только новые строки — для больших данных. Ephemeral: подставляется inline как CTE, без persistent output.
SCD (Slowly Changing Dimension): Паттерн хранения истории медленно меняющихся измерений — клиент, продукт, сотрудник. Type 1: только последнее значение; Type 2: новая строка при каждом изменении + valid_from/to (история сохраняется); Type 3: одна колонка previous-value. С современным DWH + dbt Snapshot SCD2 — дефолт.
Idempotent Pipeline: ETL/ELT пайплайн, который при одинаковом input выдаёт одинаковый output и не создаёт побочных эффектов при повторном запуске. Гарантия того, что backfill, retry и late-arriving data не испортят данные. Достигается через MERGE, дедуп по primary key и транзакции.
Backfill Strategy: План повторного запуска пайплайна на исторических данных. Параметризуется диапазон дат, partition'ы пересчитываются батчами; обязательны идемпотентный пайплайн + atomic-запись + контроль конкуренции. Ошибочный backfill = потеря production-данных — сначала прогон в staging.
dbt Layers (Staging / Intermediate / Marts): Рекомендованный 3-слойный паттерн моделирования в dbt-проекте. Staging: 1:1 очищенная таблица на источник (rename, cast, dedup). Intermediate: строительные блоки бизнес-логики. Marts: business-ready финальный слой dim/fact. Приносит консистентность, reuse и чистый DAG.
Source Freshness: Фича dbt, отслеживающая, как давно обновлялась каждая исходная таблица. Команда "dbt source freshness" срабатывает по warning и error порогам (напр. 12 ч warn, 24 ч error) и ловит stale-данные, даже когда пайплайн не сломался. Операционный сторож.
OBT (One Big Table): Альтернатива star schema в моделировании — денормализовать все измерения в fact-таблицу и получить одну широкую таблицу из 50-200+ колонок. В columnar warehouse вроде Snowflake/BigQuery join'ы дороги; OBT быстрее для аналитиков и часто оптимален по performance.
Cube.js: Open-source headless BI-движок. Генерирует SQL, кеширует, отдаёт REST/GraphQL API и работает поверх Snowflake, BigQuery или Postgres. Позволяет front-end-разработчику собрать собственный дашборд; developer-friendly альтернатива Tableau / Looker.
Snowpark: DataFrame API Snowflake для Python, Scala и Java. Позволяет запускать ML-training, сложные transform, UDF и stored procedure без вывоза данных из warehouse. Modin и pandas-on-Snowflake дают data scientist'ам привычный локальный опыт; современное движение в сторону zero data movement.
Polars: Многопоточная columnar (Arrow) DataFrame-библиотека на Rust. В 5-30× быстрее pandas, с lazy evaluation и встроенной оптимизацией запросов. Современная замена pandas для аналитика; есть биндинги для Python, R, JS, Rust.
DuckDB: In-process columnar OLAP-БД — analytics-аналог SQLite с MotherDuck как cloud-расширением. Один файл, один процесс; SQL'ом запрашивает pandas DataFrame или Parquet напрямую. На ноуте справляется с миллиардом строк за 30 секунд; ежедневный компаньон современного аналитика.
LLM Eval Harness: Тестовый фреймворк, автоматически измеряющий производительность LLM на множестве задач. Примеры — HELM, lm-eval-harness, BigBench, HELM Lite; запускает стандартные benchmark'и MMLU, HumanEval, GSM8K, ARC. Обязательная инфраструктура для любого запуска модели и regression-тестов.
Prompt Eval: Тестовый набор, систематически измеряющий качество конкретного prompt. 50-500 пар input × expected-output с автоматическим scoring (LLM-as-judge, BLEU, ROUGE, exact match). Обязателен, чтобы ловить regression при изменении production-промптов; типовые инструменты — PromptLayer, Langfuse, Braintrust.
Golden Dataset: Вручную проверенный тестовый набор, используемый как ground truth. Входы и ожидаемые выходы eval harness живут здесь; после каждого апдейта LLM модель скорится на этом наборе. Типовой размер — 200-2 000 примеров, прошедших ревью domain expert.
Faithfulness (RAG): Мера, насколько ответ RAG-системы остаётся верен retrieved-контексту. Если LLM галлюцинирует вне контекста — faithfulness падает; LLM-as-judge проверяет каждое предложение на "есть ли поддержка в контексте?". Ключевая метрика во фреймворках RAGAS и TruLens.
Answer Relevance (RAG): Скор того, насколько ответ LLM релевантен запросу пользователя. Ловит правильные, но не относящиеся к теме ответы — "Сегодня хорошая погода, а столица Парижа — Париж". Измеряется через cosine similarity (embedding ответа ↔ embedding запроса) или LLM-as-judge.
Context Precision / Recall (RAG): Две метрики качества retrieval в RAG. Precision: какая доля извлечённых chunk'ов была действительно релевантной; Recall: какая доля по-настоящему релевантных chunk'ов была извлечена. Низкая precision = шум, низкий recall = потеря информации. Автоматически измеряются в RAGAS, ARES и др.
Model Routing: Умный слой, направляющий вопрос в разные LLM в зависимости от сложности, латентности или бюджета. Простые вопросы — в Haiku/3.5-mini, сложные — в Opus/4.5. OpenRouter, Portkey, Martian продают routing-as-a-service; снижают средние расходы в 5-20×.
Cascading Models: Пайплайн, в котором сначала пробует маленькая/дешёвая модель; если confidence ниже порога или фейлится валидация — запрос эскалируется в большую/дорогую модель. Fail-over вариант model routing; в реальных LLM-приложениях 80 % трафика решается за 20 % стоимости без потери качества.
RAG Reranker: Второй этап, переупорядочивающий top-50 chunk'ов из vector retrieval через LLM-as-judge или cross-encoder. Распространены Cohere Rerank, BGE-Reranker, Jina Reranker; precision растёт на 20-40 %, retrieval-faithfulness метрика улучшается.
Chunk Strategy: Как документ разбивается для RAG. Варианты — fixed-size (напр. 512 токенов), recursive character (по параграфам/предложениям), semantic chunking (сегментация по embedding) и markdown-aware. Плохой chunking = низкий retrieval precision; chunk size и overlap напрямую двигают качество RAG.
Embedding Drift: Когда embedding'и реальных production-запросов со временем отдаляются от распределения embedding корпуса RAG. Новый сленг, продукты и термины увеличивают drift, retrieval recall падает. Решение — ежеквартальная регенерация embedding + new-data-aware реиндекс.
HNSW Index (Hierarchical Navigable Small World): Алгоритм ANN-индекса (Approximate Nearest Neighbor), используемый большинством vector DB. Многослойный граф, дающий миллисекундную задержку на триллионах embedding'ов. Дефолт в Pinecone, Weaviate, Qdrant, Milvus и pgvector.
ANN (Approximate Nearest Neighbor): Класс алгоритмов, ищущих "достаточно хорошие" ближайшие векторы вместо точного совпадения, обменивая точность на скорость и память. Примеры — HNSW, IVF, PQ, ScaNN; при recall 95 % латентность падает до 1 000×. Движок vector search.
Model Card: Стандартная карта (введена Google в 2019), документирующая цель, training-данные, performance, ограничения, этические проблемы и fair-use сценарии AI-модели. Сейчас обязательна при любом релизе foundation-модели; основа прозрачной AI-разработки.
AI Observability: Платформа мониторинга production LLM-приложений по trace, стоимости, латентности и метрикам качества. Инструменты — Langfuse, LangSmith, Helicone, Arize Phoenix, WhyLabs; каждый LLM-call (prompt, response, токены, стоимость, eval-score) логируется. LLM-нативный преемник классического APM.
Matchmaking (ELO / MMR): Алгоритм, подбирающий игроков по уровню скилла в PvP-играх. Варианты — ELO (наследие шахмат), Glicko, TrueSkill, MMR (Match-Making Rating). Компромисс между smurf-защитой для новичков и skill-relax при длинных очередях; ядро League of Legends, Valorant, Dota 2.
ARPDAU (Average Revenue Per Daily Active User): Средняя выручка на одного DAU. Casual mobile-игры — $0,05-0,20, mid-core — $0,20-0,80, hardcore RPG — $1+. Полярная звезда решений live-ops; в связке с pLTV формирует бюджет paid acquisition.
Whales / Dolphins / Minnows: Сегменты тратящих в F2P-играх. Whales: top 1 % с тратами $1 000+; Dolphins: 5-10 % с $50-1 000; Minnows: 15-30 % с $1-50; Free-riders: 60-80 %, никогда не платящих. Распределение Парето — whales дают 70 %+ выручки; их потеря — смертельна.
Scope 1 / Scope 2 / Scope 3 Emissions: Классификация GHG Protocol углеродных выбросов на три группы. Scope 1: прямые выбросы (котлы фабрики, корпоративный автопарк). Scope 2: купленные электричество, тепло, охлаждение. Scope 3: цепочка поставок + жизненный цикл продукта — самый крупный блок 75-85 %. Скелет ESG-отчётности.
Carbon Footprint: Сумма выбросов парниковых газов, вызванных человеком, продуктом, компанией или событием за жизненный цикл (в CO₂-эквиваленте). Производство iPhone — ~70 кг CO₂e; трансатлантический рейс — ~1,6 т. В ESG-отчётности равен сумме Scope 1 + 2 + 3.
Carbon Offset: Инвестиция во внешние проекты для компенсации выбросов — посадки леса, ВИЭ, methane capture, direct air capture. Voluntary carbon market в 2024 — ~$2 млрд, но критикуется за greenwashing; качественные знаки — Verra, Gold Standard, ICVCM. Спорный инструмент на пути к Net Zero.
CDP (Carbon Disclosure Project): Глобальная платформа, на которой компании раскрывают климатические, водные и лесные выбросы по стандарту. В 2024 отчитались 24 000 компаний и 1 100 городов; оценка A-D создаёт давление институциональных инвесторов и клиентов. Лидируют Apple, Microsoft, Unilever; требования supply-chain disclosure быстро распространяются.
ESG Reporting (Environmental, Social, Governance): Стандартная отчётность по экологическим, социальным и governance-показателям компании. Глобальный зонт — CSRD (ЕС), SEC Climate Rule (США), рекомендации TCFD; рабочие фреймворки — SASB, GRI, CDP. С 2024 более 50 000 компаний ЕС обязаны отчитываться по CSRD.
CSRD (Corporate Sustainability Reporting Directive): Директива ЕС, действует с 2024 — обязует более 50 000 крупных компаний (банки + страховые + 250+ сотрудников + €40 млн+ выручки) отчитываться по устойчивости. На стандартах ESRS, с double-materiality (влияние компании на среду + среды на компанию) и third-party assurance.
Net Zero: Цель компании или страны: снизить выбросы до минимума и сбалансировать остаток через offset или removal. Валидируется Science Based Targets (SBTi); глобальный таргет — 2050. Отличие от carbon-neutral: Net Zero строже — он убирает остаток, а не просто компенсирует.
Carbon Neutral vs Net Zero: Carbon-neutral: выбросы обнуляются через offset, реальные сокращения не обязательны; Net Zero: сначала агрессивно режут выбросы, затем нейтрализуют остаток через removal (а не только offset). Microsoft — 2030 Carbon Negative, Apple — 2030 Net Zero, Google — 2030 24/7 carbon-free energy.
PUE (Power Usage Effectiveness): Метрика электроэффективности дата-центра — total facility power делённый на IT equipment power. Идеал — 1,0; 2,0 означает дополнительную единицу cooling/lighting на каждую единицу IT. Hyperscalers (Google, AWS, Azure) — в среднем 1,10-1,15; on-prem enterprise DC — 1,5-2,0. Ключевой KPI устойчивости.
Green Software Foundation: Linux Foundation проект, основанный Microsoft, Accenture, GitHub и ThoughtWorks, стандартизирующий устойчивую разработку ПО. Поддерживает стандарт SCI (Software Carbon Intensity), сертификацию Green Software Practitioner и каталог Green Software Patterns. Гид по устойчивости для современной dev-команды.
SCI (Software Carbon Intensity): Стандарт ISO/IEC 21031, измеряющий выбросы CO₂-эквивалента на функциональную единицу ПО. Формула: energy × carbon intensity региона + embodied emissions. Стандартный ответ на вопрос "сколько углерода стоит этот API-call?" — основа современных green-software метрик.
Renewable Energy Credit (REC): Торгуемый сертификат, представляющий 1 МВтч возобновляемой энергии. Вместо установки солнечных панелей компания покупает REC и отчитывается о "возобновляемом" электричестве; Green-e в США, GO (Guarantees of Origin) в Европе. Главный инструмент за обязательствами RE100.
PPA (Power Purchase Agreement): Прямой долгосрочный (10-25 лет) контракт по фиксированной цене на покупку возобновляемого электричества напрямую у производителя. Позвоночник carbon-free стратегий hyperscaler'ов — Google, Amazon, Microsoft; глобальный объём corporate PPA в 2024 — более 50 ГВт.
LCA (Life Cycle Assessment): Методология ISO 14040, количественно оценивающая полное воздействие продукта на окружающую среду — сырьё → производство → использование → end-of-life. Scope — cradle-to-grave или cradle-to-cradle. Цифра Apple "у iPhone 70 кг углеродного следа" — результат LCA.
Circular Economy: Экономическая модель, заменяющая линейный путь "произвести-использовать-выбросить": продукт изначально проектируется как переиспользуемый, ремонтопригодный и перерабатываемый. Пионер — Ellen MacArthur Foundation; конкретные примеры — IKEA buyback, Patagonia Worn Wear, Apple Self-Service Repair.
Greenwashing: Когда компания через маркетинг выглядит "зеленее", чем оправдывают её реальные показатели выбросов. CMA (UK), FTC (США) и CSRD ЕС теперь регулируют greenwashing юридически; Shell, BP и Volkswagen за годы заплатили многомиллионные штрафы. Этическая красная линия sustainability-коммуникации.
Carbon Border Adjustment Mechanism (CBAM): "Углеродный импортный налог" ЕС, полностью в силе с 2026. Импортёры стали, цемента, алюминия, удобрений, водорода и электричества в ЕС платят то, что эти товары заплатили бы по EU ETS при производстве внутри ЕС. Первый крупный тариф, перестраивающий supply chain по интенсивности выбросов.
EPR (Extended Producer Responsibility): Регуляция, делающая производителя ответственным за затраты на end-of-life отходы и recycling его продуктов. Примеры — EU Packaging Directive, LOM во Франции, VerpackG в Германии, Sıfır Atık в Турции. Производитель пластиковых бутылок, одежды или электроники платит экологический сбор за каждую проданную единицу.
Sustainable Procurement: Встраивание экологических и социальных критериев в закупочные решения компании. Supplier Code of Conduct, EcoVadis sustainability rating, требования к recycled-material, fair-trade сертификация. Большая часть Scope 3 выбросов рождается именно здесь; операционное сердце современной CSRD-отчётности.
TCFD (Task Force on Climate-related Financial Disclosures): Фреймворк, опубликованный G20 Financial Stability Board в 2017, интегрирующий климатические риски и возможности в финансовую отчётность. Четыре столпа — Governance, Strategy, Risk Management, Metrics & Targets. Великобритания (PRA), Новая Зеландия и Япония сделали его обязательным. Климатическая нога ESG-отчётности.
SBTi (Science Based Targets initiative): Независимая организация, валидирующая, соответствуют ли цели компании по снижению выбросов science-based траектории Парижского соглашения 1,5 °C / well-below-2 °C. Более 5 000 компаний прошли валидацию — Microsoft, IKEA, Unilever, Nike, Maersk и другие. Обязательная "печать" за любым убедительным Net-Zero-обещанием.
EV Charging Network (Tesla Supercharger / Ionity / Electrify America): Инфраструктура быстрой зарядки электромобилей. Сеть Tesla Supercharger — 50 000+ станций по миру, стандарт NACS; в Европе — Ionity (консорциум BMW + VW + Mercedes); в США — Electrify America. С 2024 Tesla открыла NACS другим EV-брендам, ускорив консолидацию стандарта.
North Star Framework: Фреймворк, популяризированный Шоном Эллисом и Amplitude — определяет единственную метрику "value-for-customer" компании. Spotify — "time spent listening", Airbnb — "nights booked", Slack — "messages sent in active workspaces". Компас всех growth и product решений.
Driver Tree: Анализ, разворачивающий целевую метрику (напр. revenue) в драйверы за ней. Близкий родственник KPI tree, но с большим фокусом на причинности — структурированный ответ "для роста ARR — новые logo или expansion?". Классический инструмент problem-solving в McKinsey и Bain.
Executive Dashboard: Одностраничный дашборд для C-suite и board с 7-12 верхними метриками. Business-decision-grade KPI — MRR, NRR, CAC, magic number, runway, rule of 40 — еженедельный review. Классические форматы — Tableau Executive, Looker C-suite, Mode Reports.
Operational Dashboard: Дашборд для часовых/ежедневных операционных решений — CPM-тренд маркетинга, ticket queue support, order backlog ops. Real-time или near-real-time refresh; alerting и drill-down по pivot обязательны. Распространены в Looker Studio, Power BI, Grafana.
Drill-Down: Поведение анализа click-through от агрегированной метрики к деталям — "total revenue" → "by region" → "by product" → "by SKU" → "by transaction". Фирменная фича self-service analytics OLAP-кубов и современных BI — Power BI, Tableau, Looker.
Slice & Dice: Резать и исследовать многомерные данные по разным измерениям. "Slice" фиксирует одно измерение и анализирует остальные; "Dice" фильтрует два+ измерения, формируя подмножество. Базовое поведение pivot-таблицы, унаследованное из терминологии OLAP cube.
Pivot Table: Изобретение Excel 1993 года — drag-and-drop многомерных данных в строки, колонки, значения и фильтры. Предок современного BI; Tableau, Power BI, Looker и Hex переносят mental-model pivot table в свой UX. Lingua franca анализа данных.
Funnel Visualization: Показ conversion-потока как сужающейся step-by-step funnel-диаграммы — Awareness → Consideration → Purchase → Retention — чтобы видеть drop-off на каждом шаге. Mixpanel, Amplitude, Heap и GA4 — с нативными funnel-отчётами; ключевой visual для CRO, product и marketing команд.
Cohort Heatmap: Матрица, визуализирующая retention когорт (неделя 0 → неделя N) интенсивностью цвета. Ось Y — неделя signup; ось X — неделя post-signup; цвет — retention rate. С первого взгляда показывает PMF, качество onboarding и эффект недавних product-изменений.
Sankey Diagram: Визуализация, показывающая потоки — user journey, поток энергии, conversion path — лентами пропорциональной толщины. Идеальна для behavior flow Google Analytics, анализа churn и attribution journey. Строится через d3.js, Plotly или Power BI Sankey custom visual.
Bullet Chart: Минималистичный график, придуманный Стивеном Фью: показывает таргет KPI, фактический результат и tier band на одной горизонтальной строке. Намного читабельнее gauge/speedometer. Классика executive-дашбордов; Tableau и Power BI поддерживают custom visual.
Data Storytelling: Подход "сначала рассказывай историю, потом подкрепляй её данными" вместо вываливания цифр и графиков на аудиторию. Манифест — книга "Storytelling with Data" Коул Нассбаумер Кнафлик; закрывает gap "so what?" у лиц, принимающих решения. Реализация — Tableau Story, Power BI bookmarks, Notion-нарратив.
Self-Service Analytics: Модель, в которой бизнес-пользователь сам строит свои запросы и дашборды без зависимости от аналитика. Лидеры — Looker LookML, Tableau Ask Data, Power BI Q&A, ThoughtSpot search-driven; обязательны semantic layer + data governance + обучение. Цель "демократизации" современного BI.
Power BI: BI-платформа Microsoft — глубоко интегрирована с экосистемой Excel и самая используемая enterprise-BI. Power Query для ETL, DAX как formula language, Power BI Service — cloud + collaboration. С Microsoft Fabric усиливается интеграция data engineering и AI Copilot.
Tableau: "Визуальный золотой стандарт" BI — самый мощный drag-and-drop инструмент для впечатляющих графиков. Вышел из Stanford в 2003, в 2019 куплен Salesforce за $15,7 млрд. Связка Tableau Desktop + Server + Cloud всё ещё гибче и художественнее Power BI.
ThoughtSpot: Пионер search-driven BI — пользователь вводит на естественном языке "show me revenue by region last quarter", платформа строит SQL и график. SpotIQ даёт ML auto-insight, что выводит её в лидеры AI-augmented BI. В 2023 купила Mode Analytics за $200 млн.
Microsoft Fabric: Запущенная Microsoft в 2023 analytics-платформа, объединяющая Power BI, Synapse, Data Factory, Real-Time Analytics и Copilot в одном SaaS. OneLake стремится быть "lakehouse for the masses" и прямой конкурент Snowflake и Databricks.
Real-Time Dashboard: Дашборд, обновляющийся за секунды и показывающий "что происходит прямо сейчас". Связка WebSocket + streaming SQL + push notification. Используется в trading-платформах, gaming live ops, real-time support queue, IoT monitoring. Стеки — Grafana, Tinybird, Materialize, ClickHouse + Apache Pinot.
Embedded Analytics: Показ BI-дашбордов прямо внутри SaaS-приложения. Лидеры — Sigma, Mode, Looker Embedded, Cube + кастомный React-frontend. Инфраструктура любого продукта, который должен показывать клиенту его данные (Shopify analytics, Stripe Sigma, HubSpot reports); современная PLG-фича.
Slowly Refreshed Dashboard (Daily / Weekly): Дашборд без real-time, обновляющийся после ежедневного/еженедельного batch ETL — marketing weekly review, finance month-end close, retention cohort report. Правильный выбор ради экономии compute и простоты анализа; классический ответ анти-паттерну "premature real-time".
Anomaly Alerting: Алерт, срабатывающий при статистическом отклонении метрики от её сезонного паттерна и тренда. Prophet, Datadog Watchdog, Anodot, MonteCarlo и Sigma Anomaly Detection меняют manual-пороги на ML-driven dynamic-alerts. Центральная способность современной data observability.
Forecasting (Prophet / SARIMA / LSTM): Прогноз будущих значений на основе исторических данных. Инструменты — Prophet (Meta, business-friendly с seasonality), SARIMA (классическая статистика), LSTM и Transformer-модели (deep learning), библиотека Darts. Core ML-направление для sales forecasting, demand planning и capacity planning.
Data Catalog (Atlan / Alation / Collibra): Платформа, делающая все data-ассеты — таблицы, дашборды, ML-модели, метрики — discoverable и задокументированными для компании. Lineage, теги, business glossary, data quality и ownership в одном интерфейсе. "Википедия" современной data-команды.
AI-Powered BI (Copilot / Sigma AI / Tableau Pulse): BI-фичи нового поколения: natural-language запросы, автоматические инсайты и chart-narrative объяснения. Power BI Copilot, Tableau Pulse + Tableau GPT, Sigma AI и ThoughtSpot Sage отвечают на "why did revenue drop last week?" автоматическим root-cause и трансформируют роль аналитика.
Edge AI: Запуск AI-моделей на устройстве — телефоне, камере, дроне, IoT-сенсоре — вместо облака. Низкая задержка, сохранение privacy, offline-работа; требует quantized-модели, NPU и runtime. Двигает self-driving cars, AR/VR и smart camera.
TinyML: ML-модели, достаточно маленькие, чтобы поместиться в MCU с килобайтами RAM. Инструменты — TensorFlow Lite Micro, Edge Impulse, Arduino Nano 33 BLE Sense; покрывает keyword spotting, motion detection и anomaly detection. Приносит AI на IoT-устройства на батарейках, работающих годами.
Digital Twin: Виртуальная копия физического объекта — авиадвигателя, фабрики, города, тела человека — синхронизированная с real-time сенсорными данными. Объединяет simulation, monitoring и predictive maintenance. Лидеры платформ — Siemens, NVIDIA Omniverse, Microsoft Azure Digital Twins, Bentley iTwin.
People Analytics: Дисциплина, применяющая ML и статистику к данным сотрудников. Покрывает прогноз attrition, качество hiring, manager effectiveness, анализ DEI gap и sentiment-тренды. Лидеры — Visier, ChartHop, Lattice, Culture Amp и Workday Adaptive Planning; data-driven нога HR.
eNPS (Employee Net Promoter Score): NPS-стиль score на вопрос "порекомендовали бы вы компанию как место работы?". От -100 до +100; выше +30 — хорошо, выше +50 — отлично. Delivered через annual survey + quarterly pulse в Culture Amp, Officevibe, 15Five, Lattice. Single-question термометр engagement'а.
Pulse Survey: Современный преемник annual engagement-survey — короткий 5-10-вопросный опрос, рассылаемый еженедельно или раз в две недели. Real-time engagement-пульс, который сразу попадает в дашборд менеджера. Инструменты — Officevibe, 15Five, Lattice, Culture Amp; agile и actionable ответ классическому 80-вопросному годовому монстру.
EHR (Electronic Health Record): Цифровая и разделяемая запись о здоровье пациента — история болезни, анализы, имиджинг, рецепты. В США Epic и Cerner — 85 %+ доли рынка; в Европе — DocPlanner и Doctolib; в Турции — e-Nabız и MEDULA. Interoperability и privacy (HIPAA, GDPR, KVKK) — в самом сердце отрасли.
ClimateTech: Tech-решения против климатического кризиса — mitigation и adaptation. Carbon capture (Climeworks DAC), green hydrogen, fusion (Commonwealth Fusion, Helion), grid-scale battery (Form Energy), climate-risk modeling (Jupiter). Глобальные инвестиции в ClimateTech в 2024 превысили $40 млрд; Sequoia, Lowercarbon и Breakthrough Energy — ведущие фонды.
Carbon Capture (DAC / CCS): Технологии захвата CO₂ из атмосферы или напрямую из промышленного flue gas. Direct Air Capture (Climeworks Orca, Carbon Engineering) и Carbon Capture & Storage (CCS) для заводских выбросов. Стоимость $300-1000 за тонну; advance market commitment Frontier на $1 млрд нацелен снизить её до $100.

— БЫСТРАЯ ДИАГНОСТИКА

Готовы ли Вы к аналитической операции?

Интерактивный навигатор: показывает уровень программы, подходящего Вам, по 4 вопросам. Ответы «Да/Нет», результат за 30 секунд.

01 / 04

Сейчас у Вас более 10 активных dashboard или Excel-отчётов?

Изобилие dashboard — один из классических симптомов отсутствия решений.

— LET'S BEGIN

Ваши dashboard запускают решения или служат украшением?

60-минутный аналитический диагностик: текущая инвентаризация KPI, граф зависимостей dashboard, здоровье источников данных и рекомендация по 90-дневной roadmap — на одной панели.

Запросить dashboard audit Скачать наш шаблон KPI tree

First-Party архитектура данных

Аналитика данных и инсайты

CDP и Retention Engineering

Цифровой маркетинг

Перформанс-маркетинг

Технический SEO

GEO (ИИ-поиск)

ASO и App Marketing

Премиум-паблишер

CRO (оптим. конверсии)

UI / UX

Брендинг

Headless Commerce

Shopify Partner

Технологический стек и партнёрства

Анализ данных и инженерия инсайтов

Аналитика — это не «подготовка dashboard»; это операционная система, в которой каждый график напрямую запускает решение.

DIAGNOSE → MODEL → BUILD → AUTOMATE → VALIDATE → EDUCATE

Инвентаризация решений + карта вопросов

KPI tree + модель данных

Dashboard + система алертов

Pipeline + refresh + monitoring

A/B + incrementality + валидация MMM

Data council + обучение self-serve

В чём наше отличие? Классический BI vs аналитика, ориентированная на решения

Outcomes, measured

Engagement scope

Архитектура KPI tree

Decision-tree dashboards

Слой dbt + warehouse + BI

Инженерия cohort и retention

Bayesian MMM

Моделирование атрибуции

Incrementality testing

Обнаружение аномалий

Self-serve analytics

Data governance

Эффект операции с данными на стороне принятия решений

Скорость решений

Снижение HiPPO

Экономия времени на отчётности

Раннее предупреждение + действие

Self-serve культура

MMM + точность forecast

Ежемесячные + ежеквартальные результаты

Инвентаризация решений + карта 30 вопросов

KPI tree

dbt-репозиторий + модели

Semantic layer (LookML / Metabase models)

Пакет dashboard

Система алертов с порогами

Отчёт cohort + retention

Модель MMM + отчёт

Протокол incrementality-теста

Runbook по data governance

Ежемесячное резюме data council

Учебные материалы по self-serve

Что входит, а что нет?

Что входит в эту услугу

Не входящие работы (опционально как дополнительный объём)

Процесс: от диагностики на 1-й неделе до governance на 6+ месяце — аналитическая операция

Недели 1-2 — Инвентаризация решений + audit

Неделя 3 — KPI tree + schema

Недели 4-5 — dbt-модели + первый dashboard

Недели 6-8 — Алерт + cohort + refresh

Месяц 3 — Тренировка MMM + первый результат

Месяц 4 — Протокол incrementality-теста

Месяц 5 — Data council + self-serve обучение

Месяц 6+ — Ежеквартальный refresh + governance

Аналитический stack от warehouse до BI

Frequently asked

Аналитическая терминология

Готовы ли Вы к аналитической операции?

Сейчас у Вас более 10 активных dashboard или Excel-отчётов?

Ваши dashboard запускают решения или служат украшением?