АНАЛИТИКА, ОРИЕНТИРОВАННАЯ НА РЕШЕНИЯ

Анализ данных и инженерия инсайтов

Маркетинговые данные мы подключаем не к dashboard, а к механизмам принятия решений. KPI tree, dbt-моделирование, Bayesian MMM, тесты на incrementality и self-serve аналитика — инфраструктура не измерения, а действия.

Аналитика — это не «подготовка dashboard»; это операционная система, в которой каждый график напрямую запускает решение.

Большинство компаний тонет в 40+ dashboard, но получает пять разных ответов из пяти разных источников на один и тот же вопрос. KPI обсуждаются, решения откладываются, побеждает HiPPO. Аналитическая операция Roibase устраняет эту неопределённость через шесть принципов; каждый принцип производит не dashboard, а решения.

Roibase perspective

МЕТОДОЛОГИЯ

DIAGNOSE → MODEL → BUILD → AUTOMATE → VALIDATE → EDUCATE

Шесть слоёв аналитической операции; каждый производит отдельный artifact и питает связанный с ним цикл принятия решений.

01

DIAGNOSE

Инвентаризация решений + карта вопросов

Перечисляются 30 вопросов, которые лица, принимающие решения, задают еженедельно; уточняются источник ответа, частота, SLA и эффект.

02

MODEL

KPI tree + модель данных

dbt-модели + LookML или Metabase semantic layer; версионируемое, тестируемое, документированное.

03

BUILD

Dashboard + система алертов

Dashboard по категориям решений (CAC, retention, revenue quality); алерты с порогами + шаблоны триггеров.

04

AUTOMATE

Pipeline + refresh + monitoring

Refresh-оркестрация через Airflow / Dagster / dbt Cloud; pipeline health + тесты качества данных + Slack-бот.

05

VALIDATE

A/B + incrementality + валидация MMM

Выводы моделей сверяются с экспериментами; калибровка через тесты incrementality + симуляции сценариев MMM.

06

EDUCATE

Data council + обучение self-serve

Ежемесячное собрание data council: какие вопросы остались без ответа, какие dashboard не использовались, какое self-serve обучение нужно.

— СРАВНЕНИЕ

В чём наше отличие? Классический BI vs аналитика, ориентированная на решения

Компания может считать «аналитикой» 100 dashboard. Реальная же ценность появляется тогда, когда каждый dashboard связан с решением, а каждое решение — с действием.

ПараметрIn-house BI в одиночкуКлассическое reporting-агентствоRoibase: аналитика, ориентированная на решения
Определение KPIПересекается между подразделениямиШаблон агентстваKPI tree + письменное ownership
Философия dashboardИзобилие графиковОриентация на ежеквартальный PPTКаждый график — решение
Слой моделирования данныхAd-hoc SQL + ExcelОтчёты внутри платформыdbt + версионируемое + с тестами
Cohort + LTV инженерияОграничено средними метрикамиКак отчёт — отсутствуетD1-D90 + сегмент + кривая LTV
MMM + incrementalityНетExcel-экспериментыBayesian MMM + geo-holdout
Аномалии / система алертовРучной контрольНетML drift detector + Slack/email
Self-serve культураData-команда — bottleneckDriven отчётамиБизнес-юнит спрашивает сам
Governance + PIIПолитики нетНе осознаётсяPII tagging + retention + audit

PROOF

Outcomes, measured

30
Стратегических вопросов

Число стратегических вопросов, на которые можно ответить в первом спринте.

−%40
Экономия времени на отчётности

Часы, которые маркетинговая команда возвращает на ручной подготовке dashboard.

3
Refresh MMM в год

Ритм обновления в зависимости от изменений сезона + микса каналов.

18-24
Месяцев исторического горизонта

Минимально необходимый дневной диапазон данных для MMM + forecast.

%99.2
Pipeline uptime

SLA dbt + Airflow + monitoring; включая тесты качества данных.

5 дней
Срок публикации dashboard

Среднее время от brief до live для новой панели по решению.

WHAT WE DO

Engagement scope

Every offering is an outcome-based work package. Roibase blends strategy and execution inside a single team — no hand-offs.

01 / 10

Архитектура KPI tree

Каждая маркетинговая метрика напрямую увязана с бизнес-результатом; у каждой метрики есть владелец, источник, порог и запускаемое решение.

02 / 10

Decision-tree dashboards

Не графики, а решения: панели по логике «при таком пороге — такое действие»; каждая панель для конкретной роли и частоты.

03 / 10

Слой dbt + warehouse + BI

Версионируемые + тестируемые модели данных через dbt; на BigQuery / Snowflake / Redshift; интерфейс LookML / Metabase / Lightdash.

04 / 10

Инженерия cohort и retention

Когортные таблицы D1/D7/D30/D90, кривые LTV, посегментный churn и анализ resurrection — реальное поведение под средними значениями.

05 / 10

Bayesian MMM

Media, промо, сезон и макропеременные моделируются вместе; Robyn + PyMC; ежеквартальный refresh + confidence band.

06 / 10

Моделирование атрибуции

GA4 DDA + multi-touch attribution + подходы shapley value; модель для решений за пределами предвзятой отчётности платформ.

07 / 10

Incrementality testing

Geo-holdout + matched-market тесты; Meta Lift, GeoLift, in-house framework; референс-точность для бюджетных решений.

08 / 10

Обнаружение аномалий

ML-based drift detector + forecast band + Slack/email алерт для тихо ухудшающихся метрик; не утром, а в час события.

09 / 10

Self-serve analytics

Среда (Metabase, Lightdash, Hex), в которой бизнес-юнит сам отвечает на свои вопросы + обучение + менторство.

10 / 10

Data governance

PII tagging, schema registry, retention-политика, аудит доступа к данным, пакет документации; операция, соответствующая KVKK + GDPR.

— РЕЗУЛЬТАТ

Эффект операции с данными на стороне принятия решений

Чем быстрее, чем основательнее на данных и чем повторяемее решения организации, тем сильнее её позиция в непредсказуемых рыночных условиях.

3× к скорости

Скорость решений

Ответы на 30 стратегических вопросов уже на панели; на встречах обсуждаются не данные, а действия.

Data-driven

Снижение HiPPO

Решение запускает не мнение самого высокооплачиваемого, а данные; обсуждение опирается на метрики.

−40 % часов

Экономия времени на отчётности

Завершаются ручные Excel-рутины маркетинговой команды; возвращённые часы переводятся в стратегический анализ.

Часы, а не дни

Раннее предупреждение + действие

С ML drift detector + системой алертов с порогами ухудшающиеся метрики ловятся за часы.

50+ self-serve user

Self-serve культура

Бизнес-юнит сам отвечает на свои вопросы, не дожидаясь data-команды; data-команда фокусируется на стратегической работе.

±8 % accuracy

MMM + точность forecast

Через Bayesian MMM + калибровку incrementality отклонение forecast — в полосе ±8 %; бюджетное решение надёжно.

ПОСТАВКИ

Ежемесячные + ежеквартальные результаты

Конкретные артефакты аналитической операции; каждый передаётся Вашей команде, а к 12-му месяцу полностью работает в формате runbook без нашего участия.

  • Инвентаризация решений + карта 30 вопросов

    Список вопросов, задаваемых лицами, принимающими решения, еженедельно, источник ответа, SLA и потребности в недостающих данных.

  • KPI tree

    Источник, владелец, порог и запускаемое решение для каждой метрики — единая доска Miro / FigJam, версионируемая.

  • dbt-репозиторий + модели

    Версионируемый + тестируемый dbt-проект; слои staging / intermediate / marts, включая документацию.

  • Semantic layer (LookML / Metabase models)

    Слой общих metric definitions, лежащий за вопросами, которые задаёт бизнес-юнит.

  • Пакет dashboard

    Первые 15-25 панелей по категориям решений (CAC, retention, revenue quality); каждая — по роли и частоте.

  • Система алертов с порогами

    ML drift detector + forecast band + интеграция Slack/email; ухудшающиеся метрики выдают сигнал за часы.

  • Отчёт cohort + retention

    Таблицы D1/D7/D30/D90 + кривые LTV + анализ сегментов churn + доля resurrection.

  • Модель MMM + отчёт

    Bayesian MMM (Robyn/PyMC); вклад каналов + saturation + adstock + confidence band.

  • Протокол incrementality-теста

    Framework geo-holdout и matched-market; шаблоны планирования + проведения + анализа.

  • Runbook по data governance

    PII tagging, schema registry, политика retention, аудит доступа — соответствует KVKK + GDPR.

  • Ежемесячное резюме data council

    На какие вопросы дан ответ, какие остались, какие dashboard использовались, список приоритетов на следующий месяц.

  • Учебные материалы по self-serve

    Обучающие видео по Metabase / Lightdash / Hex для бизнес-юнита + словарь SQL / жаргона + практический набор данных.

— ОБЪЁМ

Что входит, а что нет?

Границы аналитической операции чёткие. Знание объёма заранее устраняет ложные ожидания и scope creep.

Что входит в эту услугу

  • Инвентаризация решений + первый спринт из 30 вопросов
  • KPI tree + письменное ownership + версионируемый документ
  • Установка dbt-репозитория + слои staging/intermediate/marts
  • Интеграция warehouse (BigQuery / Snowflake / Redshift / Databricks)
  • Semantic layer на LookML или Metabase
  • Первые 15-25 dashboard + ежеквартальное добавление
  • ML-обнаружение аномалий + система алертов с порогами
  • Аналитика cohort + LTV + retention — ежеквартальное обновление
  • Bayesian MMM (3 refresh в год)
  • Протокол incrementality-теста + проведение
  • Runbook по data governance (PII, retention, audit)
  • Ежемесячный data council + поток self-serve обучения

Не входящие работы (опционально как дополнительный объём)

  • Финансовый / бухгалтерский BI (сторона ERP — отдельный консалтинг)
  • Стоимость warehouse compute / лицензий (на стороне клиента)
  • Custom-обучение ML-моделей (за пределами forecasting)
  • Инфраструктура real-time streaming (Kafka, Kinesis — отдельный объём)
  • Консультации по data privacy / праву (с партнёрским адвокатом)
  • Продление лицензий BI-инструментов
  • Покупка данных third-party (panel, survey)
  • Сами маркетинговые операции (PPC / SEO / CRO — отдельная услуга)

HOW WE WORK

Процесс: от диагностики на 1-й неделе до governance на 6+ месяце — аналитическая операция

01

Недели 1-2 — Инвентаризация решений + audit

Список из 30 стратегических вопросов, инвентаризация существующих dashboard, диагностика здоровья источников данных и SLA.

02

Неделя 3 — KPI tree + schema

Письменный KPI tree, metric definitions, ownership; принято решение по схеме warehouse + слою staging.

03

Недели 4-5 — dbt-модели + первый dashboard

dbt staging + intermediate + marts; публикация первых 5-8 dashboard; stakeholder review.

04

Недели 6-8 — Алерт + cohort + refresh

Система алертов с порогами, отчёты cohort + retention, refresh pipeline на dbt Cloud / Airflow.

05

Месяц 3 — Тренировка MMM + первый результат

Bayesian MMM на 18 месяцах истории; вклад каналов + saturation + первая рекомендация по корректировке бюджета.

06

Месяц 4 — Протокол incrementality-теста

Framework geo-holdout или matched-market; первый тест запущен, результат — через 4-6 недель.

07

Месяц 5 — Data council + self-serve обучение

Запускается рутина ежемесячного data council; для бизнес-юнита — поток self-serve обучения по Metabase / Lightdash.

08

Месяц 6+ — Ежеквартальный refresh + governance

Ежеквартальный refresh MMM, цикл incrementality-тестов, аудит data governance; полный handoff возможен на 12-м месяце.

— СТЕК ИНСТРУМЕНТОВ

Аналитический stack от warehouse до BI

Работаем vendor-agnostic; но на каждом слое есть открытые инструменты, дающие максимум ценности. Адаптируемся к Вашему текущему стеку.

WAREHOUSE

BigQuery (экономично, on-demand)Snowflake (enterprise, изолированный compute)Redshift (в стеке AWS)Databricks (для ML-нагрузок)Postgres (малый-средний масштаб)

MODELLEME & TRANSFORM

dbt (core + cloud)Dataform (нативно для GCP)Coalesce (visual)Airflow / Dagster (orchestration)Fivetran / Stitch / Airbyte (ingestion)

BI & VISUAL

Looker (LookML semantic layer)Metabase (self-hosted self-serve)Lightdash (dbt-native BI)Tableau (enterprise)Hex / Mode (notebook-driven)Looker Studio (quick-win)

ML & MMM

Robyn (open-source MMM от Meta)PyMC / Pyro (Bayesian-моделирование)scikit-learn (drift detection)Prophet (forecasting)GeoLift (incrementality)Monte Carlo / Great Expectations (data quality)

QUESTIONS

Frequently asked

Для части компаний — да; при менее 10 dashboard, без cross-table join, в одноканальных операциях Looker Studio — практичное решение. Но при 30+ dashboard, версионируемой модели данных, потребности в role-based доступе нужны Looker / Metabase / Lightdash.

— ГЛОССАРИЙ

Аналитическая терминология

Когда команды одинаково понимают одни и те же термины, обсуждение ускоряет решение; иначе — растёт «подозрение в скорости».

01
KPI Tree
Иерархическое дерево метрик, расходящееся от ключевого бизнес-результата вниз; каждый узел — триггер решения.
02
dbt
Data build tool — SQL-ориентированный, версионируемый, тестируемый framework преобразования данных; стандарт analytics engineering.
03
Semantic Layer
Слой общих metric definitions + business logic за BI-инструментом; реализуется через LookML, Metabase models, Cube и аналогичные.
04
Cohort
Группа пользователей, объединённых характеристикой (датой регистрации, каналом acquisition); анализируется поведение во времени.
05
LTV (Lifetime Value)
Совокупная пожизненная ценность клиента; gross margin × retention × частота заказов × средний чек.
06
Retention
Доля привлечённых пользователей, всё ещё активных в заданном окне (D1, D7, D30, M1, M3). В SaaS и mobile games — прямой индикатор product-market fit; выходящая на плато когортная кривая — подпись здорового продукта.
07
Churn
Доля пользователей, покидающих активную клиентскую базу в заданном окне. В subscription напрямую бьёт по MRR; в e-commerce — обратная сторона repeat rate. Делится на voluntary (отменили) и involuntary (сбой оплаты); снижается через онбординг, ценообразование и lifecycle-коммуникацию.
08
MMM (Marketing Mix Modeling)
Модель, оценивающая вклад каналов через Bayesian-статистику; требует 18-24 месяцев исторических данных.
09
Incrementality
Дополнительные конверсии, которых не было бы без канала; измеряется geo-holdout-тестами и не зависит от attribution.
10
Anomaly Detection
Зонтик техник автоматического обнаружения значений вне ожидаемого диапазона в time-series-метриках (KPI, конверсия, latency, фрод-сигнал). Применяют STL decomposition, Prophet, isolation forest, нейронные OoD-модели; мозг alerting и observability-дашбордов.
11
Self-Serve Analytics
Аналитическая среда, в которой бизнес-юнит сам отвечает на свои вопросы, не дожидаясь data-команды; реализуется через Metabase, Lightdash, Hex.
12
Data Governance
Совокупность политик качества, контроля доступа, управления PII, retention и аудита данных; соответствие KVKK/GDPR.
13
ETL / ELT
Extract → Transform → Load (старое) vs Extract → Load → Transform (современное). Подходы переноса данных из источника в warehouse. ELT полагается на дешёвый compute облачных DW; dbt + BigQuery/Snowflake/Databricks — сегодняшний стандарт.
14
Data Lake
Центральное хранилище для всех структурированных и неструктурированных данных (логи, картинки, видео, raw events) без обязательной схемы. На S3, GCS или ADLS в форматах Parquet/Iceberg/Delta Lake; дополняет warehouse и лежит в основе lakehouse-архитектуры.
15
Stream Processing
Обработка данных как real-time потока событий, а не пачками. Распространённые стеки: Kafka + Flink/Spark Streaming/Kinesis + ksqlDB; кейсы — fraud detection, real-time персонализация, IoT-телеметрия и anomaly alerting.
16
Data Contract
Заранее согласованный контракт между производителями и потребителями данных о схеме, семантике, SLA и ownership. Реализуется через dbt + Great Expectations + JSON Schema; самая надёжная стена против сюрприза "downstream-модель сломалась".
17
LLM (Large Language Model)
Универсальная языковая модель с миллиардами параметров на архитектуре transformer, предобученная на огромных корпусах текста. GPT-5, Claude, Gemini, Llama; рабочая лошадка для чата, кода, summarization, перевода, retrieval и agent-задач — специализируется fine-tuning или prompt engineering.
18
Transformer
Архитектура нейросетей из работы "Attention Is All You Need" (2017), захватывающая дальние связи в последовательных данных через self-attention. Преемник RNN и LSTM; основа всех современных LLM (GPT, Claude, Llama, Gemini) и даже vision-моделей (ViT).
19
Embedding
Высокоразмерное векторное представление слова, предложения, изображения или пользователя — семантическая близость измеряется расстоянием между векторами. Общая валюта для рекомендаций, semantic search, RAG, кластеризации и anomaly detection; OpenAI ada, Cohere и sentence-BERT — частые производители.
20
RAG (Retrieval-Augmented Generation)
Архитектура, в которой LLM перед ответом подтягивает релевантные документы из внешней базы знаний (vector DB, doc store) и инъектирует их в контекст. Снижает галлюцинации и является стандартом доступа модели "open-book" к свежим/приватным данным — тройка embedding + retriever + LLM.
21
Vector Database
БД, хранящая embedding в высокоразмерном векторном пространстве и находящая похожие векторы за миллисекунды через ANN (Approximate Nearest Neighbor). Pinecone, Weaviate, Qdrant, pgvector, Chroma; реальный движок retrieval-слоя в RAG.
22
Fine-tuning
Процесс дообучения предобученной foundation-модели на дополнительных (обычно небольших) размеченных данных под конкретную задачу или домен. Full fine-tune, LoRA/QLoRA и instruction-tuning — частые варианты; основа кейсов "кастомный ассистент" поверх ChatGPT и аналогов.
23
LoRA (Low-Rank Adaptation)
Параметр-эффективная техника fine-tuning, добавляющая малые "adapter"-матрицы вместо обновления всех весов foundation-модели. Обучает ~0,1-1 % параметров, экономит 70 %+ GPU-памяти; per-task swap адаптеров делает multi-task serving практичным.
24
RLHF (Reinforcement Learning from Human Feedback)
Финальная стадия тренировочного пайплайна LLM, выравнивающая выходы модели с предпочтениями людей-оценщиков. Reward-модель + алгоритм PPO/DPO направляют модель в сторону "полезного, честного, безвредного" вывода; основа alignment ChatGPT.
25
Hallucination
Когда LLM уверенно выдумывает несуществующий источник, факт или цитату. Причина — модель с той же уверенностью отвечает на вопросы вне распределения её training-данных; смягчается RAG, citation grounding и self-consistency check — полностью не устраняется.
26
Prompt Engineering
Дисциплина системного проектирования prompt (инструкция + контекст + примеры + формат), чтобы LLM выдавал нужный результат. Few-shot, chain-of-thought, роль, output-схема, system prompt; слой "как с ней говорить" любой AI-системы в проде.
27
Context Window
Количество токенов (вход + выход), которое LLM может обработать за один вызов. От 8K-128K (GPT-4) до 200K (Claude) и 1M+ (Gemini); критическая ёмкость для анализа длинных документов, multi-turn-диалога и agent state — RAG — альтернатива "расширения" контекста.
28
Function Calling / Tool Use
Возможность LLM вызывать внешнюю функцию (API, запрос к БД, code-runner) через структурированный JSON вместо свободного текста. OpenAI tools, Anthropic tool_use; официальный протокол, позволяющий agent'ам касаться реального мира.
29
AI Agent
Программная конструкция, использующая LLM как решающий движок и автономно выполняющая многошаговые задачи через tool calling + память + цикл plan-execute. ReAct, AutoGPT, Claude/GPT agents, LangGraph; архитектура "исследовать → планировать → запускать tools → достичь цели".
30
Foundation Model
Крупная модель, предобученная на широких, разнородных данных интернет-масштаба и переносимая на downstream-задачи — LLM, vision-модели (CLIP, ViT), мультимодальные (GPT-4o, Gemini). Сверху строятся приложения через fine-tuning, prompt engineering или RAG.
31
Multimodal AI
Система ИИ, в которой одна и та же модель понимает и генерирует более чем в одной модальности — текст + изображение + аудио + видео. GPT-4o, Gemini, Claude 3.5 vision; основа кейсов вроде OCR, image captioning, видео Q&A, транскрипции аудио и screen-aware агентов.
32
NLP (Natural Language Processing)
Подобласть ИИ о способности компьютера понимать, генерировать и трансформировать естественный язык (турецкий, английский и т. д.). Токенизация, POS-теггинг, NER, sentiment-анализ, машинный перевод; сегодня LLM — самые мощные универсальные инструменты в этой области.
33
Token
Наименьшая единица текста, которую обрабатывает LLM — может быть словом, подсловом или одним символом. Tokeniser (BPE, WordPiece, SentencePiece) переводит текст в токены; цены OpenAI и лимиты context window измеряются в токенах (1 английское слово ≈ 1,3 токена).
34
Temperature
Параметр, управляющий "случайностью" распределения выхода LLM — 0 = всегда самый вероятный токен (детерминистично), 1+ = больше креатива/разнообразия. Обычные значения: 0-0,3 для кода/JSON/числовых выходов, 0,7-1,2 для текста/brainstorm; настраивается вместе с top_p.
35
Semantic Search
Подход к поиску, возвращающий результаты по смыслу за счёт сравнения embedding запроса и документов, а не совпадения по ключевым словам. Не зависит от правописания, ловит синонимы; retrieval-движок RAG — на vector DB + ANN.
36
Inference
Этап, на котором обученная AI-модель выдаёт предсказания/генерации на живых данных (противоположность training). Latency, throughput, cost-per-request и стек model serving (vLLM, TGI, Triton); ~90 % продакшен-стороны MLOps.
37
OLTP (Online Transaction Processing)
Подход к БД, оптимизированный для большого числа построчных чтений/записей с низкой задержкой. PostgreSQL, MySQL, MongoDB; стандартное хранилище под бэкендами live-приложений — корзина e-commerce, пользовательская сессия, бронирования.
38
OLAP (Online Analytical Processing)
Колоночный подход к БД, оптимизированный под крупномасштабные аналитические запросы. BigQuery, Snowflake, Redshift, ClickHouse; сканирует миллионы строк за секунды для агрегаций, GROUP BY и time-series — инфраструктура BI и дашбордов.
39
ACID
Четыре гарантии транзакционных БД: Atomicity (всё-или-ничего), Consistency (правила не нарушаются), Isolation (параллельные операции не видят друг друга), Durability (закоммиченные данные сохраняются). Базовый контракт RDBMS вроде PostgreSQL, MySQL, Oracle.
40
BASE
Ослабленный набор гарантий распределённых/NoSQL-систем: Basically Available, Soft state, Eventual consistency. Противоположность ACID — допускает кратковременную несогласованность в обмен на availability + масштабируемость. Подход DynamoDB, Cassandra, Riak.
41
Sharding
Разбиение БД по ключу (user_id mod 16, временной диапазон) с хранением каждого шарда на отдельном сервере. Метод горизонтального масштабирования; cross-shard JOIN становится непрактичным, выбор shard-key — необратимое архитектурное решение.
42
Replication
Поддержание живой копии БД на нескольких серверах — чтобы распределить нагрузку на чтение (read replica) и обеспечить failover. Async (Postgres streaming) с задержкой, но быстрый; sync согласован, но медленный; каждая стратегия — компромисс.
43
Eventual Consistency
В распределённой системе обновлению нужно время, чтобы распространиться на все реплики — короткое время разные ноды могут возвращать разные значения. Дефолт DynamoDB и Cassandra; не для банков, идеально для соцсетей.
44
CDC (Change Data Capture)
Паттерн захвата INSERT/UPDATE/DELETE-событий БД в реальном времени и отправки их в downstream-системы (warehouse, search index, cache). Debezium, Kafka Connect; работает на replication slot + log tailing, современная альтернатива polling.
45
Star Schema
Подход моделирования в хранилище, в котором центральная fact-таблица (напр. orders) окружена dimension-таблицами (customer, product, date) звездой. BI-запросы требуют мало JOIN = быстрые; каноническая архитектура для BigQuery, Snowflake.
46
Materialized View
Объект БД, физически записывающий результат SELECT-запроса на диск и кеширующий его. Предвычисляет сложную агрегацию вместо пересчёта каждый раз; стратегия refresh (ручной, по расписанию, инкрементный) — компромисс.
47
Normalization
Процесс разбиения схемы БД на связанные таблицы для устранения избыточности и аномалий обновления (1NF, 2NF, 3NF, BCNF). Стандарт OLTP; гарантирует, что каждое обновление происходит в одном месте — ценой большего числа JOIN.
48
Denormalization
Намеренное объединение нормализованных таблиц и допущение избыточности в обмен на производительность запросов. Стандарт OLAP / data warehouse; снижает стоимость JOIN, риск несогласованности — через ETL/CDC.
49
Time-series Database
БД, оптимизированная для записей большого объёма метрик с timestamp (CPU, IoT-сенсоры, финансовые тикеры) и запросов по диапазонам времени. InfluxDB, TimescaleDB, Prometheus, ClickHouse; downsampling + retention policy — ключевые фичи.
50
Iceberg / Hudi / Delta Lake
Open-source-проекты, добавляющие слой "формата таблиц" над object storage (S3, GCS) — вносят schema evolution, ACID, time-travel и поддержку concurrent writer. Три стандартных движка lakehouse-архитектуры.
51
Data Quality
Дисциплина измерения датасета по точности, полноте, согласованности, свежести и уникальности. Great Expectations, Monte Carlo, Soda автоматизируют тесты; единственная реальная защита от "garbage in, garbage out".
52
Data Lineage
Прослеживаемый граф всех шагов трансформации, которые проходит данные от источника (raw event) до конечного пользователя (KPI на дашборде). Atlan, OpenMetadata, dbt docs; детерминированный ответ на "откуда этот KPI" плюс impact analysis.
53
Data Mesh
Структура self-serve данных-продуктов по доменам (marketing, finance, product) вместо центральной data-команды. Строится на domain ownership + product thinking + federated governance; ответ на проблему "data-команда — bottleneck" на масштабе.
54
Data Catalog
Центральный каталог, индексирующий все data-активы организации (таблица, дашборд, ML-модель, колонка) с поиском, описаниями и ownership. Atlan, Collibra, OpenMetadata, Amundsen; ответ на "есть ли эти данные, кто владелец?".
55
Schema Evolution
Способность формата данных (Avro, Parquet, JSON) меняться во времени, не ломая существующих потребителей при добавлении полей. Требует дисциплины по backward + forward compatibility, optional-полям и default; критично для CDC, event sourcing, lakehouse.
56
AWS DynamoDB
Serverless NoSQL key-value + document БД AWS. Латентность в однозначных мс на миллиардах запросов/сек, авто-партиционирование, point-in-time recovery, global tables (multi-region). Идеально для game-бэкендов, IoT-телеметрии, сессий, leaderboard'ов.
57
GCP Spanner
Глобально масштабируемая, ACID-совместимая, горизонтально масштабируемая реляционная БД Google. SQL-синтаксис + масштаб уровня DynamoDB + транзакции уровня PostgreSQL; multi-region 99,999 % uptime; на ней работают Google Ads/Maps, идеально для fintech.
58
Azure Cosmos DB
Глобально масштабируемая multi-model NoSQL БД Microsoft Azure. API SQL, MongoDB, Cassandra, Gremlin (graph), Table на одном движке; пять уровней consistency (strong → eventual); latency и throughput по SLA.
59
Prometheus
Слой метрик cloud-native monitoring-стека. Pull-based scraping собирает /metrics с target-эндпоинтов; PromQL для time-series-запросов; Alertmanager управляет правилами алертов. De-facto стандарт для Kubernetes и современных микросервисных архитектур.
60
Grafana
Open-source платформа визуализации данных и дашбордов. Объединяет 100+ источников (Prometheus, Loki, Elasticsearch, CloudWatch, Postgres…) в одном интерфейсе; alerting, аннотации, templating панелей; стандарт NOC-экранов в SRE-командах.
61
Jaeger
CNCF-платформа distributed tracing. Захватывает каждый hop пользовательского запроса между микросервисами как span; визуализирует bottleneck'и латентности, потерянные зависимости, распространение ошибок. На 100 % совместима с OpenTelemetry.
62
OpenTelemetry (OTel)
CNCF-проект, объединяющий observability (метрики, логи, трейсы) под единым vendor-neutral стандартом. SDK и авто-инструментация делают код приложения переносимым между Datadog, New Relic, Honeycomb, Jaeger — разрушает vendor lock-in.
63
ELK Stack
Elasticsearch + Logstash + Kibana — open-source стек агрегации, индексации и визуализации логов. Logstash принимает, Elasticsearch индексирует для full-text search, Kibana — дашборды. Loki + Grafana набирает силу на больших масштабах, но ELK остаётся очень распространённым.
64
SLI (Service Level Indicator)
Числовой индикатор здоровья сервиса — success rate, p99-латентность, доступность. Основа для измерения SLO; объективно отвечает на "какой % запросов завершился до 200 мс?". Ключевая концепция из Google SRE Book.
65
SLO (Service Level Objective)
Внутренний целевой показатель, который должен достичь SLI — напр. "p99-латентность < 200 мс в 99,9 % окна за 30 дней". Ответ инженерной команды на "насколько надёжно — достаточно надёжно"; основа для error budget.
66
SLA (Service Level Agreement)
Внешний контракт между провайдером сервиса и клиентом; юридическое отражение SLO. Нарушение SLA влечёт штрафы (возврат, кредит). Правило: SLA < SLO < SLI — инженерия целится строже публичной гарантии.
67
Error Budget
"Допустимый объём отказов", вытекающий из SLO. SLO 99,9 % = 0,1 % error budget = ~43 минуты downtime в месяц. Бюджет есть → берите риски (релизы); бюджет израсходован → режим стабилизации. Баланс SRE между инновацией и надёжностью.
68
Diffusion Model
Семейство генеративных моделей, которые учатся постепенно добавлять шум к данным и затем обращать процесс вспять. Ключевая архитектура современных image/video-генераторов: Stable Diffusion, Midjourney, DALL-E 3, Sora. Обучается стабильнее GAN и даёт значительно более разнообразный выход.
69
GAN (Generative Adversarial Network)
Генеративная модель, в которой две нейросети — Generator (фейки) и Discriminator (судья real/fake) — обучаются в конкуренции. Представлена Иэном Гудфеллоу в 2014; технология ранних deepfake, портретов StyleGAN, super-resolution. Сейчас в значительной мере вытеснена diffusion-моделями.
70
CLIP (Contrastive Language-Image Pre-training)
Модель OpenAI 2021 года, выравнивающая изображения и подписи в общем embedding-пространстве — embedding "фото кошки" оказывается рядом с реальными фото кошек. Text-to-image conditioner в Stable Diffusion; основа zero-shot классификации изображений и визуального поиска.
71
ControlNet
Архитектура 2023 года, добавляющая diffusion-моделям дополнительный conditioning-сигнал. Управляет генерацией по референсам — pose, depth-map, canny edge, scribble — позволяя задавать "эта поза, но другая одежда". Один из самых используемых дополнений экосистемы Stable Diffusion.
72
Adapter Tuning
Подход fine-tuning, при котором в большую языковую модель встраиваются небольшие "adapter"-слои вместо переобучения всех параметров. Популярные варианты — LoRA, QLoRA, IA³; обучается <1 % исходных параметров, расходы на GPU резко падают.
73
PEFT (Parameter-Efficient Fine-Tuning)
Зонтичный термин для подходов, обучающих небольшое подмножество параметров вместо полного fine-tuning 70B-LLM. LoRA, prompt tuning, prefix tuning, adapter tuning — всё это варианты PEFT. Стандартный инструмент — библиотека peft от HuggingFace.
74
Quantization (LLM)
Техника сжатия весов float32/float16 модели до int8, int4 и даже int2. Потребление памяти падает в 4-8×, inference ускоряется в 2-3×, потери качества обычно невелики. Стандарт — Llama.cpp, формат GGUF и алгоритмы AWQ/GPTQ.
75
Knowledge Distillation
Техника передачи поведения большой "teacher"-модели маленькой "student"-модели. Нацеливаясь на мягкие вероятностные выходы teacher, student достигает почти такой же точности при гораздо меньшем числе параметров. Секрет DistilBERT, TinyLlama, Phi-3.
76
Mixture of Experts (MoE)
Архитектура, в которой вместо монолитной модели каждый токен направляется через разрежённый выбор (один-два) небольших "expert"-субмоделей. Используется в Mixtral 8x7B, GPT-4, DeepSeek; снижает число активных параметров при сохранении ёмкости и уменьшении стоимости inference.
77
Speculative Decoding
Техника ускорения inference LLM: небольшая "draft"-модель предлагает несколько токенов вперёд, большая "target"-модель проверяет их параллельно и принимает корректные. Ускорение в 2-3× при той же качестве вывода. Стандарт в vLLM и llama.cpp.
78
KV Cache
Оптимизация, удерживающая в памяти матрицы Key и Value, посчитанные для предыдущих токенов в attention-слоях трансформера. Каждый новый токен считает только свои K/V вместо повторения истории. Ускоряет inference в 10-100×, но становится bottleneck по памяти на длинных контекстах.
79
Attention Head
Один из множества небольших attention-механизмов, работающих параллельно внутри трансформера. Каждый head фокусируется на своём аспекте входа — синтаксис, позиция, дальние зависимости. В GPT-4 — 96+ head на слой; строительный блок multi-head attention.
80
BPE Tokenizer (Byte-Pair Encoding)
Алгоритм токенизации, разбивающий текст на самые частые subword-куски — напр. "tokenization" → "token" + "ization". GPT, LLaMA, Mistral — все используют варианты BPE (tiktoken, SentencePiece); словарь фиксирован (~32K-128K), проблема OOV закрыта.
81
DPO (Direct Preference Optimization)
Более простая альтернатива RLHF. Вместо сложного reward-model + PPO выполняет прямую логистическую регрессию на парах "предпочтительный vs отклонённый". Stanford 2023; устойчивее, меньше гиперпараметров, метод выравнивания во многих моделях, включая Llama 3.
82
Constitutional AI
Метод, представленный Anthropic в 2022: модель выравнивается по письменной "конституции" (списку этических принципов), а не по живым reviewer'ам. Модель критикует и улучшает свои выходы против конституции; основа alignment Claude, также известный как RLAIF.
83
Chain-of-Thought (CoT)
Техника промптинга, заставляющая LLM "думать шаг за шагом" и записывать промежуточный вывод перед ответом. Введена в paper Google 2022 года; резко улучшает результаты на математике, логике и multi-step вопросах. "Let's think step by step" — магическая фраза. Основа современных reasoning-моделей (o1, DeepSeek-R1).
84
Few-Shot Prompting
Техника, при которой в промпте даются 2-5 примеров (input → output), чтобы LLM применил тот же паттерн к новому input. Быстрая адаптация без fine-tune — "отвечай как в этих примерах". Самое практичное решение для labeled классификации и форматированной экстракции.
85
Zero-Shot Prompting
Подход промптинга, в котором задача описывается LLM напрямую без примеров — напр. "переведи этот текст на немецкий". Опирается только на знания pre-training; для frontier-моделей (GPT-4, Claude) этого достаточно для большинства задач.
86
Grounding (LLM)
Техника "привязки" ответа LLM к внешнему источнику знаний — документам, БД или web-поиску. Используется retrieved-контекст вместо чисто параметрической памяти; галлюцинации резко падают, появляются цитирования, знания остаются актуальными в реальном времени.
87
Structured Output (LLM)
Возможность приведения вывода LLM к заданной JSON-схеме, Pydantic-модели или regex. OpenAI structured outputs, Anthropic tool use, vLLM grammar-constrained sampling. Ключ к переходу от свободного текста к детерминированному production-готовому потоку данных.
88
Tool Use (Agent)
Способность LLM вызывать внешние инструменты — web search, code interpreter, калькулятор, custom API. Через протокол function calling модель возвращает "tool name + параметры", runtime выполняет и возвращает результат. Ядро agent-архитектур (Claude Agent SDK, AutoGen, LangGraph).
89
Cross-Modal Embedding
Embedding'и, представляющие разные модальности (текст, изображение, аудио) в одном векторном пространстве. CLIP для image+text, ImageBind для text+image+audio+video+depth+thermal+IMU. Критично для multimodal search ("найди marketing copy похожий на это фото"), cross-modal retrieval и добавления media в RAG.
90
Hybrid Search (BM25 + Vector)
Стратегия retrieval, объединяющая классический keyword-поиск (BM25/lexical) с векторной similarity. BM25 выигрывает на exact-match запросах (числовые ID, артикулы); векторы — на семантике ("как вернуть товар" → "return policy"). Золотой стандарт современного RAG.
91
Data Fabric
Интегрированная архитектура, объединяющая распределённые источники данных (cloud, on-prem, SaaS) в единый логический data-слой. Управляется метаданными и усилена AI; альтернатива "централизованной интеграции" распределённой модели data mesh. Ключевые продукты — Talend, Informatica, IBM Cloud Pak.
92
Medallion Architecture
Паттерн организации data lake, популяризированный Databricks — слои Bronze (raw), Silver (очищенный, conformed), Gold (business-ready, агрегированный). Каждый слой строится на предыдущем; чисто разделяет lineage, качество и переобработку.
93
Apache Spark
Распределённый in-memory движок обработки данных. Преемник Hadoop MapReduce, в 10-100× быстрее; объединяет SQL, streaming, ML (MLlib) и graph (GraphX) в едином API. Ядро Databricks, managed в AWS EMR, GCP Dataproc, Azure HDInsight; PySpark — главный инструмент data engineer.
94
Apache Flink
Движок true-streaming обработки (событие за событием). По сравнению с micro-batch Spark Streaming — миллисекундные задержки, exactly-once семантика и stateful processing. За реальным fraud- и anomaly-detection в Alibaba, Uber, Netflix.
95
Kafka Connect
Фреймворк source/sink-коннекторов Apache Kafka. Заводит CDC или batch-ingestion из 100+ систем (Postgres, MySQL, S3, Elasticsearch, Snowflake…) в Kafka и стримит данные обратно во внешние системы. Каталог Confluent на 1 000+ коннекторов — стандартная отсылка.
96
Singer
Open-source протокол интеграции данных от Stitch (теперь Talend), перемещающий JSON-потоки между "tap" (extract) и "target" (load). Модульный, vendor-нейтральный ELT-фреймворк; ядро open-source ELT-платформ типа Meltano.
97
Apache Airflow
Платформа оркестрации workflow, в которой DAG'и (Directed Acyclic Graph) описываются на Python. Создана в Airbnb в 2014 и передана Apache Foundation. Scheduling, retry, управление зависимостями, web-UI; де-факто стандарт data-пайплайнов.
98
Dagster
Современный asset-based фреймворк оркестрации данных. Если Airflow ориентирован на задачи, Dagster — на "data assets": со встроенными lineage, type-checking, software-defined assets и тестированием. First-class интеграции с dbt, Fivetran, Snowflake.
99
Prefect
Современный pythonic-инструмент оркестрации данных с динамическими DAG. Решает ограничение static-DAG Airflow — flows могут меняться в runtime — даёт hybrid execution (cloud + self-hosted) и гранулярные retry-политики. Популярен и в ML-пайплайнах.
100
Snowflake
Cloud-native managed data warehouse. Compute (warehouse) и storage полностью развязаны и масштабируются независимо. SQL-запросы по semi-structured данным (JSON, Parquet), secure data sharing, time travel (до 90 дней); сильная альтернатива BigQuery и Redshift.
101
BigQuery
Serverless columnar data warehouse Google Cloud петабайтного масштаба. Модель pay-per-slot; обучение ML-моделей через SQL (BQML); нативная цель экспорта GA4; встроенные geo-, JSON- и PARTITION/CLUSTER-оптимизации. Ядро GCP analytics-стека.
102
Databricks
Lakehouse-платформа, основанная создателями Apache Spark. Объединяет слои Bronze/Silver/Gold (medallion), Delta Lake, MLflow, Unity Catalog и notebook-workspace в одном продукте. Разработана для совместной работы data engineer + аналитиков + ML engineer; нативна в AWS, Azure, GCP.
103
Apache Iceberg
Open-формат таблиц для петабайтных данных (происхождение — Netflix). Добавляет к Parquet ACID, schema evolution, time travel, hidden partitioning и branching. Поддержан Snowflake, Databricks, BigQuery, Trino; стандартный ответ на vendor-lock-in DWH.
104
Delta Lake
Open-формат таблиц от Databricks, конкурент Apache Iceberg. ACID, time travel, schema enforcement, MERGE/UPDATE/DELETE; самая тесная интеграция — с экосистемой Spark. Формат по умолчанию на стороне Databricks lakehouse-архитектуры.
105
Parquet
Columnar формат хранения — каждая колонка в собственных блоках. Читаются только нужные колонки, поддерживается predicate pushdown, Snappy/Zstd дают высокую компрессию. Формат по умолчанию для Spark, Iceberg, Delta, Snowflake; аналитика в 10-100× быстрее row-based CSV/JSON.
106
Apache Avro
Бинарный формат сериализации с JSON-определёнными схемами. Сильный schema evolution (forward/backward compatibility); особенно популярен для payload Kafka-сообщений. Используется вместе со Schema Registry; row-ориентированный аналог Parquet.
107
Schema Registry
Сервис, централизованно хранящий, версионирующий и проверяющий совместимость схем Avro/Protobuf/JSON. Часть Kafka-стека Confluent; обеспечивает контракт producer-consumer и ловит breaking changes до production.
108
Window Function (SQL)
SQL-функции, считающие по множеству строк ("окну"). ROW_NUMBER, RANK, DENSE_RANK, LAG, LEAD, SUM/AVG OVER (PARTITION BY…). В отличие от GROUP BY строки не схлопываются — каждая получает свой результат. Незаменимы для time-series, ранжирования и running total.
109
ELT (Extract, Load, Transform)
Обратная сторона классического ETL: сначала сырые данные загружаются в warehouse/lake, а затем трансформируются там через SQL/dbt. С дешёвым cloud-DWH storage и мощным compute ELT стал парадигмой по умолчанию; приближает transform-логику к аналитикам.
110
Feature Store
Платформа, централизованно хранящая и отдающая фичи (исторические + real-time), потребляемые ML-моделями. Решает training-serving skew, выводя offline (batch) и online (low-latency) view из одного определения. Главные инструменты — Feast, Tecton, Hopsworks.
111
MLOps
Дисциплина, автоматизирующая цикл разработка-обучение-деплой-мониторинг-переобучение ML-моделей. DevOps применительно к ML — experiment tracking (MLflow), model registry, CI/CD для моделей, drift-detection и retraining-пайплайны.
112
OpenLineage
Открытый стандарт событий data lineage (LF AI & Data). Позволяет Airflow, Spark, dbt, Flink и другим эмитить события lineage в едином формате. Интегрирован в Marquez, Datakin, Astronomer; vendor-нейтральный носитель потока метаданных.
113
Great Expectations
Open-source фреймворк data quality / валидации данных. Тысячи готовых проверок вроде "expect_column_values_to_be_unique" и "expect_column_mean_to_be_between"; встраивается в Airflow/dbt-пайплайны и автогенерирует HTML data docs.
114
Apache Atlas
Open-source инструмент управления метаданными и data governance из экосистемы Hadoop. Tag-based access control, графы lineage, business glossary, классификация (PII/PCI). Стандарт enterprise-стека Hortonworks/Cloudera; современные альтернативы — Amundsen и DataHub.
115
Lambda Architecture (Data)
Дата-архитектура, объединяющая real-time и batch результаты. Speed-layer (Storm/Flink) даёт low-latency приближённые результаты, batch-layer (Spark/Hadoop) — точные, но медленные; serving-layer объединяет их. Не путать с AWS Lambda; сегодня всё чаще эволюционирует в Kappa-архитектуру.
116
Differential Privacy
Математический фреймворк, обеспечивающий безопасный доступ к статистике популяции с защитой индивидуальных записей. К результатам запросов добавляется калиброванный шум; атакующий не может определить, входят ли данные конкретного человека в выборку. Используют Apple iOS-клавиатура, Google Play, US Census 2020.
117
Federated Learning
Техника обучения модели локально на устройствах пользователей; на центральный сервер отправляются только обновления градиентов/весов, не сырые данные. Канонические примеры — auto-suggest Google Gboard, Apple Siri и privacy-preserving ML на медицинских данных.
118
On-Chain Analytics
Дисциплина извлечения инсайтов из публичных транзакционных данных блокчейна — активность кошельков, концентрация token-holder, exchange flow, отслеживание smart money, объёмы NFT. Ключевые платформы — Dune Analytics (SQL on-chain), Nansen (помеченные адреса), Glassnode, Arkham.
119
Oracle (Blockchain)
Bridge-сервис, доставляющий доверенные off-chain данные — цены, погоду, спортивные результаты, IoT-сенсоры — в on-chain smart contract. Лидер — Chainlink; Pyth, Band, RedStone — альтернативы. Жизненно важна для DeFi-ликвидаций, страхования и prediction-рынков.
120
Brand Lift Study
Исследование, измеряющее, как рекламная кампания двигает brand-метрики — ad recall, awareness, message association, purchase intent — сравнивая control- и exposed-группы. Meta, YouTube и TikTok предлагают это нативно; CPM обычно 5-15 $.
121
Incrementality Test
Тест, сравнивающий конверсии от рекламы с baseline "если бы её не было", чтобы измерить, какая часть конверсий действительно инкрементальная. Методы — PSA placebo ads, ghost bidding, geo holdout; лечит иллюзию классической атрибуции "каждая конверсия — моя". Золотой стандарт ROI современной paid media.
122
Geo Holdout Test
Квази-эксперимент, измеряющий инкрементальный эффект отключением рекламы в конкретной географии (напр. штат Нью-Йорк) при сохранении в других. Без cookies, без identifier, ATT-proof; matched markets / synthetic control — стандарт современной marketing science.
123
MTA (Multi-Touch Attribution)
Модель, распределяющая взвешенный credit между всеми touchpoint'ами (реклама, email, organic, direct), которые внесли вклад в конверсию. Методы — linear, time-decay, position-based, data-driven. Депрекация cookie и ATT ослабили точность MTA; современный здоровый стек — связка с MMM и incrementality.
124
Data-Driven Attribution (DDA)
Модель атрибуции, которая через machine learning учит маржинальный вклад каждого touchpoint вместо того, чтобы отдавать всё last click. Дефолт в Google Ads + GA4; на Shapley value; честно сравнивает каналы на одной стадии воронки. Заменила классические rule-based модели.
125
View-Through Conversion (VTC)
Конверсия пользователя, который увидел рекламу — без клика — и сконвертировался позже. В display и video кампаниях 30-60 % конверсий могут быть VTC; неверно учтённая, она либо переоценивает, либо недооценивает канал. Отличие от click-only атрибуции — критично.
126
Attribution Window
Временной интервал, в который конверсия приписывается рекламе после клика или показа. Старая норма — 7-day click + 1-day view; с iOS 14.5 ATT-дефолтом стало 7-day click + 1-day view + same-day view. Чем уже окно — тем меньше конверсий видится у каналов.
127
Retention Curve (S-Curve)
Ожидаемый паттерн: retention когорты должен в какой-то момент выйти на плато. В здоровом приложении кривая выравнивается через ~90 дней; в viral / habit-forming — остаётся горизонтальной; если продолжает падать — PMF слабый. "Smiling curve" Эндрю Чена — современный референс.
128
Activation Rate
Доля только что зарегистрированных пользователей, выполняющих первое ценное действие. Slack отслеживает "40 %, которые отправили первое сообщение", Notion — "50 %, создавших первую страницу", Spotify — "85 %, запустивших первую песню". Activation — самый прямой индикатор PMF и онбординга и сильно коррелирует с LTV.
129
TTV (Time-to-Value)
Время, за которое пользователь получает первый реальный value (aha-moment). Linear — 30 секунд, Figma — 5 минут, Slack — неделя. Чем короче TTV, тем выше retention; единственная полярная звезда современного onboarding.
130
Activation Metric (Aha-Moment Metric)
Data-driven порог формы "если пользователь сделал N действий за T времени — он retain". Facebook нашёл "10 друзей за 14 дней", Slack — "2K сообщений", Twitter — "30 follow". Весь onboarding оптимизируется под эту метрику; полярная звезда growth-команды.
131
pLTV (Predictive LTV)
Использование machine learning на первых событиях (sign-up, первая покупка, day-1 сессия, IAP) для прогноза LTV на 30/90/365 дней. Стандартное решение для iOS-атрибуции после SKAdNetwork; AppsFlyer, Adjust и Singular встроили pLTV в свои стеки оптимизации маркетинга.
132
Uplift Modeling
ML-подход, выявляющий, в каких сегментах пользователей вмешательство (купон, push, email) реально создаёт нетто-дополнительный эффект. Находит "persuadable"-сегмент, чтобы не дёргать остальных. Алгоритмы — T-learner, X-learner, causal forest. Поднимает ROI CRM-кампаний в 2-3×.
133
Crashlytics / Sentry Mobile
Платформы, собирающие mobile-крэши, ANR и JS-ошибки и группирующие их по стек-трейсу, данным устройства и breadcrumbs. Главные — Firebase Crashlytics (Google, бесплатно), Sentry, Bugsnag, Embrace. Цель — Crash-Free Users 99,5 %+; ниже 99 % убивает рейтинг в App Store.
134
Mobile APM (Application Performance Monitoring)
Платформа измерения performance приложения на реальных устройствах: startup time, render экранов, network-запросы, память, батарея, ANR. Опции — Firebase Performance, New Relic Mobile, Embrace, Datadog Mobile RUM. Подсвечивает UX-проблемы, не являющиеся крэшами.
135
Headless BI
Analytics-движок без собственного слоя визуализации, отдающий все вычисления метрик и измерений через API и GraphQL. Лидеры — Cube, GoodData, AtScale; output потребляют Tableau, Looker, Notion, Hex, Excel или любая custom React-app. Современная парадигма, ломающая моногамию с одним BI-инструментом.
136
Metric Layer
Metric-only вариант semantic layer — абстракция, хранящая "единственно-правильные" определения метрик компании в YAML или SQL. Примеры — Spectacles Slack, Minerva Airbnb, dbt Semantic Layer. Если "active user" в маркетинге 15 %, а в финансах 10 % — drift начинается здесь.
137
Data Activation
Процесс выгрузки инсайтов из warehouse в операционные системы — CRM, ad-платформы, support-инструменты, in-app messaging. Reverse ETL — техническая труба; мост между "data analytics" и "marketing automation". Лидеры — Census, Hightouch, Polytomic.
138
Composable CDP
Подход, ставящий warehouse (Snowflake, BigQuery) в центр вместо single-vendor CDP (Segment, mParticle), и подключающий только нужные слои — audience, real-time activation, identity resolution. Hightouch + Census + RudderStack + Snowplow — типовой composable-CDP-стек.
139
Operational Analytics
Принцип: аналитические инсайты не должны жить в дашборде, а должны запускать действия в операционных системах. "Этот пользователь не активен 7 дней" появляется не в графике, а в win-back flow Klaviyo. Business-сторона reverse ETL — современная форма "actionable analytics".
140
Looker LookML
YAML-подобный DSL data modeling от Looker. Таблицы становятся "view", связи — "explore", метрики — "measure"; code-centric BI-подход, генерирующий SQL. Все аналитики говорят на одном языке, version control и Git-workflow работают — lingua franca современных data-команд.
141
Mode Analytics
BI-платформа, объединяющая SQL, Python-ноутбуки и дашборды в одном продукте (куплена ThoughtSpot в 2023). Sweet spot для data-аналитика: SQL для запросов, Python для ML и потом sharable дашборд. Power-user сторона против GUI-only подхода Tableau.
142
Hex (Notebook BI)
Аналитическая платформа, основанная в 2020, объединяющая SQL, Python и no-code интерактивные приложения в одном месте. Notebook-UI + Magic AI + конструктор shareable app; общая среда для data scientist, аналитика и бизнес-стейкхолдера. Восходящая звезда современного hybrid BI.
143
Sigma Computing
Современная BI-платформа, надстраивающая spreadsheet-подобный интерфейс над Snowflake или BigQuery. Пользователи делают Excel-стиль pivot, формулы и what-if без SQL — но движок остаётся warehouse-native. Сильный конкурент Looker в командах finance и ops.
144
Streamlit
Open-source Python-фреймворк, позволяющий выпустить интерактивное web-приложение за 100 строк скрипта (куплен Snowflake в 2022). Дефолтный путь data scientist'ов для internal tools, прототипов и ML-демо; Plotly Dash и Gradio — близкие конкуренты.
145
Snowflake Streams & Tasks
Связка Snowflake — change-data-capture (Streams) + расписанное выполнение SQL (Tasks). Stream складывает insert/update/delete таблицы в offset-очередь, Task обрабатывает их по расписанию. ELT-пайплайны получают Snowflake-native автоматизацию без Airflow.
146
dbt Tests
Утверждения о качестве данных, описываемые против dbt-моделей: not_null, unique, accepted_values, relationships и custom SQL. Запускаются в CI; валидируют данные перед каждым model build. Test suite расширяется интеграциями dbt-utils и Great Expectations.
147
dbt Snapshots
dbt-нативная реализация Slowly Changing Dimension Type 2. Для mutable исходной таблицы (напр. orders.status меняется) каждый snapshot run сохраняет историю через колонки dbt_valid_from/to. Основа audit history и запросов "как это выглядело на дату X".
148
Materialization Strategy (Table / View / Incremental / Ephemeral)
Как dbt-модель сохраняется в warehouse. View: дёшево, но пересчитывается при каждом запросе — для небольших данных. Table: полный rebuild — для маленьких/средних. Incremental: добавляет только новые строки — для больших данных. Ephemeral: подставляется inline как CTE, без persistent output.
149
SCD (Slowly Changing Dimension)
Паттерн хранения истории медленно меняющихся измерений — клиент, продукт, сотрудник. Type 1: только последнее значение; Type 2: новая строка при каждом изменении + valid_from/to (история сохраняется); Type 3: одна колонка previous-value. С современным DWH + dbt Snapshot SCD2 — дефолт.
150
Idempotent Pipeline
ETL/ELT пайплайн, который при одинаковом input выдаёт одинаковый output и не создаёт побочных эффектов при повторном запуске. Гарантия того, что backfill, retry и late-arriving data не испортят данные. Достигается через MERGE, дедуп по primary key и транзакции.
151
Backfill Strategy
План повторного запуска пайплайна на исторических данных. Параметризуется диапазон дат, partition'ы пересчитываются батчами; обязательны идемпотентный пайплайн + atomic-запись + контроль конкуренции. Ошибочный backfill = потеря production-данных — сначала прогон в staging.
152
dbt Layers (Staging / Intermediate / Marts)
Рекомендованный 3-слойный паттерн моделирования в dbt-проекте. Staging: 1:1 очищенная таблица на источник (rename, cast, dedup). Intermediate: строительные блоки бизнес-логики. Marts: business-ready финальный слой dim/fact. Приносит консистентность, reuse и чистый DAG.
153
Source Freshness
Фича dbt, отслеживающая, как давно обновлялась каждая исходная таблица. Команда "dbt source freshness" срабатывает по warning и error порогам (напр. 12 ч warn, 24 ч error) и ловит stale-данные, даже когда пайплайн не сломался. Операционный сторож.
154
OBT (One Big Table)
Альтернатива star schema в моделировании — денормализовать все измерения в fact-таблицу и получить одну широкую таблицу из 50-200+ колонок. В columnar warehouse вроде Snowflake/BigQuery join'ы дороги; OBT быстрее для аналитиков и часто оптимален по performance.
155
Cube.js
Open-source headless BI-движок. Генерирует SQL, кеширует, отдаёт REST/GraphQL API и работает поверх Snowflake, BigQuery или Postgres. Позволяет front-end-разработчику собрать собственный дашборд; developer-friendly альтернатива Tableau / Looker.
156
Snowpark
DataFrame API Snowflake для Python, Scala и Java. Позволяет запускать ML-training, сложные transform, UDF и stored procedure без вывоза данных из warehouse. Modin и pandas-on-Snowflake дают data scientist'ам привычный локальный опыт; современное движение в сторону zero data movement.
157
Polars
Многопоточная columnar (Arrow) DataFrame-библиотека на Rust. В 5-30× быстрее pandas, с lazy evaluation и встроенной оптимизацией запросов. Современная замена pandas для аналитика; есть биндинги для Python, R, JS, Rust.
158
DuckDB
In-process columnar OLAP-БД — analytics-аналог SQLite с MotherDuck как cloud-расширением. Один файл, один процесс; SQL'ом запрашивает pandas DataFrame или Parquet напрямую. На ноуте справляется с миллиардом строк за 30 секунд; ежедневный компаньон современного аналитика.
159
LLM Eval Harness
Тестовый фреймворк, автоматически измеряющий производительность LLM на множестве задач. Примеры — HELM, lm-eval-harness, BigBench, HELM Lite; запускает стандартные benchmark'и MMLU, HumanEval, GSM8K, ARC. Обязательная инфраструктура для любого запуска модели и regression-тестов.
160
Prompt Eval
Тестовый набор, систематически измеряющий качество конкретного prompt. 50-500 пар input × expected-output с автоматическим scoring (LLM-as-judge, BLEU, ROUGE, exact match). Обязателен, чтобы ловить regression при изменении production-промптов; типовые инструменты — PromptLayer, Langfuse, Braintrust.
161
Golden Dataset
Вручную проверенный тестовый набор, используемый как ground truth. Входы и ожидаемые выходы eval harness живут здесь; после каждого апдейта LLM модель скорится на этом наборе. Типовой размер — 200-2 000 примеров, прошедших ревью domain expert.
162
Faithfulness (RAG)
Мера, насколько ответ RAG-системы остаётся верен retrieved-контексту. Если LLM галлюцинирует вне контекста — faithfulness падает; LLM-as-judge проверяет каждое предложение на "есть ли поддержка в контексте?". Ключевая метрика во фреймворках RAGAS и TruLens.
163
Answer Relevance (RAG)
Скор того, насколько ответ LLM релевантен запросу пользователя. Ловит правильные, но не относящиеся к теме ответы — "Сегодня хорошая погода, а столица Парижа — Париж". Измеряется через cosine similarity (embedding ответа ↔ embedding запроса) или LLM-as-judge.
164
Context Precision / Recall (RAG)
Две метрики качества retrieval в RAG. Precision: какая доля извлечённых chunk'ов была действительно релевантной; Recall: какая доля по-настоящему релевантных chunk'ов была извлечена. Низкая precision = шум, низкий recall = потеря информации. Автоматически измеряются в RAGAS, ARES и др.
165
Model Routing
Умный слой, направляющий вопрос в разные LLM в зависимости от сложности, латентности или бюджета. Простые вопросы — в Haiku/3.5-mini, сложные — в Opus/4.5. OpenRouter, Portkey, Martian продают routing-as-a-service; снижают средние расходы в 5-20×.
166
Cascading Models
Пайплайн, в котором сначала пробует маленькая/дешёвая модель; если confidence ниже порога или фейлится валидация — запрос эскалируется в большую/дорогую модель. Fail-over вариант model routing; в реальных LLM-приложениях 80 % трафика решается за 20 % стоимости без потери качества.
167
RAG Reranker
Второй этап, переупорядочивающий top-50 chunk'ов из vector retrieval через LLM-as-judge или cross-encoder. Распространены Cohere Rerank, BGE-Reranker, Jina Reranker; precision растёт на 20-40 %, retrieval-faithfulness метрика улучшается.
168
Chunk Strategy
Как документ разбивается для RAG. Варианты — fixed-size (напр. 512 токенов), recursive character (по параграфам/предложениям), semantic chunking (сегментация по embedding) и markdown-aware. Плохой chunking = низкий retrieval precision; chunk size и overlap напрямую двигают качество RAG.
169
Embedding Drift
Когда embedding'и реальных production-запросов со временем отдаляются от распределения embedding корпуса RAG. Новый сленг, продукты и термины увеличивают drift, retrieval recall падает. Решение — ежеквартальная регенерация embedding + new-data-aware реиндекс.
170
HNSW Index (Hierarchical Navigable Small World)
Алгоритм ANN-индекса (Approximate Nearest Neighbor), используемый большинством vector DB. Многослойный граф, дающий миллисекундную задержку на триллионах embedding'ов. Дефолт в Pinecone, Weaviate, Qdrant, Milvus и pgvector.
171
ANN (Approximate Nearest Neighbor)
Класс алгоритмов, ищущих "достаточно хорошие" ближайшие векторы вместо точного совпадения, обменивая точность на скорость и память. Примеры — HNSW, IVF, PQ, ScaNN; при recall 95 % латентность падает до 1 000×. Движок vector search.
172
Model Card
Стандартная карта (введена Google в 2019), документирующая цель, training-данные, performance, ограничения, этические проблемы и fair-use сценарии AI-модели. Сейчас обязательна при любом релизе foundation-модели; основа прозрачной AI-разработки.
173
AI Observability
Платформа мониторинга production LLM-приложений по trace, стоимости, латентности и метрикам качества. Инструменты — Langfuse, LangSmith, Helicone, Arize Phoenix, WhyLabs; каждый LLM-call (prompt, response, токены, стоимость, eval-score) логируется. LLM-нативный преемник классического APM.
174
Matchmaking (ELO / MMR)
Алгоритм, подбирающий игроков по уровню скилла в PvP-играх. Варианты — ELO (наследие шахмат), Glicko, TrueSkill, MMR (Match-Making Rating). Компромисс между smurf-защитой для новичков и skill-relax при длинных очередях; ядро League of Legends, Valorant, Dota 2.
175
ARPDAU (Average Revenue Per Daily Active User)
Средняя выручка на одного DAU. Casual mobile-игры — $0,05-0,20, mid-core — $0,20-0,80, hardcore RPG — $1+. Полярная звезда решений live-ops; в связке с pLTV формирует бюджет paid acquisition.
176
Whales / Dolphins / Minnows
Сегменты тратящих в F2P-играх. Whales: top 1 % с тратами $1 000+; Dolphins: 5-10 % с $50-1 000; Minnows: 15-30 % с $1-50; Free-riders: 60-80 %, никогда не платящих. Распределение Парето — whales дают 70 %+ выручки; их потеря — смертельна.
177
Scope 1 / Scope 2 / Scope 3 Emissions
Классификация GHG Protocol углеродных выбросов на три группы. Scope 1: прямые выбросы (котлы фабрики, корпоративный автопарк). Scope 2: купленные электричество, тепло, охлаждение. Scope 3: цепочка поставок + жизненный цикл продукта — самый крупный блок 75-85 %. Скелет ESG-отчётности.
178
Carbon Footprint
Сумма выбросов парниковых газов, вызванных человеком, продуктом, компанией или событием за жизненный цикл (в CO₂-эквиваленте). Производство iPhone — ~70 кг CO₂e; трансатлантический рейс — ~1,6 т. В ESG-отчётности равен сумме Scope 1 + 2 + 3.
179
Carbon Offset
Инвестиция во внешние проекты для компенсации выбросов — посадки леса, ВИЭ, methane capture, direct air capture. Voluntary carbon market в 2024 — ~$2 млрд, но критикуется за greenwashing; качественные знаки — Verra, Gold Standard, ICVCM. Спорный инструмент на пути к Net Zero.
180
CDP (Carbon Disclosure Project)
Глобальная платформа, на которой компании раскрывают климатические, водные и лесные выбросы по стандарту. В 2024 отчитались 24 000 компаний и 1 100 городов; оценка A-D создаёт давление институциональных инвесторов и клиентов. Лидируют Apple, Microsoft, Unilever; требования supply-chain disclosure быстро распространяются.
181
ESG Reporting (Environmental, Social, Governance)
Стандартная отчётность по экологическим, социальным и governance-показателям компании. Глобальный зонт — CSRD (ЕС), SEC Climate Rule (США), рекомендации TCFD; рабочие фреймворки — SASB, GRI, CDP. С 2024 более 50 000 компаний ЕС обязаны отчитываться по CSRD.
182
CSRD (Corporate Sustainability Reporting Directive)
Директива ЕС, действует с 2024 — обязует более 50 000 крупных компаний (банки + страховые + 250+ сотрудников + €40 млн+ выручки) отчитываться по устойчивости. На стандартах ESRS, с double-materiality (влияние компании на среду + среды на компанию) и third-party assurance.
183
Net Zero
Цель компании или страны: снизить выбросы до минимума и сбалансировать остаток через offset или removal. Валидируется Science Based Targets (SBTi); глобальный таргет — 2050. Отличие от carbon-neutral: Net Zero строже — он убирает остаток, а не просто компенсирует.
184
Carbon Neutral vs Net Zero
Carbon-neutral: выбросы обнуляются через offset, реальные сокращения не обязательны; Net Zero: сначала агрессивно режут выбросы, затем нейтрализуют остаток через removal (а не только offset). Microsoft — 2030 Carbon Negative, Apple — 2030 Net Zero, Google — 2030 24/7 carbon-free energy.
185
PUE (Power Usage Effectiveness)
Метрика электроэффективности дата-центра — total facility power делённый на IT equipment power. Идеал — 1,0; 2,0 означает дополнительную единицу cooling/lighting на каждую единицу IT. Hyperscalers (Google, AWS, Azure) — в среднем 1,10-1,15; on-prem enterprise DC — 1,5-2,0. Ключевой KPI устойчивости.
186
Green Software Foundation
Linux Foundation проект, основанный Microsoft, Accenture, GitHub и ThoughtWorks, стандартизирующий устойчивую разработку ПО. Поддерживает стандарт SCI (Software Carbon Intensity), сертификацию Green Software Practitioner и каталог Green Software Patterns. Гид по устойчивости для современной dev-команды.
187
SCI (Software Carbon Intensity)
Стандарт ISO/IEC 21031, измеряющий выбросы CO₂-эквивалента на функциональную единицу ПО. Формула: energy × carbon intensity региона + embodied emissions. Стандартный ответ на вопрос "сколько углерода стоит этот API-call?" — основа современных green-software метрик.
188
Renewable Energy Credit (REC)
Торгуемый сертификат, представляющий 1 МВтч возобновляемой энергии. Вместо установки солнечных панелей компания покупает REC и отчитывается о "возобновляемом" электричестве; Green-e в США, GO (Guarantees of Origin) в Европе. Главный инструмент за обязательствами RE100.
189
PPA (Power Purchase Agreement)
Прямой долгосрочный (10-25 лет) контракт по фиксированной цене на покупку возобновляемого электричества напрямую у производителя. Позвоночник carbon-free стратегий hyperscaler'ов — Google, Amazon, Microsoft; глобальный объём corporate PPA в 2024 — более 50 ГВт.
190
LCA (Life Cycle Assessment)
Методология ISO 14040, количественно оценивающая полное воздействие продукта на окружающую среду — сырьё → производство → использование → end-of-life. Scope — cradle-to-grave или cradle-to-cradle. Цифра Apple "у iPhone 70 кг углеродного следа" — результат LCA.
191
Circular Economy
Экономическая модель, заменяющая линейный путь "произвести-использовать-выбросить": продукт изначально проектируется как переиспользуемый, ремонтопригодный и перерабатываемый. Пионер — Ellen MacArthur Foundation; конкретные примеры — IKEA buyback, Patagonia Worn Wear, Apple Self-Service Repair.
192
Greenwashing
Когда компания через маркетинг выглядит "зеленее", чем оправдывают её реальные показатели выбросов. CMA (UK), FTC (США) и CSRD ЕС теперь регулируют greenwashing юридически; Shell, BP и Volkswagen за годы заплатили многомиллионные штрафы. Этическая красная линия sustainability-коммуникации.
193
Carbon Border Adjustment Mechanism (CBAM)
"Углеродный импортный налог" ЕС, полностью в силе с 2026. Импортёры стали, цемента, алюминия, удобрений, водорода и электричества в ЕС платят то, что эти товары заплатили бы по EU ETS при производстве внутри ЕС. Первый крупный тариф, перестраивающий supply chain по интенсивности выбросов.
194
EPR (Extended Producer Responsibility)
Регуляция, делающая производителя ответственным за затраты на end-of-life отходы и recycling его продуктов. Примеры — EU Packaging Directive, LOM во Франции, VerpackG в Германии, Sıfır Atık в Турции. Производитель пластиковых бутылок, одежды или электроники платит экологический сбор за каждую проданную единицу.
195
Sustainable Procurement
Встраивание экологических и социальных критериев в закупочные решения компании. Supplier Code of Conduct, EcoVadis sustainability rating, требования к recycled-material, fair-trade сертификация. Большая часть Scope 3 выбросов рождается именно здесь; операционное сердце современной CSRD-отчётности.
196
TCFD (Task Force on Climate-related Financial Disclosures)
Фреймворк, опубликованный G20 Financial Stability Board в 2017, интегрирующий климатические риски и возможности в финансовую отчётность. Четыре столпа — Governance, Strategy, Risk Management, Metrics & Targets. Великобритания (PRA), Новая Зеландия и Япония сделали его обязательным. Климатическая нога ESG-отчётности.
197
SBTi (Science Based Targets initiative)
Независимая организация, валидирующая, соответствуют ли цели компании по снижению выбросов science-based траектории Парижского соглашения 1,5 °C / well-below-2 °C. Более 5 000 компаний прошли валидацию — Microsoft, IKEA, Unilever, Nike, Maersk и другие. Обязательная "печать" за любым убедительным Net-Zero-обещанием.
198
EV Charging Network (Tesla Supercharger / Ionity / Electrify America)
Инфраструктура быстрой зарядки электромобилей. Сеть Tesla Supercharger — 50 000+ станций по миру, стандарт NACS; в Европе — Ionity (консорциум BMW + VW + Mercedes); в США — Electrify America. С 2024 Tesla открыла NACS другим EV-брендам, ускорив консолидацию стандарта.
199
North Star Framework
Фреймворк, популяризированный Шоном Эллисом и Amplitude — определяет единственную метрику "value-for-customer" компании. Spotify — "time spent listening", Airbnb — "nights booked", Slack — "messages sent in active workspaces". Компас всех growth и product решений.
200
Driver Tree
Анализ, разворачивающий целевую метрику (напр. revenue) в драйверы за ней. Близкий родственник KPI tree, но с большим фокусом на причинности — структурированный ответ "для роста ARR — новые logo или expansion?". Классический инструмент problem-solving в McKinsey и Bain.
201
Executive Dashboard
Одностраничный дашборд для C-suite и board с 7-12 верхними метриками. Business-decision-grade KPI — MRR, NRR, CAC, magic number, runway, rule of 40 — еженедельный review. Классические форматы — Tableau Executive, Looker C-suite, Mode Reports.
202
Operational Dashboard
Дашборд для часовых/ежедневных операционных решений — CPM-тренд маркетинга, ticket queue support, order backlog ops. Real-time или near-real-time refresh; alerting и drill-down по pivot обязательны. Распространены в Looker Studio, Power BI, Grafana.
203
Drill-Down
Поведение анализа click-through от агрегированной метрики к деталям — "total revenue" → "by region" → "by product" → "by SKU" → "by transaction". Фирменная фича self-service analytics OLAP-кубов и современных BI — Power BI, Tableau, Looker.
204
Slice & Dice
Резать и исследовать многомерные данные по разным измерениям. "Slice" фиксирует одно измерение и анализирует остальные; "Dice" фильтрует два+ измерения, формируя подмножество. Базовое поведение pivot-таблицы, унаследованное из терминологии OLAP cube.
205
Pivot Table
Изобретение Excel 1993 года — drag-and-drop многомерных данных в строки, колонки, значения и фильтры. Предок современного BI; Tableau, Power BI, Looker и Hex переносят mental-model pivot table в свой UX. Lingua franca анализа данных.
206
Funnel Visualization
Показ conversion-потока как сужающейся step-by-step funnel-диаграммы — Awareness → Consideration → Purchase → Retention — чтобы видеть drop-off на каждом шаге. Mixpanel, Amplitude, Heap и GA4 — с нативными funnel-отчётами; ключевой visual для CRO, product и marketing команд.
207
Cohort Heatmap
Матрица, визуализирующая retention когорт (неделя 0 → неделя N) интенсивностью цвета. Ось Y — неделя signup; ось X — неделя post-signup; цвет — retention rate. С первого взгляда показывает PMF, качество onboarding и эффект недавних product-изменений.
208
Sankey Diagram
Визуализация, показывающая потоки — user journey, поток энергии, conversion path — лентами пропорциональной толщины. Идеальна для behavior flow Google Analytics, анализа churn и attribution journey. Строится через d3.js, Plotly или Power BI Sankey custom visual.
209
Bullet Chart
Минималистичный график, придуманный Стивеном Фью: показывает таргет KPI, фактический результат и tier band на одной горизонтальной строке. Намного читабельнее gauge/speedometer. Классика executive-дашбордов; Tableau и Power BI поддерживают custom visual.
210
Data Storytelling
Подход "сначала рассказывай историю, потом подкрепляй её данными" вместо вываливания цифр и графиков на аудиторию. Манифест — книга "Storytelling with Data" Коул Нассбаумер Кнафлик; закрывает gap "so what?" у лиц, принимающих решения. Реализация — Tableau Story, Power BI bookmarks, Notion-нарратив.
211
Self-Service Analytics
Модель, в которой бизнес-пользователь сам строит свои запросы и дашборды без зависимости от аналитика. Лидеры — Looker LookML, Tableau Ask Data, Power BI Q&A, ThoughtSpot search-driven; обязательны semantic layer + data governance + обучение. Цель "демократизации" современного BI.
212
Power BI
BI-платформа Microsoft — глубоко интегрирована с экосистемой Excel и самая используемая enterprise-BI. Power Query для ETL, DAX как formula language, Power BI Service — cloud + collaboration. С Microsoft Fabric усиливается интеграция data engineering и AI Copilot.
213
Tableau
"Визуальный золотой стандарт" BI — самый мощный drag-and-drop инструмент для впечатляющих графиков. Вышел из Stanford в 2003, в 2019 куплен Salesforce за $15,7 млрд. Связка Tableau Desktop + Server + Cloud всё ещё гибче и художественнее Power BI.
214
ThoughtSpot
Пионер search-driven BI — пользователь вводит на естественном языке "show me revenue by region last quarter", платформа строит SQL и график. SpotIQ даёт ML auto-insight, что выводит её в лидеры AI-augmented BI. В 2023 купила Mode Analytics за $200 млн.
215
Microsoft Fabric
Запущенная Microsoft в 2023 analytics-платформа, объединяющая Power BI, Synapse, Data Factory, Real-Time Analytics и Copilot в одном SaaS. OneLake стремится быть "lakehouse for the masses" и прямой конкурент Snowflake и Databricks.
216
Real-Time Dashboard
Дашборд, обновляющийся за секунды и показывающий "что происходит прямо сейчас". Связка WebSocket + streaming SQL + push notification. Используется в trading-платформах, gaming live ops, real-time support queue, IoT monitoring. Стеки — Grafana, Tinybird, Materialize, ClickHouse + Apache Pinot.
217
Embedded Analytics
Показ BI-дашбордов прямо внутри SaaS-приложения. Лидеры — Sigma, Mode, Looker Embedded, Cube + кастомный React-frontend. Инфраструктура любого продукта, который должен показывать клиенту его данные (Shopify analytics, Stripe Sigma, HubSpot reports); современная PLG-фича.
218
Slowly Refreshed Dashboard (Daily / Weekly)
Дашборд без real-time, обновляющийся после ежедневного/еженедельного batch ETL — marketing weekly review, finance month-end close, retention cohort report. Правильный выбор ради экономии compute и простоты анализа; классический ответ анти-паттерну "premature real-time".
219
Anomaly Alerting
Алерт, срабатывающий при статистическом отклонении метрики от её сезонного паттерна и тренда. Prophet, Datadog Watchdog, Anodot, MonteCarlo и Sigma Anomaly Detection меняют manual-пороги на ML-driven dynamic-alerts. Центральная способность современной data observability.
220
Forecasting (Prophet / SARIMA / LSTM)
Прогноз будущих значений на основе исторических данных. Инструменты — Prophet (Meta, business-friendly с seasonality), SARIMA (классическая статистика), LSTM и Transformer-модели (deep learning), библиотека Darts. Core ML-направление для sales forecasting, demand planning и capacity planning.
221
Data Catalog (Atlan / Alation / Collibra)
Платформа, делающая все data-ассеты — таблицы, дашборды, ML-модели, метрики — discoverable и задокументированными для компании. Lineage, теги, business glossary, data quality и ownership в одном интерфейсе. "Википедия" современной data-команды.
222
AI-Powered BI (Copilot / Sigma AI / Tableau Pulse)
BI-фичи нового поколения: natural-language запросы, автоматические инсайты и chart-narrative объяснения. Power BI Copilot, Tableau Pulse + Tableau GPT, Sigma AI и ThoughtSpot Sage отвечают на "why did revenue drop last week?" автоматическим root-cause и трансформируют роль аналитика.
223
Edge AI
Запуск AI-моделей на устройстве — телефоне, камере, дроне, IoT-сенсоре — вместо облака. Низкая задержка, сохранение privacy, offline-работа; требует quantized-модели, NPU и runtime. Двигает self-driving cars, AR/VR и smart camera.
224
TinyML
ML-модели, достаточно маленькие, чтобы поместиться в MCU с килобайтами RAM. Инструменты — TensorFlow Lite Micro, Edge Impulse, Arduino Nano 33 BLE Sense; покрывает keyword spotting, motion detection и anomaly detection. Приносит AI на IoT-устройства на батарейках, работающих годами.
225
Digital Twin
Виртуальная копия физического объекта — авиадвигателя, фабрики, города, тела человека — синхронизированная с real-time сенсорными данными. Объединяет simulation, monitoring и predictive maintenance. Лидеры платформ — Siemens, NVIDIA Omniverse, Microsoft Azure Digital Twins, Bentley iTwin.
226
People Analytics
Дисциплина, применяющая ML и статистику к данным сотрудников. Покрывает прогноз attrition, качество hiring, manager effectiveness, анализ DEI gap и sentiment-тренды. Лидеры — Visier, ChartHop, Lattice, Culture Amp и Workday Adaptive Planning; data-driven нога HR.
227
eNPS (Employee Net Promoter Score)
NPS-стиль score на вопрос "порекомендовали бы вы компанию как место работы?". От -100 до +100; выше +30 — хорошо, выше +50 — отлично. Delivered через annual survey + quarterly pulse в Culture Amp, Officevibe, 15Five, Lattice. Single-question термометр engagement'а.
228
Pulse Survey
Современный преемник annual engagement-survey — короткий 5-10-вопросный опрос, рассылаемый еженедельно или раз в две недели. Real-time engagement-пульс, который сразу попадает в дашборд менеджера. Инструменты — Officevibe, 15Five, Lattice, Culture Amp; agile и actionable ответ классическому 80-вопросному годовому монстру.
229
EHR (Electronic Health Record)
Цифровая и разделяемая запись о здоровье пациента — история болезни, анализы, имиджинг, рецепты. В США Epic и Cerner — 85 %+ доли рынка; в Европе — DocPlanner и Doctolib; в Турции — e-Nabız и MEDULA. Interoperability и privacy (HIPAA, GDPR, KVKK) — в самом сердце отрасли.
230
ClimateTech
Tech-решения против климатического кризиса — mitigation и adaptation. Carbon capture (Climeworks DAC), green hydrogen, fusion (Commonwealth Fusion, Helion), grid-scale battery (Form Energy), climate-risk modeling (Jupiter). Глобальные инвестиции в ClimateTech в 2024 превысили $40 млрд; Sequoia, Lowercarbon и Breakthrough Energy — ведущие фонды.
231
Carbon Capture (DAC / CCS)
Технологии захвата CO₂ из атмосферы или напрямую из промышленного flue gas. Direct Air Capture (Climeworks Orca, Carbon Engineering) и Carbon Capture & Storage (CCS) для заводских выбросов. Стоимость $300-1000 за тонну; advance market commitment Frontier на $1 млрд нацелен снизить её до $100.

— БЫСТРАЯ ДИАГНОСТИКА

Готовы ли Вы к аналитической операции?

Интерактивный навигатор: показывает уровень программы, подходящего Вам, по 4 вопросам. Ответы «Да/Нет», результат за 30 секунд.

01 / 04

Сейчас у Вас более 10 активных dashboard или Excel-отчётов?

Изобилие dashboard — один из классических симптомов отсутствия решений.

— LET'S BEGIN

Ваши dashboard запускают решения или служат украшением?

60-минутный аналитический диагностик: текущая инвентаризация KPI, граф зависимостей dashboard, здоровье источников данных и рекомендация по 90-дневной roadmap — на одной панели.