АНАЛИТИКА, ОРИЕНТИРОВАННАЯ НА РЕШЕНИЯ
Анализ данных и инженерия инсайтов
Маркетинговые данные мы подключаем не к dashboard, а к механизмам принятия решений. KPI tree, dbt-моделирование, Bayesian MMM, тесты на incrementality и self-serve аналитика — инфраструктура не измерения, а действия.
Аналитика — это не «подготовка dashboard»; это операционная система, в которой каждый график напрямую запускает решение.
Большинство компаний тонет в 40+ dashboard, но получает пять разных ответов из пяти разных источников на один и тот же вопрос. KPI обсуждаются, решения откладываются, побеждает HiPPO. Аналитическая операция Roibase устраняет эту неопределённость через шесть принципов; каждый принцип производит не dashboard, а решения.
МЕТОДОЛОГИЯ
DIAGNOSE → MODEL → BUILD → AUTOMATE → VALIDATE → EDUCATE
Шесть слоёв аналитической операции; каждый производит отдельный artifact и питает связанный с ним цикл принятия решений.
DIAGNOSE
Инвентаризация решений + карта вопросов
Перечисляются 30 вопросов, которые лица, принимающие решения, задают еженедельно; уточняются источник ответа, частота, SLA и эффект.
MODEL
KPI tree + модель данных
dbt-модели + LookML или Metabase semantic layer; версионируемое, тестируемое, документированное.
BUILD
Dashboard + система алертов
Dashboard по категориям решений (CAC, retention, revenue quality); алерты с порогами + шаблоны триггеров.
AUTOMATE
Pipeline + refresh + monitoring
Refresh-оркестрация через Airflow / Dagster / dbt Cloud; pipeline health + тесты качества данных + Slack-бот.
VALIDATE
A/B + incrementality + валидация MMM
Выводы моделей сверяются с экспериментами; калибровка через тесты incrementality + симуляции сценариев MMM.
EDUCATE
Data council + обучение self-serve
Ежемесячное собрание data council: какие вопросы остались без ответа, какие dashboard не использовались, какое self-serve обучение нужно.
— СРАВНЕНИЕ
В чём наше отличие? Классический BI vs аналитика, ориентированная на решения
Компания может считать «аналитикой» 100 dashboard. Реальная же ценность появляется тогда, когда каждый dashboard связан с решением, а каждое решение — с действием.
| Параметр | In-house BI в одиночку | Классическое reporting-агентство | Roibase: аналитика, ориентированная на решения |
|---|---|---|---|
| Определение KPI | Пересекается между подразделениями | Шаблон агентства | KPI tree + письменное ownership |
| Философия dashboard | Изобилие графиков | Ориентация на ежеквартальный PPT | Каждый график — решение |
| Слой моделирования данных | Ad-hoc SQL + Excel | Отчёты внутри платформы | dbt + версионируемое + с тестами |
| Cohort + LTV инженерия | Ограничено средними метриками | Как отчёт — отсутствует | D1-D90 + сегмент + кривая LTV |
| MMM + incrementality | Нет | Excel-эксперименты | Bayesian MMM + geo-holdout |
| Аномалии / система алертов | Ручной контроль | Нет | ML drift detector + Slack/email |
| Self-serve культура | Data-команда — bottleneck | Driven отчётами | Бизнес-юнит спрашивает сам |
| Governance + PII | Политики нет | Не осознаётся | PII tagging + retention + audit |
PROOF
Outcomes, measured
Число стратегических вопросов, на которые можно ответить в первом спринте.
Часы, которые маркетинговая команда возвращает на ручной подготовке dashboard.
Ритм обновления в зависимости от изменений сезона + микса каналов.
Минимально необходимый дневной диапазон данных для MMM + forecast.
SLA dbt + Airflow + monitoring; включая тесты качества данных.
Среднее время от brief до live для новой панели по решению.
WHAT WE DO
Engagement scope
Every offering is an outcome-based work package. Roibase blends strategy and execution inside a single team — no hand-offs.
Архитектура KPI tree
Каждая маркетинговая метрика напрямую увязана с бизнес-результатом; у каждой метрики есть владелец, источник, порог и запускаемое решение.
Decision-tree dashboards
Не графики, а решения: панели по логике «при таком пороге — такое действие»; каждая панель для конкретной роли и частоты.
Слой dbt + warehouse + BI
Версионируемые + тестируемые модели данных через dbt; на BigQuery / Snowflake / Redshift; интерфейс LookML / Metabase / Lightdash.
Инженерия cohort и retention
Когортные таблицы D1/D7/D30/D90, кривые LTV, посегментный churn и анализ resurrection — реальное поведение под средними значениями.
Bayesian MMM
Media, промо, сезон и макропеременные моделируются вместе; Robyn + PyMC; ежеквартальный refresh + confidence band.
Моделирование атрибуции
GA4 DDA + multi-touch attribution + подходы shapley value; модель для решений за пределами предвзятой отчётности платформ.
Incrementality testing
Geo-holdout + matched-market тесты; Meta Lift, GeoLift, in-house framework; референс-точность для бюджетных решений.
Обнаружение аномалий
ML-based drift detector + forecast band + Slack/email алерт для тихо ухудшающихся метрик; не утром, а в час события.
Self-serve analytics
Среда (Metabase, Lightdash, Hex), в которой бизнес-юнит сам отвечает на свои вопросы + обучение + менторство.
Data governance
PII tagging, schema registry, retention-политика, аудит доступа к данным, пакет документации; операция, соответствующая KVKK + GDPR.
— РЕЗУЛЬТАТ
Эффект операции с данными на стороне принятия решений
Чем быстрее, чем основательнее на данных и чем повторяемее решения организации, тем сильнее её позиция в непредсказуемых рыночных условиях.
Скорость решений
Ответы на 30 стратегических вопросов уже на панели; на встречах обсуждаются не данные, а действия.
Снижение HiPPO
Решение запускает не мнение самого высокооплачиваемого, а данные; обсуждение опирается на метрики.
Экономия времени на отчётности
Завершаются ручные Excel-рутины маркетинговой команды; возвращённые часы переводятся в стратегический анализ.
Раннее предупреждение + действие
С ML drift detector + системой алертов с порогами ухудшающиеся метрики ловятся за часы.
Self-serve культура
Бизнес-юнит сам отвечает на свои вопросы, не дожидаясь data-команды; data-команда фокусируется на стратегической работе.
MMM + точность forecast
Через Bayesian MMM + калибровку incrementality отклонение forecast — в полосе ±8 %; бюджетное решение надёжно.
ПОСТАВКИ
Ежемесячные + ежеквартальные результаты
Конкретные артефакты аналитической операции; каждый передаётся Вашей команде, а к 12-му месяцу полностью работает в формате runbook без нашего участия.
Инвентаризация решений + карта 30 вопросов
Список вопросов, задаваемых лицами, принимающими решения, еженедельно, источник ответа, SLA и потребности в недостающих данных.
KPI tree
Источник, владелец, порог и запускаемое решение для каждой метрики — единая доска Miro / FigJam, версионируемая.
dbt-репозиторий + модели
Версионируемый + тестируемый dbt-проект; слои staging / intermediate / marts, включая документацию.
Semantic layer (LookML / Metabase models)
Слой общих metric definitions, лежащий за вопросами, которые задаёт бизнес-юнит.
Пакет dashboard
Первые 15-25 панелей по категориям решений (CAC, retention, revenue quality); каждая — по роли и частоте.
Система алертов с порогами
ML drift detector + forecast band + интеграция Slack/email; ухудшающиеся метрики выдают сигнал за часы.
Отчёт cohort + retention
Таблицы D1/D7/D30/D90 + кривые LTV + анализ сегментов churn + доля resurrection.
Модель MMM + отчёт
Bayesian MMM (Robyn/PyMC); вклад каналов + saturation + adstock + confidence band.
Протокол incrementality-теста
Framework geo-holdout и matched-market; шаблоны планирования + проведения + анализа.
Runbook по data governance
PII tagging, schema registry, политика retention, аудит доступа — соответствует KVKK + GDPR.
Ежемесячное резюме data council
На какие вопросы дан ответ, какие остались, какие dashboard использовались, список приоритетов на следующий месяц.
Учебные материалы по self-serve
Обучающие видео по Metabase / Lightdash / Hex для бизнес-юнита + словарь SQL / жаргона + практический набор данных.
— ОБЪЁМ
Что входит, а что нет?
Границы аналитической операции чёткие. Знание объёма заранее устраняет ложные ожидания и scope creep.
Что входит в эту услугу
- Инвентаризация решений + первый спринт из 30 вопросов
- KPI tree + письменное ownership + версионируемый документ
- Установка dbt-репозитория + слои staging/intermediate/marts
- Интеграция warehouse (BigQuery / Snowflake / Redshift / Databricks)
- Semantic layer на LookML или Metabase
- Первые 15-25 dashboard + ежеквартальное добавление
- ML-обнаружение аномалий + система алертов с порогами
- Аналитика cohort + LTV + retention — ежеквартальное обновление
- Bayesian MMM (3 refresh в год)
- Протокол incrementality-теста + проведение
- Runbook по data governance (PII, retention, audit)
- Ежемесячный data council + поток self-serve обучения
Не входящие работы (опционально как дополнительный объём)
- Финансовый / бухгалтерский BI (сторона ERP — отдельный консалтинг)
- Стоимость warehouse compute / лицензий (на стороне клиента)
- Custom-обучение ML-моделей (за пределами forecasting)
- Инфраструктура real-time streaming (Kafka, Kinesis — отдельный объём)
- Консультации по data privacy / праву (с партнёрским адвокатом)
- Продление лицензий BI-инструментов
- Покупка данных third-party (panel, survey)
- Сами маркетинговые операции (PPC / SEO / CRO — отдельная услуга)
HOW WE WORK
Процесс: от диагностики на 1-й неделе до governance на 6+ месяце — аналитическая операция
Недели 1-2 — Инвентаризация решений + audit
Список из 30 стратегических вопросов, инвентаризация существующих dashboard, диагностика здоровья источников данных и SLA.
Неделя 3 — KPI tree + schema
Письменный KPI tree, metric definitions, ownership; принято решение по схеме warehouse + слою staging.
Недели 4-5 — dbt-модели + первый dashboard
dbt staging + intermediate + marts; публикация первых 5-8 dashboard; stakeholder review.
Недели 6-8 — Алерт + cohort + refresh
Система алертов с порогами, отчёты cohort + retention, refresh pipeline на dbt Cloud / Airflow.
Месяц 3 — Тренировка MMM + первый результат
Bayesian MMM на 18 месяцах истории; вклад каналов + saturation + первая рекомендация по корректировке бюджета.
Месяц 4 — Протокол incrementality-теста
Framework geo-holdout или matched-market; первый тест запущен, результат — через 4-6 недель.
Месяц 5 — Data council + self-serve обучение
Запускается рутина ежемесячного data council; для бизнес-юнита — поток self-serve обучения по Metabase / Lightdash.
Месяц 6+ — Ежеквартальный refresh + governance
Ежеквартальный refresh MMM, цикл incrementality-тестов, аудит data governance; полный handoff возможен на 12-м месяце.
— СТЕК ИНСТРУМЕНТОВ
Аналитический stack от warehouse до BI
Работаем vendor-agnostic; но на каждом слое есть открытые инструменты, дающие максимум ценности. Адаптируемся к Вашему текущему стеку.
WAREHOUSE
MODELLEME & TRANSFORM
BI & VISUAL
ML & MMM
QUESTIONS
Frequently asked
— ГЛОССАРИЙ
Аналитическая терминология
Когда команды одинаково понимают одни и те же термины, обсуждение ускоряет решение; иначе — растёт «подозрение в скорости».
- KPI Tree
- Иерархическое дерево метрик, расходящееся от ключевого бизнес-результата вниз; каждый узел — триггер решения.
- dbt
- Data build tool — SQL-ориентированный, версионируемый, тестируемый framework преобразования данных; стандарт analytics engineering.
- Semantic Layer
- Слой общих metric definitions + business logic за BI-инструментом; реализуется через LookML, Metabase models, Cube и аналогичные.
- Cohort
- Группа пользователей, объединённых характеристикой (датой регистрации, каналом acquisition); анализируется поведение во времени.
- LTV (Lifetime Value)
- Совокупная пожизненная ценность клиента; gross margin × retention × частота заказов × средний чек.
- Retention
- Доля привлечённых пользователей, всё ещё активных в заданном окне (D1, D7, D30, M1, M3). В SaaS и mobile games — прямой индикатор product-market fit; выходящая на плато когортная кривая — подпись здорового продукта.
- Churn
- Доля пользователей, покидающих активную клиентскую базу в заданном окне. В subscription напрямую бьёт по MRR; в e-commerce — обратная сторона repeat rate. Делится на voluntary (отменили) и involuntary (сбой оплаты); снижается через онбординг, ценообразование и lifecycle-коммуникацию.
- MMM (Marketing Mix Modeling)
- Модель, оценивающая вклад каналов через Bayesian-статистику; требует 18-24 месяцев исторических данных.
- Incrementality
- Дополнительные конверсии, которых не было бы без канала; измеряется geo-holdout-тестами и не зависит от attribution.
- Anomaly Detection
- Зонтик техник автоматического обнаружения значений вне ожидаемого диапазона в time-series-метриках (KPI, конверсия, latency, фрод-сигнал). Применяют STL decomposition, Prophet, isolation forest, нейронные OoD-модели; мозг alerting и observability-дашбордов.
- Self-Serve Analytics
- Аналитическая среда, в которой бизнес-юнит сам отвечает на свои вопросы, не дожидаясь data-команды; реализуется через Metabase, Lightdash, Hex.
- Data Governance
- Совокупность политик качества, контроля доступа, управления PII, retention и аудита данных; соответствие KVKK/GDPR.
- ETL / ELT
- Extract → Transform → Load (старое) vs Extract → Load → Transform (современное). Подходы переноса данных из источника в warehouse. ELT полагается на дешёвый compute облачных DW; dbt + BigQuery/Snowflake/Databricks — сегодняшний стандарт.
- Data Lake
- Центральное хранилище для всех структурированных и неструктурированных данных (логи, картинки, видео, raw events) без обязательной схемы. На S3, GCS или ADLS в форматах Parquet/Iceberg/Delta Lake; дополняет warehouse и лежит в основе lakehouse-архитектуры.
- Stream Processing
- Обработка данных как real-time потока событий, а не пачками. Распространённые стеки: Kafka + Flink/Spark Streaming/Kinesis + ksqlDB; кейсы — fraud detection, real-time персонализация, IoT-телеметрия и anomaly alerting.
- Data Contract
- Заранее согласованный контракт между производителями и потребителями данных о схеме, семантике, SLA и ownership. Реализуется через dbt + Great Expectations + JSON Schema; самая надёжная стена против сюрприза "downstream-модель сломалась".
- LLM (Large Language Model)
- Универсальная языковая модель с миллиардами параметров на архитектуре transformer, предобученная на огромных корпусах текста. GPT-5, Claude, Gemini, Llama; рабочая лошадка для чата, кода, summarization, перевода, retrieval и agent-задач — специализируется fine-tuning или prompt engineering.
- Transformer
- Архитектура нейросетей из работы "Attention Is All You Need" (2017), захватывающая дальние связи в последовательных данных через self-attention. Преемник RNN и LSTM; основа всех современных LLM (GPT, Claude, Llama, Gemini) и даже vision-моделей (ViT).
- Embedding
- Высокоразмерное векторное представление слова, предложения, изображения или пользователя — семантическая близость измеряется расстоянием между векторами. Общая валюта для рекомендаций, semantic search, RAG, кластеризации и anomaly detection; OpenAI ada, Cohere и sentence-BERT — частые производители.
- RAG (Retrieval-Augmented Generation)
- Архитектура, в которой LLM перед ответом подтягивает релевантные документы из внешней базы знаний (vector DB, doc store) и инъектирует их в контекст. Снижает галлюцинации и является стандартом доступа модели "open-book" к свежим/приватным данным — тройка embedding + retriever + LLM.
- Vector Database
- БД, хранящая embedding в высокоразмерном векторном пространстве и находящая похожие векторы за миллисекунды через ANN (Approximate Nearest Neighbor). Pinecone, Weaviate, Qdrant, pgvector, Chroma; реальный движок retrieval-слоя в RAG.
- Fine-tuning
- Процесс дообучения предобученной foundation-модели на дополнительных (обычно небольших) размеченных данных под конкретную задачу или домен. Full fine-tune, LoRA/QLoRA и instruction-tuning — частые варианты; основа кейсов "кастомный ассистент" поверх ChatGPT и аналогов.
- LoRA (Low-Rank Adaptation)
- Параметр-эффективная техника fine-tuning, добавляющая малые "adapter"-матрицы вместо обновления всех весов foundation-модели. Обучает ~0,1-1 % параметров, экономит 70 %+ GPU-памяти; per-task swap адаптеров делает multi-task serving практичным.
- RLHF (Reinforcement Learning from Human Feedback)
- Финальная стадия тренировочного пайплайна LLM, выравнивающая выходы модели с предпочтениями людей-оценщиков. Reward-модель + алгоритм PPO/DPO направляют модель в сторону "полезного, честного, безвредного" вывода; основа alignment ChatGPT.
- Hallucination
- Когда LLM уверенно выдумывает несуществующий источник, факт или цитату. Причина — модель с той же уверенностью отвечает на вопросы вне распределения её training-данных; смягчается RAG, citation grounding и self-consistency check — полностью не устраняется.
- Prompt Engineering
- Дисциплина системного проектирования prompt (инструкция + контекст + примеры + формат), чтобы LLM выдавал нужный результат. Few-shot, chain-of-thought, роль, output-схема, system prompt; слой "как с ней говорить" любой AI-системы в проде.
- Context Window
- Количество токенов (вход + выход), которое LLM может обработать за один вызов. От 8K-128K (GPT-4) до 200K (Claude) и 1M+ (Gemini); критическая ёмкость для анализа длинных документов, multi-turn-диалога и agent state — RAG — альтернатива "расширения" контекста.
- Function Calling / Tool Use
- Возможность LLM вызывать внешнюю функцию (API, запрос к БД, code-runner) через структурированный JSON вместо свободного текста. OpenAI tools, Anthropic tool_use; официальный протокол, позволяющий agent'ам касаться реального мира.
- AI Agent
- Программная конструкция, использующая LLM как решающий движок и автономно выполняющая многошаговые задачи через tool calling + память + цикл plan-execute. ReAct, AutoGPT, Claude/GPT agents, LangGraph; архитектура "исследовать → планировать → запускать tools → достичь цели".
- Foundation Model
- Крупная модель, предобученная на широких, разнородных данных интернет-масштаба и переносимая на downstream-задачи — LLM, vision-модели (CLIP, ViT), мультимодальные (GPT-4o, Gemini). Сверху строятся приложения через fine-tuning, prompt engineering или RAG.
- Multimodal AI
- Система ИИ, в которой одна и та же модель понимает и генерирует более чем в одной модальности — текст + изображение + аудио + видео. GPT-4o, Gemini, Claude 3.5 vision; основа кейсов вроде OCR, image captioning, видео Q&A, транскрипции аудио и screen-aware агентов.
- NLP (Natural Language Processing)
- Подобласть ИИ о способности компьютера понимать, генерировать и трансформировать естественный язык (турецкий, английский и т. д.). Токенизация, POS-теггинг, NER, sentiment-анализ, машинный перевод; сегодня LLM — самые мощные универсальные инструменты в этой области.
- Token
- Наименьшая единица текста, которую обрабатывает LLM — может быть словом, подсловом или одним символом. Tokeniser (BPE, WordPiece, SentencePiece) переводит текст в токены; цены OpenAI и лимиты context window измеряются в токенах (1 английское слово ≈ 1,3 токена).
- Temperature
- Параметр, управляющий "случайностью" распределения выхода LLM — 0 = всегда самый вероятный токен (детерминистично), 1+ = больше креатива/разнообразия. Обычные значения: 0-0,3 для кода/JSON/числовых выходов, 0,7-1,2 для текста/brainstorm; настраивается вместе с top_p.
- Semantic Search
- Подход к поиску, возвращающий результаты по смыслу за счёт сравнения embedding запроса и документов, а не совпадения по ключевым словам. Не зависит от правописания, ловит синонимы; retrieval-движок RAG — на vector DB + ANN.
- Inference
- Этап, на котором обученная AI-модель выдаёт предсказания/генерации на живых данных (противоположность training). Latency, throughput, cost-per-request и стек model serving (vLLM, TGI, Triton); ~90 % продакшен-стороны MLOps.
- OLTP (Online Transaction Processing)
- Подход к БД, оптимизированный для большого числа построчных чтений/записей с низкой задержкой. PostgreSQL, MySQL, MongoDB; стандартное хранилище под бэкендами live-приложений — корзина e-commerce, пользовательская сессия, бронирования.
- OLAP (Online Analytical Processing)
- Колоночный подход к БД, оптимизированный под крупномасштабные аналитические запросы. BigQuery, Snowflake, Redshift, ClickHouse; сканирует миллионы строк за секунды для агрегаций, GROUP BY и time-series — инфраструктура BI и дашбордов.
- ACID
- Четыре гарантии транзакционных БД: Atomicity (всё-или-ничего), Consistency (правила не нарушаются), Isolation (параллельные операции не видят друг друга), Durability (закоммиченные данные сохраняются). Базовый контракт RDBMS вроде PostgreSQL, MySQL, Oracle.
- BASE
- Ослабленный набор гарантий распределённых/NoSQL-систем: Basically Available, Soft state, Eventual consistency. Противоположность ACID — допускает кратковременную несогласованность в обмен на availability + масштабируемость. Подход DynamoDB, Cassandra, Riak.
- Sharding
- Разбиение БД по ключу (user_id mod 16, временной диапазон) с хранением каждого шарда на отдельном сервере. Метод горизонтального масштабирования; cross-shard JOIN становится непрактичным, выбор shard-key — необратимое архитектурное решение.
- Replication
- Поддержание живой копии БД на нескольких серверах — чтобы распределить нагрузку на чтение (read replica) и обеспечить failover. Async (Postgres streaming) с задержкой, но быстрый; sync согласован, но медленный; каждая стратегия — компромисс.
- Eventual Consistency
- В распределённой системе обновлению нужно время, чтобы распространиться на все реплики — короткое время разные ноды могут возвращать разные значения. Дефолт DynamoDB и Cassandra; не для банков, идеально для соцсетей.
- CDC (Change Data Capture)
- Паттерн захвата INSERT/UPDATE/DELETE-событий БД в реальном времени и отправки их в downstream-системы (warehouse, search index, cache). Debezium, Kafka Connect; работает на replication slot + log tailing, современная альтернатива polling.
- Star Schema
- Подход моделирования в хранилище, в котором центральная fact-таблица (напр. orders) окружена dimension-таблицами (customer, product, date) звездой. BI-запросы требуют мало JOIN = быстрые; каноническая архитектура для BigQuery, Snowflake.
- Materialized View
- Объект БД, физически записывающий результат SELECT-запроса на диск и кеширующий его. Предвычисляет сложную агрегацию вместо пересчёта каждый раз; стратегия refresh (ручной, по расписанию, инкрементный) — компромисс.
- Normalization
- Процесс разбиения схемы БД на связанные таблицы для устранения избыточности и аномалий обновления (1NF, 2NF, 3NF, BCNF). Стандарт OLTP; гарантирует, что каждое обновление происходит в одном месте — ценой большего числа JOIN.
- Denormalization
- Намеренное объединение нормализованных таблиц и допущение избыточности в обмен на производительность запросов. Стандарт OLAP / data warehouse; снижает стоимость JOIN, риск несогласованности — через ETL/CDC.
- Time-series Database
- БД, оптимизированная для записей большого объёма метрик с timestamp (CPU, IoT-сенсоры, финансовые тикеры) и запросов по диапазонам времени. InfluxDB, TimescaleDB, Prometheus, ClickHouse; downsampling + retention policy — ключевые фичи.
- Iceberg / Hudi / Delta Lake
- Open-source-проекты, добавляющие слой "формата таблиц" над object storage (S3, GCS) — вносят schema evolution, ACID, time-travel и поддержку concurrent writer. Три стандартных движка lakehouse-архитектуры.
- Data Quality
- Дисциплина измерения датасета по точности, полноте, согласованности, свежести и уникальности. Great Expectations, Monte Carlo, Soda автоматизируют тесты; единственная реальная защита от "garbage in, garbage out".
- Data Lineage
- Прослеживаемый граф всех шагов трансформации, которые проходит данные от источника (raw event) до конечного пользователя (KPI на дашборде). Atlan, OpenMetadata, dbt docs; детерминированный ответ на "откуда этот KPI" плюс impact analysis.
- Data Mesh
- Структура self-serve данных-продуктов по доменам (marketing, finance, product) вместо центральной data-команды. Строится на domain ownership + product thinking + federated governance; ответ на проблему "data-команда — bottleneck" на масштабе.
- Data Catalog
- Центральный каталог, индексирующий все data-активы организации (таблица, дашборд, ML-модель, колонка) с поиском, описаниями и ownership. Atlan, Collibra, OpenMetadata, Amundsen; ответ на "есть ли эти данные, кто владелец?".
- Schema Evolution
- Способность формата данных (Avro, Parquet, JSON) меняться во времени, не ломая существующих потребителей при добавлении полей. Требует дисциплины по backward + forward compatibility, optional-полям и default; критично для CDC, event sourcing, lakehouse.
- AWS DynamoDB
- Serverless NoSQL key-value + document БД AWS. Латентность в однозначных мс на миллиардах запросов/сек, авто-партиционирование, point-in-time recovery, global tables (multi-region). Идеально для game-бэкендов, IoT-телеметрии, сессий, leaderboard'ов.
- GCP Spanner
- Глобально масштабируемая, ACID-совместимая, горизонтально масштабируемая реляционная БД Google. SQL-синтаксис + масштаб уровня DynamoDB + транзакции уровня PostgreSQL; multi-region 99,999 % uptime; на ней работают Google Ads/Maps, идеально для fintech.
- Azure Cosmos DB
- Глобально масштабируемая multi-model NoSQL БД Microsoft Azure. API SQL, MongoDB, Cassandra, Gremlin (graph), Table на одном движке; пять уровней consistency (strong → eventual); latency и throughput по SLA.
- Prometheus
- Слой метрик cloud-native monitoring-стека. Pull-based scraping собирает /metrics с target-эндпоинтов; PromQL для time-series-запросов; Alertmanager управляет правилами алертов. De-facto стандарт для Kubernetes и современных микросервисных архитектур.
- Grafana
- Open-source платформа визуализации данных и дашбордов. Объединяет 100+ источников (Prometheus, Loki, Elasticsearch, CloudWatch, Postgres…) в одном интерфейсе; alerting, аннотации, templating панелей; стандарт NOC-экранов в SRE-командах.
- Jaeger
- CNCF-платформа distributed tracing. Захватывает каждый hop пользовательского запроса между микросервисами как span; визуализирует bottleneck'и латентности, потерянные зависимости, распространение ошибок. На 100 % совместима с OpenTelemetry.
- OpenTelemetry (OTel)
- CNCF-проект, объединяющий observability (метрики, логи, трейсы) под единым vendor-neutral стандартом. SDK и авто-инструментация делают код приложения переносимым между Datadog, New Relic, Honeycomb, Jaeger — разрушает vendor lock-in.
- ELK Stack
- Elasticsearch + Logstash + Kibana — open-source стек агрегации, индексации и визуализации логов. Logstash принимает, Elasticsearch индексирует для full-text search, Kibana — дашборды. Loki + Grafana набирает силу на больших масштабах, но ELK остаётся очень распространённым.
- SLI (Service Level Indicator)
- Числовой индикатор здоровья сервиса — success rate, p99-латентность, доступность. Основа для измерения SLO; объективно отвечает на "какой % запросов завершился до 200 мс?". Ключевая концепция из Google SRE Book.
- SLO (Service Level Objective)
- Внутренний целевой показатель, который должен достичь SLI — напр. "p99-латентность < 200 мс в 99,9 % окна за 30 дней". Ответ инженерной команды на "насколько надёжно — достаточно надёжно"; основа для error budget.
- SLA (Service Level Agreement)
- Внешний контракт между провайдером сервиса и клиентом; юридическое отражение SLO. Нарушение SLA влечёт штрафы (возврат, кредит). Правило: SLA < SLO < SLI — инженерия целится строже публичной гарантии.
- Error Budget
- "Допустимый объём отказов", вытекающий из SLO. SLO 99,9 % = 0,1 % error budget = ~43 минуты downtime в месяц. Бюджет есть → берите риски (релизы); бюджет израсходован → режим стабилизации. Баланс SRE между инновацией и надёжностью.
- Diffusion Model
- Семейство генеративных моделей, которые учатся постепенно добавлять шум к данным и затем обращать процесс вспять. Ключевая архитектура современных image/video-генераторов: Stable Diffusion, Midjourney, DALL-E 3, Sora. Обучается стабильнее GAN и даёт значительно более разнообразный выход.
- GAN (Generative Adversarial Network)
- Генеративная модель, в которой две нейросети — Generator (фейки) и Discriminator (судья real/fake) — обучаются в конкуренции. Представлена Иэном Гудфеллоу в 2014; технология ранних deepfake, портретов StyleGAN, super-resolution. Сейчас в значительной мере вытеснена diffusion-моделями.
- CLIP (Contrastive Language-Image Pre-training)
- Модель OpenAI 2021 года, выравнивающая изображения и подписи в общем embedding-пространстве — embedding "фото кошки" оказывается рядом с реальными фото кошек. Text-to-image conditioner в Stable Diffusion; основа zero-shot классификации изображений и визуального поиска.
- ControlNet
- Архитектура 2023 года, добавляющая diffusion-моделям дополнительный conditioning-сигнал. Управляет генерацией по референсам — pose, depth-map, canny edge, scribble — позволяя задавать "эта поза, но другая одежда". Один из самых используемых дополнений экосистемы Stable Diffusion.
- Adapter Tuning
- Подход fine-tuning, при котором в большую языковую модель встраиваются небольшие "adapter"-слои вместо переобучения всех параметров. Популярные варианты — LoRA, QLoRA, IA³; обучается <1 % исходных параметров, расходы на GPU резко падают.
- PEFT (Parameter-Efficient Fine-Tuning)
- Зонтичный термин для подходов, обучающих небольшое подмножество параметров вместо полного fine-tuning 70B-LLM. LoRA, prompt tuning, prefix tuning, adapter tuning — всё это варианты PEFT. Стандартный инструмент — библиотека peft от HuggingFace.
- Quantization (LLM)
- Техника сжатия весов float32/float16 модели до int8, int4 и даже int2. Потребление памяти падает в 4-8×, inference ускоряется в 2-3×, потери качества обычно невелики. Стандарт — Llama.cpp, формат GGUF и алгоритмы AWQ/GPTQ.
- Knowledge Distillation
- Техника передачи поведения большой "teacher"-модели маленькой "student"-модели. Нацеливаясь на мягкие вероятностные выходы teacher, student достигает почти такой же точности при гораздо меньшем числе параметров. Секрет DistilBERT, TinyLlama, Phi-3.
- Mixture of Experts (MoE)
- Архитектура, в которой вместо монолитной модели каждый токен направляется через разрежённый выбор (один-два) небольших "expert"-субмоделей. Используется в Mixtral 8x7B, GPT-4, DeepSeek; снижает число активных параметров при сохранении ёмкости и уменьшении стоимости inference.
- Speculative Decoding
- Техника ускорения inference LLM: небольшая "draft"-модель предлагает несколько токенов вперёд, большая "target"-модель проверяет их параллельно и принимает корректные. Ускорение в 2-3× при той же качестве вывода. Стандарт в vLLM и llama.cpp.
- KV Cache
- Оптимизация, удерживающая в памяти матрицы Key и Value, посчитанные для предыдущих токенов в attention-слоях трансформера. Каждый новый токен считает только свои K/V вместо повторения истории. Ускоряет inference в 10-100×, но становится bottleneck по памяти на длинных контекстах.
- Attention Head
- Один из множества небольших attention-механизмов, работающих параллельно внутри трансформера. Каждый head фокусируется на своём аспекте входа — синтаксис, позиция, дальние зависимости. В GPT-4 — 96+ head на слой; строительный блок multi-head attention.
- BPE Tokenizer (Byte-Pair Encoding)
- Алгоритм токенизации, разбивающий текст на самые частые subword-куски — напр. "tokenization" → "token" + "ization". GPT, LLaMA, Mistral — все используют варианты BPE (tiktoken, SentencePiece); словарь фиксирован (~32K-128K), проблема OOV закрыта.
- DPO (Direct Preference Optimization)
- Более простая альтернатива RLHF. Вместо сложного reward-model + PPO выполняет прямую логистическую регрессию на парах "предпочтительный vs отклонённый". Stanford 2023; устойчивее, меньше гиперпараметров, метод выравнивания во многих моделях, включая Llama 3.
- Constitutional AI
- Метод, представленный Anthropic в 2022: модель выравнивается по письменной "конституции" (списку этических принципов), а не по живым reviewer'ам. Модель критикует и улучшает свои выходы против конституции; основа alignment Claude, также известный как RLAIF.
- Chain-of-Thought (CoT)
- Техника промптинга, заставляющая LLM "думать шаг за шагом" и записывать промежуточный вывод перед ответом. Введена в paper Google 2022 года; резко улучшает результаты на математике, логике и multi-step вопросах. "Let's think step by step" — магическая фраза. Основа современных reasoning-моделей (o1, DeepSeek-R1).
- Few-Shot Prompting
- Техника, при которой в промпте даются 2-5 примеров (input → output), чтобы LLM применил тот же паттерн к новому input. Быстрая адаптация без fine-tune — "отвечай как в этих примерах". Самое практичное решение для labeled классификации и форматированной экстракции.
- Zero-Shot Prompting
- Подход промптинга, в котором задача описывается LLM напрямую без примеров — напр. "переведи этот текст на немецкий". Опирается только на знания pre-training; для frontier-моделей (GPT-4, Claude) этого достаточно для большинства задач.
- Grounding (LLM)
- Техника "привязки" ответа LLM к внешнему источнику знаний — документам, БД или web-поиску. Используется retrieved-контекст вместо чисто параметрической памяти; галлюцинации резко падают, появляются цитирования, знания остаются актуальными в реальном времени.
- Structured Output (LLM)
- Возможность приведения вывода LLM к заданной JSON-схеме, Pydantic-модели или regex. OpenAI structured outputs, Anthropic tool use, vLLM grammar-constrained sampling. Ключ к переходу от свободного текста к детерминированному production-готовому потоку данных.
- Tool Use (Agent)
- Способность LLM вызывать внешние инструменты — web search, code interpreter, калькулятор, custom API. Через протокол function calling модель возвращает "tool name + параметры", runtime выполняет и возвращает результат. Ядро agent-архитектур (Claude Agent SDK, AutoGen, LangGraph).
- Cross-Modal Embedding
- Embedding'и, представляющие разные модальности (текст, изображение, аудио) в одном векторном пространстве. CLIP для image+text, ImageBind для text+image+audio+video+depth+thermal+IMU. Критично для multimodal search ("найди marketing copy похожий на это фото"), cross-modal retrieval и добавления media в RAG.
- Hybrid Search (BM25 + Vector)
- Стратегия retrieval, объединяющая классический keyword-поиск (BM25/lexical) с векторной similarity. BM25 выигрывает на exact-match запросах (числовые ID, артикулы); векторы — на семантике ("как вернуть товар" → "return policy"). Золотой стандарт современного RAG.
- Data Fabric
- Интегрированная архитектура, объединяющая распределённые источники данных (cloud, on-prem, SaaS) в единый логический data-слой. Управляется метаданными и усилена AI; альтернатива "централизованной интеграции" распределённой модели data mesh. Ключевые продукты — Talend, Informatica, IBM Cloud Pak.
- Medallion Architecture
- Паттерн организации data lake, популяризированный Databricks — слои Bronze (raw), Silver (очищенный, conformed), Gold (business-ready, агрегированный). Каждый слой строится на предыдущем; чисто разделяет lineage, качество и переобработку.
- Apache Spark
- Распределённый in-memory движок обработки данных. Преемник Hadoop MapReduce, в 10-100× быстрее; объединяет SQL, streaming, ML (MLlib) и graph (GraphX) в едином API. Ядро Databricks, managed в AWS EMR, GCP Dataproc, Azure HDInsight; PySpark — главный инструмент data engineer.
- Apache Flink
- Движок true-streaming обработки (событие за событием). По сравнению с micro-batch Spark Streaming — миллисекундные задержки, exactly-once семантика и stateful processing. За реальным fraud- и anomaly-detection в Alibaba, Uber, Netflix.
- Kafka Connect
- Фреймворк source/sink-коннекторов Apache Kafka. Заводит CDC или batch-ingestion из 100+ систем (Postgres, MySQL, S3, Elasticsearch, Snowflake…) в Kafka и стримит данные обратно во внешние системы. Каталог Confluent на 1 000+ коннекторов — стандартная отсылка.
- Singer
- Open-source протокол интеграции данных от Stitch (теперь Talend), перемещающий JSON-потоки между "tap" (extract) и "target" (load). Модульный, vendor-нейтральный ELT-фреймворк; ядро open-source ELT-платформ типа Meltano.
- Apache Airflow
- Платформа оркестрации workflow, в которой DAG'и (Directed Acyclic Graph) описываются на Python. Создана в Airbnb в 2014 и передана Apache Foundation. Scheduling, retry, управление зависимостями, web-UI; де-факто стандарт data-пайплайнов.
- Dagster
- Современный asset-based фреймворк оркестрации данных. Если Airflow ориентирован на задачи, Dagster — на "data assets": со встроенными lineage, type-checking, software-defined assets и тестированием. First-class интеграции с dbt, Fivetran, Snowflake.
- Prefect
- Современный pythonic-инструмент оркестрации данных с динамическими DAG. Решает ограничение static-DAG Airflow — flows могут меняться в runtime — даёт hybrid execution (cloud + self-hosted) и гранулярные retry-политики. Популярен и в ML-пайплайнах.
- Snowflake
- Cloud-native managed data warehouse. Compute (warehouse) и storage полностью развязаны и масштабируются независимо. SQL-запросы по semi-structured данным (JSON, Parquet), secure data sharing, time travel (до 90 дней); сильная альтернатива BigQuery и Redshift.
- BigQuery
- Serverless columnar data warehouse Google Cloud петабайтного масштаба. Модель pay-per-slot; обучение ML-моделей через SQL (BQML); нативная цель экспорта GA4; встроенные geo-, JSON- и PARTITION/CLUSTER-оптимизации. Ядро GCP analytics-стека.
- Databricks
- Lakehouse-платформа, основанная создателями Apache Spark. Объединяет слои Bronze/Silver/Gold (medallion), Delta Lake, MLflow, Unity Catalog и notebook-workspace в одном продукте. Разработана для совместной работы data engineer + аналитиков + ML engineer; нативна в AWS, Azure, GCP.
- Apache Iceberg
- Open-формат таблиц для петабайтных данных (происхождение — Netflix). Добавляет к Parquet ACID, schema evolution, time travel, hidden partitioning и branching. Поддержан Snowflake, Databricks, BigQuery, Trino; стандартный ответ на vendor-lock-in DWH.
- Delta Lake
- Open-формат таблиц от Databricks, конкурент Apache Iceberg. ACID, time travel, schema enforcement, MERGE/UPDATE/DELETE; самая тесная интеграция — с экосистемой Spark. Формат по умолчанию на стороне Databricks lakehouse-архитектуры.
- Parquet
- Columnar формат хранения — каждая колонка в собственных блоках. Читаются только нужные колонки, поддерживается predicate pushdown, Snappy/Zstd дают высокую компрессию. Формат по умолчанию для Spark, Iceberg, Delta, Snowflake; аналитика в 10-100× быстрее row-based CSV/JSON.
- Apache Avro
- Бинарный формат сериализации с JSON-определёнными схемами. Сильный schema evolution (forward/backward compatibility); особенно популярен для payload Kafka-сообщений. Используется вместе со Schema Registry; row-ориентированный аналог Parquet.
- Schema Registry
- Сервис, централизованно хранящий, версионирующий и проверяющий совместимость схем Avro/Protobuf/JSON. Часть Kafka-стека Confluent; обеспечивает контракт producer-consumer и ловит breaking changes до production.
- Window Function (SQL)
- SQL-функции, считающие по множеству строк ("окну"). ROW_NUMBER, RANK, DENSE_RANK, LAG, LEAD, SUM/AVG OVER (PARTITION BY…). В отличие от GROUP BY строки не схлопываются — каждая получает свой результат. Незаменимы для time-series, ранжирования и running total.
- ELT (Extract, Load, Transform)
- Обратная сторона классического ETL: сначала сырые данные загружаются в warehouse/lake, а затем трансформируются там через SQL/dbt. С дешёвым cloud-DWH storage и мощным compute ELT стал парадигмой по умолчанию; приближает transform-логику к аналитикам.
- Feature Store
- Платформа, централизованно хранящая и отдающая фичи (исторические + real-time), потребляемые ML-моделями. Решает training-serving skew, выводя offline (batch) и online (low-latency) view из одного определения. Главные инструменты — Feast, Tecton, Hopsworks.
- MLOps
- Дисциплина, автоматизирующая цикл разработка-обучение-деплой-мониторинг-переобучение ML-моделей. DevOps применительно к ML — experiment tracking (MLflow), model registry, CI/CD для моделей, drift-detection и retraining-пайплайны.
- OpenLineage
- Открытый стандарт событий data lineage (LF AI & Data). Позволяет Airflow, Spark, dbt, Flink и другим эмитить события lineage в едином формате. Интегрирован в Marquez, Datakin, Astronomer; vendor-нейтральный носитель потока метаданных.
- Great Expectations
- Open-source фреймворк data quality / валидации данных. Тысячи готовых проверок вроде "expect_column_values_to_be_unique" и "expect_column_mean_to_be_between"; встраивается в Airflow/dbt-пайплайны и автогенерирует HTML data docs.
- Apache Atlas
- Open-source инструмент управления метаданными и data governance из экосистемы Hadoop. Tag-based access control, графы lineage, business glossary, классификация (PII/PCI). Стандарт enterprise-стека Hortonworks/Cloudera; современные альтернативы — Amundsen и DataHub.
- Lambda Architecture (Data)
- Дата-архитектура, объединяющая real-time и batch результаты. Speed-layer (Storm/Flink) даёт low-latency приближённые результаты, batch-layer (Spark/Hadoop) — точные, но медленные; serving-layer объединяет их. Не путать с AWS Lambda; сегодня всё чаще эволюционирует в Kappa-архитектуру.
- Differential Privacy
- Математический фреймворк, обеспечивающий безопасный доступ к статистике популяции с защитой индивидуальных записей. К результатам запросов добавляется калиброванный шум; атакующий не может определить, входят ли данные конкретного человека в выборку. Используют Apple iOS-клавиатура, Google Play, US Census 2020.
- Federated Learning
- Техника обучения модели локально на устройствах пользователей; на центральный сервер отправляются только обновления градиентов/весов, не сырые данные. Канонические примеры — auto-suggest Google Gboard, Apple Siri и privacy-preserving ML на медицинских данных.
- On-Chain Analytics
- Дисциплина извлечения инсайтов из публичных транзакционных данных блокчейна — активность кошельков, концентрация token-holder, exchange flow, отслеживание smart money, объёмы NFT. Ключевые платформы — Dune Analytics (SQL on-chain), Nansen (помеченные адреса), Glassnode, Arkham.
- Oracle (Blockchain)
- Bridge-сервис, доставляющий доверенные off-chain данные — цены, погоду, спортивные результаты, IoT-сенсоры — в on-chain smart contract. Лидер — Chainlink; Pyth, Band, RedStone — альтернативы. Жизненно важна для DeFi-ликвидаций, страхования и prediction-рынков.
- Brand Lift Study
- Исследование, измеряющее, как рекламная кампания двигает brand-метрики — ad recall, awareness, message association, purchase intent — сравнивая control- и exposed-группы. Meta, YouTube и TikTok предлагают это нативно; CPM обычно 5-15 $.
- Incrementality Test
- Тест, сравнивающий конверсии от рекламы с baseline "если бы её не было", чтобы измерить, какая часть конверсий действительно инкрементальная. Методы — PSA placebo ads, ghost bidding, geo holdout; лечит иллюзию классической атрибуции "каждая конверсия — моя". Золотой стандарт ROI современной paid media.
- Geo Holdout Test
- Квази-эксперимент, измеряющий инкрементальный эффект отключением рекламы в конкретной географии (напр. штат Нью-Йорк) при сохранении в других. Без cookies, без identifier, ATT-proof; matched markets / synthetic control — стандарт современной marketing science.
- MTA (Multi-Touch Attribution)
- Модель, распределяющая взвешенный credit между всеми touchpoint'ами (реклама, email, organic, direct), которые внесли вклад в конверсию. Методы — linear, time-decay, position-based, data-driven. Депрекация cookie и ATT ослабили точность MTA; современный здоровый стек — связка с MMM и incrementality.
- Data-Driven Attribution (DDA)
- Модель атрибуции, которая через machine learning учит маржинальный вклад каждого touchpoint вместо того, чтобы отдавать всё last click. Дефолт в Google Ads + GA4; на Shapley value; честно сравнивает каналы на одной стадии воронки. Заменила классические rule-based модели.
- View-Through Conversion (VTC)
- Конверсия пользователя, который увидел рекламу — без клика — и сконвертировался позже. В display и video кампаниях 30-60 % конверсий могут быть VTC; неверно учтённая, она либо переоценивает, либо недооценивает канал. Отличие от click-only атрибуции — критично.
- Attribution Window
- Временной интервал, в который конверсия приписывается рекламе после клика или показа. Старая норма — 7-day click + 1-day view; с iOS 14.5 ATT-дефолтом стало 7-day click + 1-day view + same-day view. Чем уже окно — тем меньше конверсий видится у каналов.
- Retention Curve (S-Curve)
- Ожидаемый паттерн: retention когорты должен в какой-то момент выйти на плато. В здоровом приложении кривая выравнивается через ~90 дней; в viral / habit-forming — остаётся горизонтальной; если продолжает падать — PMF слабый. "Smiling curve" Эндрю Чена — современный референс.
- Activation Rate
- Доля только что зарегистрированных пользователей, выполняющих первое ценное действие. Slack отслеживает "40 %, которые отправили первое сообщение", Notion — "50 %, создавших первую страницу", Spotify — "85 %, запустивших первую песню". Activation — самый прямой индикатор PMF и онбординга и сильно коррелирует с LTV.
- TTV (Time-to-Value)
- Время, за которое пользователь получает первый реальный value (aha-moment). Linear — 30 секунд, Figma — 5 минут, Slack — неделя. Чем короче TTV, тем выше retention; единственная полярная звезда современного onboarding.
- Activation Metric (Aha-Moment Metric)
- Data-driven порог формы "если пользователь сделал N действий за T времени — он retain". Facebook нашёл "10 друзей за 14 дней", Slack — "2K сообщений", Twitter — "30 follow". Весь onboarding оптимизируется под эту метрику; полярная звезда growth-команды.
- pLTV (Predictive LTV)
- Использование machine learning на первых событиях (sign-up, первая покупка, day-1 сессия, IAP) для прогноза LTV на 30/90/365 дней. Стандартное решение для iOS-атрибуции после SKAdNetwork; AppsFlyer, Adjust и Singular встроили pLTV в свои стеки оптимизации маркетинга.
- Uplift Modeling
- ML-подход, выявляющий, в каких сегментах пользователей вмешательство (купон, push, email) реально создаёт нетто-дополнительный эффект. Находит "persuadable"-сегмент, чтобы не дёргать остальных. Алгоритмы — T-learner, X-learner, causal forest. Поднимает ROI CRM-кампаний в 2-3×.
- Crashlytics / Sentry Mobile
- Платформы, собирающие mobile-крэши, ANR и JS-ошибки и группирующие их по стек-трейсу, данным устройства и breadcrumbs. Главные — Firebase Crashlytics (Google, бесплатно), Sentry, Bugsnag, Embrace. Цель — Crash-Free Users 99,5 %+; ниже 99 % убивает рейтинг в App Store.
- Mobile APM (Application Performance Monitoring)
- Платформа измерения performance приложения на реальных устройствах: startup time, render экранов, network-запросы, память, батарея, ANR. Опции — Firebase Performance, New Relic Mobile, Embrace, Datadog Mobile RUM. Подсвечивает UX-проблемы, не являющиеся крэшами.
- Headless BI
- Analytics-движок без собственного слоя визуализации, отдающий все вычисления метрик и измерений через API и GraphQL. Лидеры — Cube, GoodData, AtScale; output потребляют Tableau, Looker, Notion, Hex, Excel или любая custom React-app. Современная парадигма, ломающая моногамию с одним BI-инструментом.
- Metric Layer
- Metric-only вариант semantic layer — абстракция, хранящая "единственно-правильные" определения метрик компании в YAML или SQL. Примеры — Spectacles Slack, Minerva Airbnb, dbt Semantic Layer. Если "active user" в маркетинге 15 %, а в финансах 10 % — drift начинается здесь.
- Data Activation
- Процесс выгрузки инсайтов из warehouse в операционные системы — CRM, ad-платформы, support-инструменты, in-app messaging. Reverse ETL — техническая труба; мост между "data analytics" и "marketing automation". Лидеры — Census, Hightouch, Polytomic.
- Composable CDP
- Подход, ставящий warehouse (Snowflake, BigQuery) в центр вместо single-vendor CDP (Segment, mParticle), и подключающий только нужные слои — audience, real-time activation, identity resolution. Hightouch + Census + RudderStack + Snowplow — типовой composable-CDP-стек.
- Operational Analytics
- Принцип: аналитические инсайты не должны жить в дашборде, а должны запускать действия в операционных системах. "Этот пользователь не активен 7 дней" появляется не в графике, а в win-back flow Klaviyo. Business-сторона reverse ETL — современная форма "actionable analytics".
- Looker LookML
- YAML-подобный DSL data modeling от Looker. Таблицы становятся "view", связи — "explore", метрики — "measure"; code-centric BI-подход, генерирующий SQL. Все аналитики говорят на одном языке, version control и Git-workflow работают — lingua franca современных data-команд.
- Mode Analytics
- BI-платформа, объединяющая SQL, Python-ноутбуки и дашборды в одном продукте (куплена ThoughtSpot в 2023). Sweet spot для data-аналитика: SQL для запросов, Python для ML и потом sharable дашборд. Power-user сторона против GUI-only подхода Tableau.
- Hex (Notebook BI)
- Аналитическая платформа, основанная в 2020, объединяющая SQL, Python и no-code интерактивные приложения в одном месте. Notebook-UI + Magic AI + конструктор shareable app; общая среда для data scientist, аналитика и бизнес-стейкхолдера. Восходящая звезда современного hybrid BI.
- Sigma Computing
- Современная BI-платформа, надстраивающая spreadsheet-подобный интерфейс над Snowflake или BigQuery. Пользователи делают Excel-стиль pivot, формулы и what-if без SQL — но движок остаётся warehouse-native. Сильный конкурент Looker в командах finance и ops.
- Streamlit
- Open-source Python-фреймворк, позволяющий выпустить интерактивное web-приложение за 100 строк скрипта (куплен Snowflake в 2022). Дефолтный путь data scientist'ов для internal tools, прототипов и ML-демо; Plotly Dash и Gradio — близкие конкуренты.
- Snowflake Streams & Tasks
- Связка Snowflake — change-data-capture (Streams) + расписанное выполнение SQL (Tasks). Stream складывает insert/update/delete таблицы в offset-очередь, Task обрабатывает их по расписанию. ELT-пайплайны получают Snowflake-native автоматизацию без Airflow.
- dbt Tests
- Утверждения о качестве данных, описываемые против dbt-моделей: not_null, unique, accepted_values, relationships и custom SQL. Запускаются в CI; валидируют данные перед каждым model build. Test suite расширяется интеграциями dbt-utils и Great Expectations.
- dbt Snapshots
- dbt-нативная реализация Slowly Changing Dimension Type 2. Для mutable исходной таблицы (напр. orders.status меняется) каждый snapshot run сохраняет историю через колонки dbt_valid_from/to. Основа audit history и запросов "как это выглядело на дату X".
- Materialization Strategy (Table / View / Incremental / Ephemeral)
- Как dbt-модель сохраняется в warehouse. View: дёшево, но пересчитывается при каждом запросе — для небольших данных. Table: полный rebuild — для маленьких/средних. Incremental: добавляет только новые строки — для больших данных. Ephemeral: подставляется inline как CTE, без persistent output.
- SCD (Slowly Changing Dimension)
- Паттерн хранения истории медленно меняющихся измерений — клиент, продукт, сотрудник. Type 1: только последнее значение; Type 2: новая строка при каждом изменении + valid_from/to (история сохраняется); Type 3: одна колонка previous-value. С современным DWH + dbt Snapshot SCD2 — дефолт.
- Idempotent Pipeline
- ETL/ELT пайплайн, который при одинаковом input выдаёт одинаковый output и не создаёт побочных эффектов при повторном запуске. Гарантия того, что backfill, retry и late-arriving data не испортят данные. Достигается через MERGE, дедуп по primary key и транзакции.
- Backfill Strategy
- План повторного запуска пайплайна на исторических данных. Параметризуется диапазон дат, partition'ы пересчитываются батчами; обязательны идемпотентный пайплайн + atomic-запись + контроль конкуренции. Ошибочный backfill = потеря production-данных — сначала прогон в staging.
- dbt Layers (Staging / Intermediate / Marts)
- Рекомендованный 3-слойный паттерн моделирования в dbt-проекте. Staging: 1:1 очищенная таблица на источник (rename, cast, dedup). Intermediate: строительные блоки бизнес-логики. Marts: business-ready финальный слой dim/fact. Приносит консистентность, reuse и чистый DAG.
- Source Freshness
- Фича dbt, отслеживающая, как давно обновлялась каждая исходная таблица. Команда "dbt source freshness" срабатывает по warning и error порогам (напр. 12 ч warn, 24 ч error) и ловит stale-данные, даже когда пайплайн не сломался. Операционный сторож.
- OBT (One Big Table)
- Альтернатива star schema в моделировании — денормализовать все измерения в fact-таблицу и получить одну широкую таблицу из 50-200+ колонок. В columnar warehouse вроде Snowflake/BigQuery join'ы дороги; OBT быстрее для аналитиков и часто оптимален по performance.
- Cube.js
- Open-source headless BI-движок. Генерирует SQL, кеширует, отдаёт REST/GraphQL API и работает поверх Snowflake, BigQuery или Postgres. Позволяет front-end-разработчику собрать собственный дашборд; developer-friendly альтернатива Tableau / Looker.
- Snowpark
- DataFrame API Snowflake для Python, Scala и Java. Позволяет запускать ML-training, сложные transform, UDF и stored procedure без вывоза данных из warehouse. Modin и pandas-on-Snowflake дают data scientist'ам привычный локальный опыт; современное движение в сторону zero data movement.
- Polars
- Многопоточная columnar (Arrow) DataFrame-библиотека на Rust. В 5-30× быстрее pandas, с lazy evaluation и встроенной оптимизацией запросов. Современная замена pandas для аналитика; есть биндинги для Python, R, JS, Rust.
- DuckDB
- In-process columnar OLAP-БД — analytics-аналог SQLite с MotherDuck как cloud-расширением. Один файл, один процесс; SQL'ом запрашивает pandas DataFrame или Parquet напрямую. На ноуте справляется с миллиардом строк за 30 секунд; ежедневный компаньон современного аналитика.
- LLM Eval Harness
- Тестовый фреймворк, автоматически измеряющий производительность LLM на множестве задач. Примеры — HELM, lm-eval-harness, BigBench, HELM Lite; запускает стандартные benchmark'и MMLU, HumanEval, GSM8K, ARC. Обязательная инфраструктура для любого запуска модели и regression-тестов.
- Prompt Eval
- Тестовый набор, систематически измеряющий качество конкретного prompt. 50-500 пар input × expected-output с автоматическим scoring (LLM-as-judge, BLEU, ROUGE, exact match). Обязателен, чтобы ловить regression при изменении production-промптов; типовые инструменты — PromptLayer, Langfuse, Braintrust.
- Golden Dataset
- Вручную проверенный тестовый набор, используемый как ground truth. Входы и ожидаемые выходы eval harness живут здесь; после каждого апдейта LLM модель скорится на этом наборе. Типовой размер — 200-2 000 примеров, прошедших ревью domain expert.
- Faithfulness (RAG)
- Мера, насколько ответ RAG-системы остаётся верен retrieved-контексту. Если LLM галлюцинирует вне контекста — faithfulness падает; LLM-as-judge проверяет каждое предложение на "есть ли поддержка в контексте?". Ключевая метрика во фреймворках RAGAS и TruLens.
- Answer Relevance (RAG)
- Скор того, насколько ответ LLM релевантен запросу пользователя. Ловит правильные, но не относящиеся к теме ответы — "Сегодня хорошая погода, а столица Парижа — Париж". Измеряется через cosine similarity (embedding ответа ↔ embedding запроса) или LLM-as-judge.
- Context Precision / Recall (RAG)
- Две метрики качества retrieval в RAG. Precision: какая доля извлечённых chunk'ов была действительно релевантной; Recall: какая доля по-настоящему релевантных chunk'ов была извлечена. Низкая precision = шум, низкий recall = потеря информации. Автоматически измеряются в RAGAS, ARES и др.
- Model Routing
- Умный слой, направляющий вопрос в разные LLM в зависимости от сложности, латентности или бюджета. Простые вопросы — в Haiku/3.5-mini, сложные — в Opus/4.5. OpenRouter, Portkey, Martian продают routing-as-a-service; снижают средние расходы в 5-20×.
- Cascading Models
- Пайплайн, в котором сначала пробует маленькая/дешёвая модель; если confidence ниже порога или фейлится валидация — запрос эскалируется в большую/дорогую модель. Fail-over вариант model routing; в реальных LLM-приложениях 80 % трафика решается за 20 % стоимости без потери качества.
- RAG Reranker
- Второй этап, переупорядочивающий top-50 chunk'ов из vector retrieval через LLM-as-judge или cross-encoder. Распространены Cohere Rerank, BGE-Reranker, Jina Reranker; precision растёт на 20-40 %, retrieval-faithfulness метрика улучшается.
- Chunk Strategy
- Как документ разбивается для RAG. Варианты — fixed-size (напр. 512 токенов), recursive character (по параграфам/предложениям), semantic chunking (сегментация по embedding) и markdown-aware. Плохой chunking = низкий retrieval precision; chunk size и overlap напрямую двигают качество RAG.
- Embedding Drift
- Когда embedding'и реальных production-запросов со временем отдаляются от распределения embedding корпуса RAG. Новый сленг, продукты и термины увеличивают drift, retrieval recall падает. Решение — ежеквартальная регенерация embedding + new-data-aware реиндекс.
- HNSW Index (Hierarchical Navigable Small World)
- Алгоритм ANN-индекса (Approximate Nearest Neighbor), используемый большинством vector DB. Многослойный граф, дающий миллисекундную задержку на триллионах embedding'ов. Дефолт в Pinecone, Weaviate, Qdrant, Milvus и pgvector.
- ANN (Approximate Nearest Neighbor)
- Класс алгоритмов, ищущих "достаточно хорошие" ближайшие векторы вместо точного совпадения, обменивая точность на скорость и память. Примеры — HNSW, IVF, PQ, ScaNN; при recall 95 % латентность падает до 1 000×. Движок vector search.
- Model Card
- Стандартная карта (введена Google в 2019), документирующая цель, training-данные, performance, ограничения, этические проблемы и fair-use сценарии AI-модели. Сейчас обязательна при любом релизе foundation-модели; основа прозрачной AI-разработки.
- AI Observability
- Платформа мониторинга production LLM-приложений по trace, стоимости, латентности и метрикам качества. Инструменты — Langfuse, LangSmith, Helicone, Arize Phoenix, WhyLabs; каждый LLM-call (prompt, response, токены, стоимость, eval-score) логируется. LLM-нативный преемник классического APM.
- Matchmaking (ELO / MMR)
- Алгоритм, подбирающий игроков по уровню скилла в PvP-играх. Варианты — ELO (наследие шахмат), Glicko, TrueSkill, MMR (Match-Making Rating). Компромисс между smurf-защитой для новичков и skill-relax при длинных очередях; ядро League of Legends, Valorant, Dota 2.
- ARPDAU (Average Revenue Per Daily Active User)
- Средняя выручка на одного DAU. Casual mobile-игры — $0,05-0,20, mid-core — $0,20-0,80, hardcore RPG — $1+. Полярная звезда решений live-ops; в связке с pLTV формирует бюджет paid acquisition.
- Whales / Dolphins / Minnows
- Сегменты тратящих в F2P-играх. Whales: top 1 % с тратами $1 000+; Dolphins: 5-10 % с $50-1 000; Minnows: 15-30 % с $1-50; Free-riders: 60-80 %, никогда не платящих. Распределение Парето — whales дают 70 %+ выручки; их потеря — смертельна.
- Scope 1 / Scope 2 / Scope 3 Emissions
- Классификация GHG Protocol углеродных выбросов на три группы. Scope 1: прямые выбросы (котлы фабрики, корпоративный автопарк). Scope 2: купленные электричество, тепло, охлаждение. Scope 3: цепочка поставок + жизненный цикл продукта — самый крупный блок 75-85 %. Скелет ESG-отчётности.
- Carbon Footprint
- Сумма выбросов парниковых газов, вызванных человеком, продуктом, компанией или событием за жизненный цикл (в CO₂-эквиваленте). Производство iPhone — ~70 кг CO₂e; трансатлантический рейс — ~1,6 т. В ESG-отчётности равен сумме Scope 1 + 2 + 3.
- Carbon Offset
- Инвестиция во внешние проекты для компенсации выбросов — посадки леса, ВИЭ, methane capture, direct air capture. Voluntary carbon market в 2024 — ~$2 млрд, но критикуется за greenwashing; качественные знаки — Verra, Gold Standard, ICVCM. Спорный инструмент на пути к Net Zero.
- CDP (Carbon Disclosure Project)
- Глобальная платформа, на которой компании раскрывают климатические, водные и лесные выбросы по стандарту. В 2024 отчитались 24 000 компаний и 1 100 городов; оценка A-D создаёт давление институциональных инвесторов и клиентов. Лидируют Apple, Microsoft, Unilever; требования supply-chain disclosure быстро распространяются.
- ESG Reporting (Environmental, Social, Governance)
- Стандартная отчётность по экологическим, социальным и governance-показателям компании. Глобальный зонт — CSRD (ЕС), SEC Climate Rule (США), рекомендации TCFD; рабочие фреймворки — SASB, GRI, CDP. С 2024 более 50 000 компаний ЕС обязаны отчитываться по CSRD.
- CSRD (Corporate Sustainability Reporting Directive)
- Директива ЕС, действует с 2024 — обязует более 50 000 крупных компаний (банки + страховые + 250+ сотрудников + €40 млн+ выручки) отчитываться по устойчивости. На стандартах ESRS, с double-materiality (влияние компании на среду + среды на компанию) и third-party assurance.
- Net Zero
- Цель компании или страны: снизить выбросы до минимума и сбалансировать остаток через offset или removal. Валидируется Science Based Targets (SBTi); глобальный таргет — 2050. Отличие от carbon-neutral: Net Zero строже — он убирает остаток, а не просто компенсирует.
- Carbon Neutral vs Net Zero
- Carbon-neutral: выбросы обнуляются через offset, реальные сокращения не обязательны; Net Zero: сначала агрессивно режут выбросы, затем нейтрализуют остаток через removal (а не только offset). Microsoft — 2030 Carbon Negative, Apple — 2030 Net Zero, Google — 2030 24/7 carbon-free energy.
- PUE (Power Usage Effectiveness)
- Метрика электроэффективности дата-центра — total facility power делённый на IT equipment power. Идеал — 1,0; 2,0 означает дополнительную единицу cooling/lighting на каждую единицу IT. Hyperscalers (Google, AWS, Azure) — в среднем 1,10-1,15; on-prem enterprise DC — 1,5-2,0. Ключевой KPI устойчивости.
- Green Software Foundation
- Linux Foundation проект, основанный Microsoft, Accenture, GitHub и ThoughtWorks, стандартизирующий устойчивую разработку ПО. Поддерживает стандарт SCI (Software Carbon Intensity), сертификацию Green Software Practitioner и каталог Green Software Patterns. Гид по устойчивости для современной dev-команды.
- SCI (Software Carbon Intensity)
- Стандарт ISO/IEC 21031, измеряющий выбросы CO₂-эквивалента на функциональную единицу ПО. Формула: energy × carbon intensity региона + embodied emissions. Стандартный ответ на вопрос "сколько углерода стоит этот API-call?" — основа современных green-software метрик.
- Renewable Energy Credit (REC)
- Торгуемый сертификат, представляющий 1 МВтч возобновляемой энергии. Вместо установки солнечных панелей компания покупает REC и отчитывается о "возобновляемом" электричестве; Green-e в США, GO (Guarantees of Origin) в Европе. Главный инструмент за обязательствами RE100.
- PPA (Power Purchase Agreement)
- Прямой долгосрочный (10-25 лет) контракт по фиксированной цене на покупку возобновляемого электричества напрямую у производителя. Позвоночник carbon-free стратегий hyperscaler'ов — Google, Amazon, Microsoft; глобальный объём corporate PPA в 2024 — более 50 ГВт.
- LCA (Life Cycle Assessment)
- Методология ISO 14040, количественно оценивающая полное воздействие продукта на окружающую среду — сырьё → производство → использование → end-of-life. Scope — cradle-to-grave или cradle-to-cradle. Цифра Apple "у iPhone 70 кг углеродного следа" — результат LCA.
- Circular Economy
- Экономическая модель, заменяющая линейный путь "произвести-использовать-выбросить": продукт изначально проектируется как переиспользуемый, ремонтопригодный и перерабатываемый. Пионер — Ellen MacArthur Foundation; конкретные примеры — IKEA buyback, Patagonia Worn Wear, Apple Self-Service Repair.
- Greenwashing
- Когда компания через маркетинг выглядит "зеленее", чем оправдывают её реальные показатели выбросов. CMA (UK), FTC (США) и CSRD ЕС теперь регулируют greenwashing юридически; Shell, BP и Volkswagen за годы заплатили многомиллионные штрафы. Этическая красная линия sustainability-коммуникации.
- Carbon Border Adjustment Mechanism (CBAM)
- "Углеродный импортный налог" ЕС, полностью в силе с 2026. Импортёры стали, цемента, алюминия, удобрений, водорода и электричества в ЕС платят то, что эти товары заплатили бы по EU ETS при производстве внутри ЕС. Первый крупный тариф, перестраивающий supply chain по интенсивности выбросов.
- EPR (Extended Producer Responsibility)
- Регуляция, делающая производителя ответственным за затраты на end-of-life отходы и recycling его продуктов. Примеры — EU Packaging Directive, LOM во Франции, VerpackG в Германии, Sıfır Atık в Турции. Производитель пластиковых бутылок, одежды или электроники платит экологический сбор за каждую проданную единицу.
- Sustainable Procurement
- Встраивание экологических и социальных критериев в закупочные решения компании. Supplier Code of Conduct, EcoVadis sustainability rating, требования к recycled-material, fair-trade сертификация. Большая часть Scope 3 выбросов рождается именно здесь; операционное сердце современной CSRD-отчётности.
- TCFD (Task Force on Climate-related Financial Disclosures)
- Фреймворк, опубликованный G20 Financial Stability Board в 2017, интегрирующий климатические риски и возможности в финансовую отчётность. Четыре столпа — Governance, Strategy, Risk Management, Metrics & Targets. Великобритания (PRA), Новая Зеландия и Япония сделали его обязательным. Климатическая нога ESG-отчётности.
- SBTi (Science Based Targets initiative)
- Независимая организация, валидирующая, соответствуют ли цели компании по снижению выбросов science-based траектории Парижского соглашения 1,5 °C / well-below-2 °C. Более 5 000 компаний прошли валидацию — Microsoft, IKEA, Unilever, Nike, Maersk и другие. Обязательная "печать" за любым убедительным Net-Zero-обещанием.
- EV Charging Network (Tesla Supercharger / Ionity / Electrify America)
- Инфраструктура быстрой зарядки электромобилей. Сеть Tesla Supercharger — 50 000+ станций по миру, стандарт NACS; в Европе — Ionity (консорциум BMW + VW + Mercedes); в США — Electrify America. С 2024 Tesla открыла NACS другим EV-брендам, ускорив консолидацию стандарта.
- North Star Framework
- Фреймворк, популяризированный Шоном Эллисом и Amplitude — определяет единственную метрику "value-for-customer" компании. Spotify — "time spent listening", Airbnb — "nights booked", Slack — "messages sent in active workspaces". Компас всех growth и product решений.
- Driver Tree
- Анализ, разворачивающий целевую метрику (напр. revenue) в драйверы за ней. Близкий родственник KPI tree, но с большим фокусом на причинности — структурированный ответ "для роста ARR — новые logo или expansion?". Классический инструмент problem-solving в McKinsey и Bain.
- Executive Dashboard
- Одностраничный дашборд для C-suite и board с 7-12 верхними метриками. Business-decision-grade KPI — MRR, NRR, CAC, magic number, runway, rule of 40 — еженедельный review. Классические форматы — Tableau Executive, Looker C-suite, Mode Reports.
- Operational Dashboard
- Дашборд для часовых/ежедневных операционных решений — CPM-тренд маркетинга, ticket queue support, order backlog ops. Real-time или near-real-time refresh; alerting и drill-down по pivot обязательны. Распространены в Looker Studio, Power BI, Grafana.
- Drill-Down
- Поведение анализа click-through от агрегированной метрики к деталям — "total revenue" → "by region" → "by product" → "by SKU" → "by transaction". Фирменная фича self-service analytics OLAP-кубов и современных BI — Power BI, Tableau, Looker.
- Slice & Dice
- Резать и исследовать многомерные данные по разным измерениям. "Slice" фиксирует одно измерение и анализирует остальные; "Dice" фильтрует два+ измерения, формируя подмножество. Базовое поведение pivot-таблицы, унаследованное из терминологии OLAP cube.
- Pivot Table
- Изобретение Excel 1993 года — drag-and-drop многомерных данных в строки, колонки, значения и фильтры. Предок современного BI; Tableau, Power BI, Looker и Hex переносят mental-model pivot table в свой UX. Lingua franca анализа данных.
- Funnel Visualization
- Показ conversion-потока как сужающейся step-by-step funnel-диаграммы — Awareness → Consideration → Purchase → Retention — чтобы видеть drop-off на каждом шаге. Mixpanel, Amplitude, Heap и GA4 — с нативными funnel-отчётами; ключевой visual для CRO, product и marketing команд.
- Cohort Heatmap
- Матрица, визуализирующая retention когорт (неделя 0 → неделя N) интенсивностью цвета. Ось Y — неделя signup; ось X — неделя post-signup; цвет — retention rate. С первого взгляда показывает PMF, качество onboarding и эффект недавних product-изменений.
- Sankey Diagram
- Визуализация, показывающая потоки — user journey, поток энергии, conversion path — лентами пропорциональной толщины. Идеальна для behavior flow Google Analytics, анализа churn и attribution journey. Строится через d3.js, Plotly или Power BI Sankey custom visual.
- Bullet Chart
- Минималистичный график, придуманный Стивеном Фью: показывает таргет KPI, фактический результат и tier band на одной горизонтальной строке. Намного читабельнее gauge/speedometer. Классика executive-дашбордов; Tableau и Power BI поддерживают custom visual.
- Data Storytelling
- Подход "сначала рассказывай историю, потом подкрепляй её данными" вместо вываливания цифр и графиков на аудиторию. Манифест — книга "Storytelling with Data" Коул Нассбаумер Кнафлик; закрывает gap "so what?" у лиц, принимающих решения. Реализация — Tableau Story, Power BI bookmarks, Notion-нарратив.
- Self-Service Analytics
- Модель, в которой бизнес-пользователь сам строит свои запросы и дашборды без зависимости от аналитика. Лидеры — Looker LookML, Tableau Ask Data, Power BI Q&A, ThoughtSpot search-driven; обязательны semantic layer + data governance + обучение. Цель "демократизации" современного BI.
- Power BI
- BI-платформа Microsoft — глубоко интегрирована с экосистемой Excel и самая используемая enterprise-BI. Power Query для ETL, DAX как formula language, Power BI Service — cloud + collaboration. С Microsoft Fabric усиливается интеграция data engineering и AI Copilot.
- Tableau
- "Визуальный золотой стандарт" BI — самый мощный drag-and-drop инструмент для впечатляющих графиков. Вышел из Stanford в 2003, в 2019 куплен Salesforce за $15,7 млрд. Связка Tableau Desktop + Server + Cloud всё ещё гибче и художественнее Power BI.
- ThoughtSpot
- Пионер search-driven BI — пользователь вводит на естественном языке "show me revenue by region last quarter", платформа строит SQL и график. SpotIQ даёт ML auto-insight, что выводит её в лидеры AI-augmented BI. В 2023 купила Mode Analytics за $200 млн.
- Microsoft Fabric
- Запущенная Microsoft в 2023 analytics-платформа, объединяющая Power BI, Synapse, Data Factory, Real-Time Analytics и Copilot в одном SaaS. OneLake стремится быть "lakehouse for the masses" и прямой конкурент Snowflake и Databricks.
- Real-Time Dashboard
- Дашборд, обновляющийся за секунды и показывающий "что происходит прямо сейчас". Связка WebSocket + streaming SQL + push notification. Используется в trading-платформах, gaming live ops, real-time support queue, IoT monitoring. Стеки — Grafana, Tinybird, Materialize, ClickHouse + Apache Pinot.
- Embedded Analytics
- Показ BI-дашбордов прямо внутри SaaS-приложения. Лидеры — Sigma, Mode, Looker Embedded, Cube + кастомный React-frontend. Инфраструктура любого продукта, который должен показывать клиенту его данные (Shopify analytics, Stripe Sigma, HubSpot reports); современная PLG-фича.
- Slowly Refreshed Dashboard (Daily / Weekly)
- Дашборд без real-time, обновляющийся после ежедневного/еженедельного batch ETL — marketing weekly review, finance month-end close, retention cohort report. Правильный выбор ради экономии compute и простоты анализа; классический ответ анти-паттерну "premature real-time".
- Anomaly Alerting
- Алерт, срабатывающий при статистическом отклонении метрики от её сезонного паттерна и тренда. Prophet, Datadog Watchdog, Anodot, MonteCarlo и Sigma Anomaly Detection меняют manual-пороги на ML-driven dynamic-alerts. Центральная способность современной data observability.
- Forecasting (Prophet / SARIMA / LSTM)
- Прогноз будущих значений на основе исторических данных. Инструменты — Prophet (Meta, business-friendly с seasonality), SARIMA (классическая статистика), LSTM и Transformer-модели (deep learning), библиотека Darts. Core ML-направление для sales forecasting, demand planning и capacity planning.
- Data Catalog (Atlan / Alation / Collibra)
- Платформа, делающая все data-ассеты — таблицы, дашборды, ML-модели, метрики — discoverable и задокументированными для компании. Lineage, теги, business glossary, data quality и ownership в одном интерфейсе. "Википедия" современной data-команды.
- AI-Powered BI (Copilot / Sigma AI / Tableau Pulse)
- BI-фичи нового поколения: natural-language запросы, автоматические инсайты и chart-narrative объяснения. Power BI Copilot, Tableau Pulse + Tableau GPT, Sigma AI и ThoughtSpot Sage отвечают на "why did revenue drop last week?" автоматическим root-cause и трансформируют роль аналитика.
- Edge AI
- Запуск AI-моделей на устройстве — телефоне, камере, дроне, IoT-сенсоре — вместо облака. Низкая задержка, сохранение privacy, offline-работа; требует quantized-модели, NPU и runtime. Двигает self-driving cars, AR/VR и smart camera.
- TinyML
- ML-модели, достаточно маленькие, чтобы поместиться в MCU с килобайтами RAM. Инструменты — TensorFlow Lite Micro, Edge Impulse, Arduino Nano 33 BLE Sense; покрывает keyword spotting, motion detection и anomaly detection. Приносит AI на IoT-устройства на батарейках, работающих годами.
- Digital Twin
- Виртуальная копия физического объекта — авиадвигателя, фабрики, города, тела человека — синхронизированная с real-time сенсорными данными. Объединяет simulation, monitoring и predictive maintenance. Лидеры платформ — Siemens, NVIDIA Omniverse, Microsoft Azure Digital Twins, Bentley iTwin.
- People Analytics
- Дисциплина, применяющая ML и статистику к данным сотрудников. Покрывает прогноз attrition, качество hiring, manager effectiveness, анализ DEI gap и sentiment-тренды. Лидеры — Visier, ChartHop, Lattice, Culture Amp и Workday Adaptive Planning; data-driven нога HR.
- eNPS (Employee Net Promoter Score)
- NPS-стиль score на вопрос "порекомендовали бы вы компанию как место работы?". От -100 до +100; выше +30 — хорошо, выше +50 — отлично. Delivered через annual survey + quarterly pulse в Culture Amp, Officevibe, 15Five, Lattice. Single-question термометр engagement'а.
- Pulse Survey
- Современный преемник annual engagement-survey — короткий 5-10-вопросный опрос, рассылаемый еженедельно или раз в две недели. Real-time engagement-пульс, который сразу попадает в дашборд менеджера. Инструменты — Officevibe, 15Five, Lattice, Culture Amp; agile и actionable ответ классическому 80-вопросному годовому монстру.
- EHR (Electronic Health Record)
- Цифровая и разделяемая запись о здоровье пациента — история болезни, анализы, имиджинг, рецепты. В США Epic и Cerner — 85 %+ доли рынка; в Европе — DocPlanner и Doctolib; в Турции — e-Nabız и MEDULA. Interoperability и privacy (HIPAA, GDPR, KVKK) — в самом сердце отрасли.
- ClimateTech
- Tech-решения против климатического кризиса — mitigation и adaptation. Carbon capture (Climeworks DAC), green hydrogen, fusion (Commonwealth Fusion, Helion), grid-scale battery (Form Energy), climate-risk modeling (Jupiter). Глобальные инвестиции в ClimateTech в 2024 превысили $40 млрд; Sequoia, Lowercarbon и Breakthrough Energy — ведущие фонды.
- Carbon Capture (DAC / CCS)
- Технологии захвата CO₂ из атмосферы или напрямую из промышленного flue gas. Direct Air Capture (Climeworks Orca, Carbon Engineering) и Carbon Capture & Storage (CCS) для заводских выбросов. Стоимость $300-1000 за тонну; advance market commitment Frontier на $1 млрд нацелен снизить её до $100.
— БЫСТРАЯ ДИАГНОСТИКА
Готовы ли Вы к аналитической операции?
Интерактивный навигатор: показывает уровень программы, подходящего Вам, по 4 вопросам. Ответы «Да/Нет», результат за 30 секунд.
01 / 04
Сейчас у Вас более 10 активных dashboard или Excel-отчётов?
Изобилие dashboard — один из классических симптомов отсутствия решений.
— LET'S BEGIN
Ваши dashboard запускают решения или служат украшением?
60-минутный аналитический диагностик: текущая инвентаризация KPI, граф зависимостей dashboard, здоровье источников данных и рекомендация по 90-дневной roadmap — на одной панели.