Психографічна сегментація: як модель OCEAN допомагає краще зрозуміти клієнта
Сьогодні потенційного покупця вже складно здивувати...
Читати більше
Усі хочуть прогнозувати продажі. Але мало хто замислюється над тим, що насправді бачить модель, коли дивиться в дані. Машинне навчання стало must-have для ритейлу: моделі попиту та персоналізовані акції – усе звучить красиво.
Але попри високі очікування, більшість моделей або не приносять відчутного ефекту, або працюють лише в обмеженому середовищі. Це підтверджує і систематичний огляд Why Big Data Projects Fail, згідно з яким понад 80% ініціатив, пов’язаних із великими даними та ML, провалюються. І справа не в слабких алгоритмах чи некомпетентних командах. Просто дуже часто моделі будуються на даних, які не враховують реального контексту.
У цій статті ми розберемо, чому навіть найпросунутіші time series-моделі можуть помилятись у базових речах. І що потрібно враховувати, щоб прогнози справді допомагали ухвалювати рішення замість того, щоби їх імітувати.
Уявімо класичну ситуацію: аналітик отримує таблицю з історичними продажами. Дані щоденні, по кожному SKU, з кількістю одиниць. Формально – це ідеальний time series для прогнозування: все виглядає чисто, логічно та структуровано.
На цьому етапі найчастіше і починається розробка моделі. І не так важливо, яка для цього використувується time series-архітектура, бо важливо зовсім інше: що саме бачить модель.
А бачить вона, зазвичай, тільки одну грань подій – результат. Продажі.
З погляду алгоритму усе це просто цифри: був пік, було падіння. Більшість ML-моделей у ритейлі побудовані навколо продажів, і це логічно: саме продажі є фінальним результатом взаємодії товару з покупцем. Але тут і закладена основна помилка: продаж — це наслідок, а не причина. За коливаннями продажів могли стояти обставини, які жодним чином не пов’язані з реальним попитом на продукт.
Модель починає прогнозувати поведінку, яка в реальному світі ніколи не повториться. Тому що вона базується на винятках, а не на закономірностях.
Якщо товару не було на полиці, логічно, що і продажів не буде. Але це зовсім не означає, що на нього не було попиту, це просто значить, що покупець не мав можливості зробити покупку. І якщо модель “вчиться” на цьому періоді, вона хибно інтерпретує відсутність продажу як відсутність зацікавленності.
Тому в моделі обов’язково має бути повноцінний масив по залишках. Інакше прогноз буде хибним.
Акції, розпродажі, купони, 2+1, push-повідомлення, банери, нова упаковка – усе це кардинально впливає на споживчу поведінку. Але ці дані часто відсутні або зберігаються окремо від основного датасету.
Без інформації про промо-активності модель буде аналізувати аномалії (різке зростання чи падіння) як звичайні тренди. І прогнозувати їх повторення там, де цього не буде.
Якщо ви аналізуєте конкретний товар – цього недостатньо. Покупець не вибирає в ізоляції. Він бачить кілька альтернатив на полиці (або на сторінці каталогу), і реагує на весь контекст.
Наприклад, якщо конкурент зник з полиці, це могло дати товару короткостроковий приріст. Але модель, яка не знає цього, вирішить, що причина у популярності продукту.
Той самий товар може продаватися по-різному в залежності від міста, типу магазину, дистрибуційної моделі, глибини полиці, доставки. Усе це важливо.
5. Фізичні зміни товару (SKU-атрибутика)
Багато моделей не враховують, що SKU – це лише технічний код. А товар, який стоїть на полиці, може змінюватися, не змінюючи коду.
Навіть без глибокого аудиту можна помітити, що модель поводиться підозріло. Вона не обов’язково не працює в прямому сенсі, але її прогнози не збігаються з реальністю або суперечать здоровому глузду.
Ось кілька ознак, які варто сприймати як сигнали тривоги:
Поговоримо докладніше про один із найтиповіших перекручень у прогнозних моделях: коли модель інтерпретує відсутність продажів як відсутність попиту. Це логічно з погляду цифр, але абсолютно хибно з погляду реального бізнесу. Нуль продажів – це ще не вирок продукту. Це часто є сигналом, що товар фізично не був доступний покупцю. Проблема в тому, що ML-моделі без врахування залишків не можуть це побачити. А для ухвалення правильних рішень, бізнесу необхідно бачити одночасно два вектори: Що купують (попит) і що фізично є в наявності (залишки).
Під час розробки моделі для прогнозування виробництва для компанії Нові Продукти наша команда прямо зіткнулась з ситуацією, коли модель бачила просідання попиту, хоча товару просто не було на полицях у деяких точках. У таких випадках аналітика лише створює ілюзію контролю замість того, щоб давати реальну опору для рішень. Цей момент став критичним у налаштуванні моделі: ми інтегрували дані про залишки, щоб чітко відрізняти реальні коливання попиту від ситуацій, коли просто не було що продавати. Ми підключили повні дані про залишки по SKU, розмежували ситуації, де був попит, але не було товару і змогли покращити точність прогнозу. Це допомогло уникнути надвиробництва, зменшити втрати та приймати обґрунтовані рішення на основі реальних даних.
Слабкі моделі дають слабкі прогнози. Але ще гірше, коли сильна модель працює на неповних даних і створює впевненість там, де її не може бути.
Машинне навчання в ритейлі працює тільки тоді, коли модель бачить повну картину. Ніяка архітектура не компенсує відсутність розуміння, що саме стоїть за цифрами. Бо якісний прогноз базується не тільки на самих даних, а і на контексті, з якого ці дані виросли.
Саме так ми підходимо до роботи в IWIS: наші моделі ефективні не в теорії, а в реальних умовах. Якщо хочете дізнатися, як це може працювати у вас – ми на відстані одного повідомлення.
Сьогодні потенційного покупця вже складно здивувати...
Читати більше
Нам обіцяли діджитал-рай, а ми прокинулись...
Читати більше