Обробка Часових Рядів з Різним Покриттям

⚖️ Стандартна Практика: Time Series Alignment

1. Контекст Задачі

При аналізі часових рядів з кількох джерел (наприклад, 5 аптек) виникає проблема різного покриття даних (different start/end dates).

Аптека A (дані): $T_A = [t_1, \dots, t_{100}]$
Аптека B (дані): $T_B = [t_{30}, \dots, t_{100}]$
Аптека C (дані): $T_C = [t_{70}, \dots, t_{120}]$

Мета: Створити єдиний, порівнюваний датасет для коректного моделювання (наприклад, аналізу трендів, сезонності або субституції).

2. Ключовий Ризик: Помилка "Padding with Zeros"

Найбільша методологічна помилка — вважати, що "відсутність даних" дорівнює "нулю".

0 (Нуль): Це реальні дані. Означає, що подія відбулася (наприклад, "товар був на полиці"), але результат був нульовим ("продажі = 0").
NaN (Відсутність даних): Це відсутність інформації. Означає, що вимірювання не проводилось (наприклад, "аптека ще не існувала в базі" або "товар ще не було заведено в асортимент").

Критична Помилка (Padding with Zeros): Заповнення NaN періодів нулями (наприклад, для Аптеки B в діапазоні $[t_1, \dots, t_{29}]$) спотворює реальність. Це каже моделі, що "аптека 29 днів поспіль нічого не продавала", хоча насправді її просто не існувало.

Наслідок: Модель отримує сильний bias (зміщення), що руйнує оцінку середніх, дисперсії, трендів та сезонності.

3. Аналіз Підходів до Вирівнювання

1. Threshold-based Exclusion (Виключення за Порогом)

Суть: Використовувати лише ті часові ряди, що мають покриття $> X\%$ (наприклад, 80%).
Недолік: Велика втрата даних (Data Loss). Ми можемо втратити 4 з 5 аптек.

2. Padding with Zeros (Заповнення Нулями)

Суть: Взяти максимальний діапазон $[t_{min}, t_{max}]$ і заповнити всі NaN значення нулями 0.
Недолік: Категорично НЕ рекомендується. Руйнує статистичну цілісність (див. п. 2).