При аналізі часових рядів з кількох джерел (наприклад, 5 аптек) виникає проблема різного покриття даних (different start/end dates).
Мета: Створити єдиний, порівнюваний датасет для коректного моделювання (наприклад, аналізу трендів, сезонності або субституції).
Найбільша методологічна помилка — вважати, що "відсутність даних" дорівнює "нулю".
0 (Нуль): Це реальні дані. Означає, що подія відбулася (наприклад, "товар був на полиці"), але результат був нульовим ("продажі = 0").NaN (Відсутність даних): Це відсутність інформації. Означає, що вимірювання не проводилось (наприклад, "аптека ще не існувала в базі" або "товар ще не було заведено в асортимент").Критична Помилка (Padding with Zeros):
Заповнення NaN періодів нулями (наприклад, для Аптеки B в діапазоні $[t_1, \dots, t_{29}]$) спотворює реальність. Це каже моделі, що "аптека 29 днів поспіль нічого не продавала", хоча насправді її просто не існувало.
Наслідок: Модель отримує сильний bias (зміщення), що руйнує оцінку середніх, дисперсії, трендів та сезонності.
1. Threshold-based Exclusion (Виключення за Порогом)
2. Padding with Zeros (Заповнення Нулями)
NaN значення нулями 0.