Ціль: Отримання інсайтів, виявлення взаємозв’язків та підтвердження гіпотез для моделювання.
Підсумовування даних для розуміння центральної тенденції та розкиду.
Формула: $\bar{x} = (1/n) * \sum (x_i)$
Пояснення показників:
Код: df['колонка'].mean()
Міра розкиду (варіативності) значень даних відносно середнього.
Формула: $s = \sqrt{\frac{1}{n-1} \sum (x_i - \bar{x})^2}$
Пояснення показників:
Код: df['колонка'].std()
Вимірювання сили та напрямку лінійної залежності між $X$ та $Y$.