---
title:
Концепції статистики для пересічних читачів
date:
2026-01-22
draft:
false
---
https://www.kdnuggets.com/7-statistical-concepts-every-data-scientist-should-master-and-why
Гарна стаття про концепції статистики для тих, хто просто проходив повз.
- Статистична значущість vs практична значущість: різниця між тим, що результат математично надійний і важливий на практиці. Наприклад, ліки знижують температуру на 0.01 градуса — статистично це може бути значущим на мільйоні людей, але практично марно.
- Зміщення вибірки (sampling bias): коли дані погано відображають реальну ситуацію і ведуть до невірних висновків. Наприклад, опитування про страх польотів в аеропорту — ви не почуєте тих, хто так боїться, що залишився вдома.
- Довірчі інтервали (confidence intervals): замість однієї цифри — діапазон, де, швидше за все, знаходиться істинне значення. Наприклад, навігатор обіцяє приїзд о 18:00 ± 5 хвилин. Ці 10 хвилин і є інтервал.
- P-значення (p-values): допомагають оцінити, наскільки спостережуваний ефект міг виникнути випадково. Наприклад, якщо після нової дієти ви схудли, а p-value дорівнює 0.05, це означає, що є 5% шанс, що ви скинули вагу випадково, а не завдяки дієті.
- Типи помилок у тестах (Type I та II): хибнопозитивні vs хибнонегативні висновки. Наприклад, помилка I роду — сигналізація волає без злодіїв; помилка II роду — злодії увійшли, а вона мовчить.
- Кореляція vs причинність: дві речі можуть бути пов’язані, але одна не обов’язково викликає іншу. Наприклад, діти з великою ногою краще пишуть диктанти не через взуття, а тому що вони старші.
- Прокляття розмірності (curse of dimensionality): занадто багато ознак може погіршити результати моделі. Наприклад, ви шукаєте схожі квартири для оцінки вартості. За одним параметром (площа) легко знайти 10 схожих у базі з 1000. Додайте поверх — потрібно вже 10 000 квартир. Додайте район, рік побудови, матеріал стін — і для надійного порівняння знадобляться мільйони записів, яких просто не існує.