Концепції статистики для пересічних читачів

date: 2026-01-22

tags: [#statistics, #data-science, #learning, #development ]

draft: false

---

https://www.kdnuggets.com/7-statistical-concepts-every-data-scientist-should-master-and-why

Гарна стаття про концепції статистики для тих, хто просто проходив повз.

Статистична значущість vs практична значущість: різниця між тим, що результат математично надійний і важливий на практиці. Наприклад, ліки знижують температуру на 0.01 градуса — статистично це може бути значущим на мільйоні людей, але практично марно.
Зміщення вибірки (sampling bias): коли дані погано відображають реальну ситуацію і ведуть до невірних висновків. Наприклад, опитування про страх польотів в аеропорту — ви не почуєте тих, хто так боїться, що залишився вдома.
Довірчі інтервали (confidence intervals): замість однієї цифри — діапазон, де, швидше за все, знаходиться істинне значення. Наприклад, навігатор обіцяє приїзд о 18:00 ± 5 хвилин. Ці 10 хвилин і є інтервал.
P-значення (p-values): допомагають оцінити, наскільки спостережуваний ефект міг виникнути випадково. Наприклад, якщо після нової дієти ви схудли, а p-value дорівнює 0.05, це означає, що є 5% шанс, що ви скинули вагу випадково, а не завдяки дієті.
Типи помилок у тестах (Type I та II): хибнопозитивні vs хибнонегативні висновки. Наприклад, помилка I роду — сигналізація волає без злодіїв; помилка II роду — злодії увійшли, а вона мовчить.
Кореляція vs причинність: дві речі можуть бути пов’язані, але одна не обов’язково викликає іншу. Наприклад, діти з великою ногою краще пишуть диктанти не через взуття, а тому що вони старші.
Прокляття розмірності (curse of dimensionality): занадто багато ознак може погіршити результати моделі. Наприклад, ви шукаєте схожі квартири для оцінки вартості. За одним параметром (площа) легко знайти 10 схожих у базі з 1000. Додайте поверх — потрібно вже 10 000 квартир. Додайте район, рік побудови, матеріал стін — і для надійного порівняння знадобляться мільйони записів, яких просто не існує.