---
title:

Концепции статистики для мимокрокодилов

date: 2026-01-22
draft: false
---

https://www.kdnuggets.com/7-statistical-concepts-every-data-scientist-should-master-and-why

Хорошая статья про концепции статистики для мимокрокодилов.

  • Статистическая значимость vs практическая значимость: разница между тем, что результат математически надежный и важный на практике. Например, лекарство снижает температуру на 0.01 градуса — статистически это может быть значимо на миллионе человек, но практически бесполезно.
  • Смещение выборки (sampling bias): когда данные плохо отражают реальную ситуацию и ведут к неверным выводам. Например, опрос о страхе полетов в аэропорту — вы не услышите тех, кто так боится, что остался дома.
  • Доверительные интервалы (confidence intervals): вместо одной цифры — диапазон, где, скорее всего, находится истинное значение. Например, навигатор обещает приезд в 18:00 ± 5 минут. Эти 10 минут и есть интервал.
  • P-значения (p-values): помогают оценить, насколько наблюдаемый эффект мог возникнуть случайно. Например, если после новой диеты вы похудели, а p-value равно 0.05, это значит, что есть 5% шанс, что вы сбросили вес случайно, а не благодаря диете.
  • Типы ошибок в тестах (Type I и II): ложно положительные vs ложно отрицательные выводы. Например, ошибка I рода — сигнализация орет без воров; ошибка II рода — воры вошли, а она молчит.
  • Корреляция vs причинность: две вещи могут быть связаны, но одна не обязательно вызывает другую. Например, дети с большой ногой лучше пишут диктанты не из-за обуви, а потому что они старше.
  • Проклятие размерности (curse of dimensionality): слишком много признаков может ухудшить результаты модели. Например, вы ищете похожие квартиры для оценки стоимости. По одному параметру (площадь) легко найти 10 похожих в базе из 1000. Добавьте этаж — нужно уже 10 000 квартир. Добавьте район, год постройки, материал стен — и для надёжного сравнения понадобятся миллионы записей, которых просто не существует.