Минутка аналитики

Гистограммы

Почему, куда не глянь, везде пихают эти странные столбики? Вот, например, в описании датасета на платформе Kaggle.

Для начала - эти странные картинки - гистограммы. По горизонтали - значение величины. По вертикали - сколько раз эта величина встретилась в датасете.

Картинки популярны, так как они с пол пинка позволяют выяснить очень много интересного про набор чисел. Самое простое - минимальное и максимальное значение в наборе. По скриншоту мы видим что passengerId лежит от 1 до 1309, то есть, у нас 1309 пассажиров. Вторая колонка говорит о возрасте - от 0 до 80 лет.

Дальше рассматриваем, какая у картинки форма. Прямоугольник - это значит распределение равномерное. Нет каких-то выделенных значений. Ну и понятно, какие выделеные значения у passengerId, который просто идёт вперёд с шагом 1?

А вот с возрастом уже не так. Младенцев и стариков мало. Молодых людей среднего возраста 27 лет больше. Поэтому видим пик в районе 30. По умному это называется мода - самое частое значение.

Ещё видно, какое у нас распределение - симметричное, или не очень. Возраст явно не симметричен. У распределения - "хвост" вправо. Длинный. Из этого сразу понятно, как между собой будут соотноситься медиана возраста и среднее. Хвост медиану не трогает, а вот среднее оттягивает. Поэтому если у вас величина вроде зарплаты по области, то, кроме среднего, неплохо смотреть и на медиану. Чтобы зарплата декана не перетянула зарплату профессуры.

#education #junior #analytics