минутка аналитики

Титаник. Семейственность.

Барев!

Продолжаем разбираться с датасетом про выживание на Титанике с помощью SQL.

В этот раз посмотрим на загадочные признаки sibsp и parch.

Не сразу, но мы поняли, что один про горизонтальное направление в генеалогическом дереве, второй - про вертикальное.

По вертикали идут родители и дети - parents and children. По горизонтали - siblings (братья и сёстры) и spouses (жёны/мужья).

Как же написать запрос, который даст нам достаточное количество информации про новые признаки?

Первый большой блок - SELECT. В нём говорим, что нас интересует значение признака sibsp, через запятую - средняя выживаемость для данного значения признака. Ещё через запятую - размер группы (количество пассажиров с именно таким количеством братьев и сестёр в поездке).

Дальше нужно не забыть сказать, откуда берём данные. Из таблицы train. Так что: FROM train

Очень важная вещь: собираем пассажиров в маленькие кучки, так чтобы у всех пассажиров в кучке было одинаковое количество сестёр+братьев+супругов. GROUP BY sibsp

Последний блок - для удобства. Пусть у нас сверху вниз растёт значение sibsp. ORDER BY sibsp

То же делаем про родителей с детьми.

Что можно заметить, разглядывая получившиеся таблички?

Похоже, признаки хорошие. В выделенных группах выживаемость получается разной.

Остаётся вопрос. А как же со всей "ромашкой" целиком? Что будет, если посчитать размер всей семьи пассажира несчастного судна? Об этом - в следующих сериях нашего сериала.

#education #junior #analytics