минутка аналитики
Титаник. Семейственность.
Барев!
Продолжаем разбираться с датасетом про выживание на Титанике с помощью SQL.
В этот раз посмотрим на загадочные признаки sibsp и parch.
Не сразу, но мы поняли, что один про горизонтальное направление в генеалогическом дереве, второй - про вертикальное.
По вертикали идут родители и дети - parents and children. По горизонтали - siblings (братья и сёстры) и spouses (жёны/мужья).
Как же написать запрос, который даст нам достаточное количество информации про новые признаки?
Первый большой блок - SELECT. В нём говорим, что нас интересует значение признака sibsp, через запятую - средняя выживаемость для данного значения признака. Ещё через запятую - размер группы (количество пассажиров с именно таким количеством братьев и сестёр в поездке).
Дальше нужно не забыть сказать, откуда берём данные. Из таблицы train. Так что: FROM train
Очень важная вещь: собираем пассажиров в маленькие кучки, так чтобы у всех пассажиров в кучке было одинаковое количество сестёр+братьев+супругов. GROUP BY sibsp
Последний блок - для удобства. Пусть у нас сверху вниз растёт значение sibsp. ORDER BY sibsp
То же делаем про родителей с детьми.
Что можно заметить, разглядывая получившиеся таблички?
Похоже, признаки хорошие. В выделенных группах выживаемость получается разной.
Остаётся вопрос. А как же со всей "ромашкой" целиком? Что будет, если посчитать размер всей семьи пассажира несчастного судна? Об этом - в следующих сериях нашего сериала.
#education #junior #analytics

