В данном проекте необходимо предсказать инсульт у пациента по клиническим признакам из датасета Kaggle
Используется датасет с 11 клиническими признаками. Необходимо по 10 признакам спрогнозировать, существует ли опасность возникновения инсульта.
Ссылка на датасет Kaggle: https://www.kaggle.com/datasets/fedesoriano/stroke-prediction-dataset
Ссылка на Google Colab: https://colab.research.google.com/drive/1b9HM0FvU7LKdybtL9VO1uB3ZaIJnpaym?usp=sharing
Возникшие вопросы:
- Правильно ли удалять выбросы в данном конкретном случае (если исходить из того, что они НЕ являются ошибочными) ? Ведь если мы говорим о предсказании инсульта, то он наиболее вероятен у людей с аномально высоким давлением, например.
- Анализ количственных признаков показывает, что они не распределены нормально даже близко. На гауссиану совсем не похоже. Не может ли это свидетельствовать о том, что данные искусственные, липовые?
- Если категориальный признак закодирован с помощью dummy-признаков, можно ли удалять один из них, если мы сочтем что он нерелевантен? Или только все вместе?
- Наблюдается связь параметра age (возраст) с такими параметрами, как давление, наличие сердечно-сосудистых заболеваний, и т.п. Как быть в такой ситуации? С одной стороны, вроде бы правильно удалить либо возраст, либо почти все остальные параметры. С другой стороны, тогда фактически останется один возраст...
- вправе ли мы использовать точечно-бисериальный коэффициент для расчета корреляции между числовым и категориальным признаками, если у числового признака распределение не нормально?
- при использовании метода ближайших соседей надо ли как-то преобразовывать категориальные признаки вида "0/1" ?