Skip to content

arseny239/stroke

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

14 Commits
 
 
 
 

Repository files navigation

В данном проекте необходимо предсказать инсульт у пациента по клиническим признакам из датасета Kaggle

Используется датасет с 11 клиническими признаками. Необходимо по 10 признакам спрогнозировать, существует ли опасность возникновения инсульта.

Ссылка на датасет Kaggle: https://www.kaggle.com/datasets/fedesoriano/stroke-prediction-dataset

Ссылка на Google Colab: https://colab.research.google.com/drive/1b9HM0FvU7LKdybtL9VO1uB3ZaIJnpaym?usp=sharing

Возникшие вопросы:

  • Правильно ли удалять выбросы в данном конкретном случае (если исходить из того, что они НЕ являются ошибочными) ? Ведь если мы говорим о предсказании инсульта, то он наиболее вероятен у людей с аномально высоким давлением, например.
  • Анализ количственных признаков показывает, что они не распределены нормально даже близко. На гауссиану совсем не похоже. Не может ли это свидетельствовать о том, что данные искусственные, липовые?
  • Если категориальный признак закодирован с помощью dummy-признаков, можно ли удалять один из них, если мы сочтем что он нерелевантен? Или только все вместе?
  • Наблюдается связь параметра age (возраст) с такими параметрами, как давление, наличие сердечно-сосудистых заболеваний, и т.п. Как быть в такой ситуации? С одной стороны, вроде бы правильно удалить либо возраст, либо почти все остальные параметры. С другой стороны, тогда фактически останется один возраст...
  • вправе ли мы использовать точечно-бисериальный коэффициент для расчета корреляции между числовым и категориальным признаками, если у числового признака распределение не нормально?
  • при использовании метода ближайших соседей надо ли как-то преобразовывать категориальные признаки вида "0/1" ?

About

No description, website, or topics provided.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published