Определить рыночную стоимость автомобиля пользователя.
- Baseline: 4594.845324
- RMSE лучшей модели: 1622.041037
Предскзаание модели в 2.83 точнее в сравненни со средним.
Решил задачу регрессии.
- pandas
- matplotlib
- sklearn
- catboost
Можно улучшить
- Можно восстановить данные для моделей датированых 1910 и 1000 годом. Нужно подтвердить гипотезу что записи с моделями автомобилей этих лет выппущены в 2010 и 2000 году соответственно
- PostalCode - хороший признак в который можно углубиться. От региона может зависить стоимость автомобиля, но приведение этого признака к пригодному для использования виду это отдельный проект
- Для восстановления признаков Model, Gearbox, FuelType, VehicleType, RegistrationYear можно обучить модель. Берем строки где не задан признак Model, обучаем модель на признаках Brand, Gearbox, FuelType, VehicleType, RegistrationYear.
По задаче в целом
- Данные которым нельзя доверять
- Есть пространство для генерации фич