Skip to content

Latest commit

 

History

History
32 lines (26 loc) · 3.14 KB

README.md

File metadata and controls

32 lines (26 loc) · 3.14 KB

Нейросетевой подход к моделированию карточных транзакций [habr] [youtube]

Официально соревнование закончилось, но вы всегда можете проверить качество своего подхода, сделав сабмит в песочницу соревнования.

Репозиторий с базовыми решениями ко второй задаче чемпионата.
В рамках чемпионата требуется решить задачу кредитного скоринга только на основании карточных транзакций клиента.

Особенности датасета:

  1. Огромный объем: 1.5m объектов, 450m строк данных, 6gb данных.
  2. Максимальная детализация данных: 19 признаков на каждую транзакцию, пользовательская история глубиной в год (до 8к транзакций на клиента).

Структура репозитория:

baseline_boosting - решение на основание градиентного бустинга
|-- baseline.ipynb(0.737 AUC ROC Public LB) - ноутбук с решением задачи
|-- features.py - методы для генерации признаков

rnn_baseline - решение на основе рекуррентных нейронных сетей
|-- baseline - папка с бейзлайнами (0.750 AUC ROC Public LB)
    |-- pytorch_baseline.ipynb - решение с использованием torch
    |-- tf_baseline.ipynb - решение с использованием tensorfow

|-- advanced_baseline - папка с улучшенными бейзлайнами (0.760 AUC ROC Public LB)
    |-- pytorch_baseline.ipynb - решение с использованием torch
    |-- tf_baseline.ipynb - решение с использованием tensorfow

|-- constants - папка с полезными константами для препроцессинга
|-- data_generators.py - содержит функционал для генерации батчей
|-- dataset_preprocessing_utils.py - методы для препроцессинга транзакционных данных
|-- pytorch_training.py - методы обучения, валидации и инференса модели на torch
|-- tf_training.py - методы обучения, валидации и инференса модели на tensorflow
|-- training_aux.py - реализация early_stopping-а

utils.py - методы для пакетного чтения и предобработки данных