Machine Learning - Predição de Churn no Telecom com modelos supervisionados e não supervisionados

Este projeto consiste no trabalho final de Machine Learning II da trilha de Data Science do Programa Santander Coders 2024.1.

Módulo: Machine Learning II
Instrutor: Prof. Rogério Mainardes
Grupo:
- Gabriel Marques (GitHub / LinkedIn);
- Maria Paula Andrade (GitHub / LinkedIn);

Instalação

Clone o repositório:

git clone https://github.com/marqsleal/ml2-projeto-final

Dependências

Para instalar as dependências do projeto, execute:

pip install -r requirements.txt

Dataset publico predição de Churn por clientes de Telecom disponibilizado pela Maven Analytics

O dataset "Telecom Customer Churn" foi obtido do Kaggle e é disponibilizado pela Maven Analytics. Ele contém informações relacionadas ao comportamento de clientes de uma operadora de telecomunicações, com o objetivo de prever a taxa de churn (cancelamento de serviços). O objetivo principal deste dataset é analisar padrões de comportamento de clientes e desenvolver modelos de machine learning para prever quais clientes têm maior probabilidade de cancelar o serviço.

Abordagem Supervisionada

Para abordagem supervisionada, foram testados os modelos SVM, XGBoost, GradientBoost e AdaBoost, fazendo a validação cruzada com Random Search, integrando à esteira do MLFlow.

O modelo escolhido foi um GradientBoost, devido ao balanço entre o F1-score e Recall, uma vez que focamos no Recall como principal métrica pois mede a proporção de clientes que realmente vão churnar e foram corretamente identificados pelo modelo. Um Recall mais alto é preferível, pois garante que mais churns reais sejam detectados. O F1-score também é uma métrica importante pois é uma média harmônica entre precisão e recall. Ele é útil quando existe um desequilíbrio entre as classes.

Modelo: GradientBoost RandSearch (ID: 36a7f63dcdd94369933a46cff0c0a03b).
Melhores hiper-parâmetros: 'subsample': 0.8, 'n_estimators': 100, 'min_samples_split': 5, 'min_samples_leaf': 4, 'max_depth': 3, 'learning_rate': 0.1.

Name		Name	Last commit message	Last commit date
Latest commit History 13 Commits
assets		assets
datasets		datasets
encoder		encoder
functions		functions
mlartifacts/641201155062328783		mlartifacts/641201155062328783
mlflow/641201155062328783		mlflow/641201155062328783
.gitignore		.gitignore
Projeto - Machine learning II.ipynb		Projeto - Machine learning II.ipynb
README.md		README.md
churn_analisys.ipynb		churn_analisys.ipynb
churn_supervised_model_training.ipynb		churn_supervised_model_training.ipynb
requirements.txt		requirements.txt

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Machine Learning - Predição de Churn no Telecom com modelos supervisionados e não supervisionados

Instalação

Dependências

Dataset publico predição de Churn por clientes de Telecom disponibilizado pela Maven Analytics

Abordagem Supervisionada

About

Releases

Packages

Languages

marqsleal/ml2-projeto-final

Folders and files

Latest commit

History

Repository files navigation

Machine Learning - Predição de Churn no Telecom com modelos supervisionados e não supervisionados

Instalação

Dependências

Dataset publico predição de Churn por clientes de Telecom disponibilizado pela Maven Analytics

Abordagem Supervisionada

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages