jpgianfaldoni / mlbugdetection Goto Github PK

View Code? Open in Web Editor NEW

0.0 4.0 1.0 21.16 MB

https://jpgianfaldoni.github.io/MLBugDetection/

Home Page: https://jpgianfaldoni.github.io/MLBugDetection/

License: MIT License

Jupyter Notebook 82.44% Python 17.56%

mlbugdetection's Introduction

MLBugDetection

Machine learning explainability and unexpectated behaviors detection

Overview

Most machine learning explainability packages requires both trained models and the training data to create Explainer objects that explain the model's behavior. This package allows ceteris paribus analysis of features using only the trained model and one or more input samples.

Documentation

https://jpgianfaldoni.github.io/MLBugDetection/

Installation:

pip install mlbugdetection

How to use

Functions

Monotonic:

from mlbugdetection.monotonic import check_monotonicity_single_sample, check_monotonicity_multiple_samples

Usage: For 1 sample

check_monotonicity_single_sample(model, sample, feature, start, stop, step=1)

For more than 1 sample:

check_monotonicity_multiple_samples(model, samples, feature, start, stop, step=1)

Critical Values:

from mlbugdetection.critical_values import find_critical_values, find_several_critical_values

Usage: For 1 sample

find_critical_values(model, sample, feature, start, stop, step=1)

For more than 1 sample:

find_several_critical_values(model, samples, feature, start, stop, step=1, bins=15, keep_n=5, log=False)

Calibration:

from mlbugdetection.calibration import calibration_check

Usage:

calibration_check(model, samples, target, pos_label=1)

Sanity:

from mlbugdetection.sanity import sanity_check, sanity_check_with_indexes

Usage:

sanity_check(model, samples, target)

Same as sanity check, but return the failed indexes

sanity_check_with_indexes(model, samples, target)

Virtual Environment with Jupyter Notebook

python3 -m virtualenv venv
source venv/bin/activate
python -m pip install --upgrade pip
pip install -r requirements.txt

mlbugdetection's People

Contributors

Watchers

Forkers

pfeinsper

mlbugdetection's Issues

Deixar a documentação mais clara em relação ao argumento "step"

A estrutura de pastas do repositório está ruim

Não tem uma pasta para código (src) onde deveriam estar os notebooks.

A pasta artigos e reunioes poderia estar dentro de uma pasta chamada docs, por exemplo.

find_several_critical_values: Mudar o índice do predict proba que está sendo analisado

check_monotonicity: Mudar o índice do predict proba que está sendo analisado

critical_values: Valores de feature range e predict proba estão relacionados de forma invertida

find_critical_values: permitir apenas um caso específico como entrada

check_monotonicity: permitir apenas um caso específico como entrada

monotonic: criar uma nova função para vários casos de uma vez (utilzar a média)

Notebook para criação do modelo usando XGBoost não está no repositório

Ao executar check_monotonicity seria interessante ter uma opção para desabilitar o plot do gráfico

Digamos que o usuário queira executar check_monotonicity para diversos atributos e não queira plotar todos os gráficos, apenas calcular as métricas. Para isso ele teria que ter uma opção para desabilitar o plot do gráfico.

check_monotonicity aceita dataframe sample com row maior que 1?

Testei r = check_monotonicity(model, X_train, 'area_worst', 0, 5000, steps=10000) inde X_train é um dataframe com 5 rows. A função executou sem lançar nenhuma exception.

O plot gerado não me pareceu correto. Não pareceu sumarizar bem o comportamento do atributo levando-se em consideração os diversos exemplos.

Ao executar:

for i in range(0,5):
    row = X_train.loc[i:i]
    r = check_monotonicity(model, row, 'area_worst', 0, 5000, steps=10000)
    print(r.metrics)

temos gráficos com comportamentos diferentes. valores para o eixo Y bem diferentes.

ao executar:

r = check_monotonicity(model, X_train, 'area_worst', 0, 5000, steps=10000)

é criado um gráfico que talvez não sumariza bem a análise.

Colocar o nome do atributo no plot gerado pelo check_monotonicity

O plot gerado pelo check_monotonicity não diz qual atributo está sendo analisado. Sugiro colocar isto no plot.

Exemplo de como está hoje:

sanity_check: retornar o índice dos exemplos que não passarm no teste

find_several_critical_values: retornar os índices dos exemplos que geraram esses casos críticos

critical_values: analisar o retorno em casos de não ter mudanças

existem casos em que não há mudanças positivas ou negativas, porém em alguns casos retornava algum valor mesmo assim. Analisar se esse bug está acontecendo em outros casos

Seria possível sugerir valores de start e stop para a execução de check_monotonicity?

Ao executar check_monotonicity(model, row, attr, start, stop, steps=1000) precisamos saber o valor mínimo e máximo de attr.

Seria possível sugerir valores de start e stop para a execução de check_monotonicity? Assim, o usuário não precisaria se preocupar com a definição destes valores.

Observação: vale lembrar que não temos acesso aos dados de treinamento. Uma instância do modelo carregada via pkl fornece estipo de informação?

Datasets não estão no repositório

Os datasets

full_df = pd.read_csv('Datasets/fraud_new.csv')
df = pd.read_csv('Datasets/fraud.csv')

Não estão no repositório. Não tem como executar os notebooks já existentes e também não tem como criar outros.

calibration_check não consegue fazer a análise com dataframe com y categórico

Ao executar calibration_check(model, df_full, 'diagnosis') onde df_full['diagnosis'] tem valores 'B' ou "M', a função calibration_check(model, df_full, 'diagnosis') retorna o seguinte erro:

ValueError: y_true takes value in {'B', 'M'} and pos_label is not specified: either make y_true take value in {0, 1} or {-1, 1} or pass pos_label explicitly.

Sugiro propagar o atributo pos_label da função brier_score_loss para a função calibration_check.

find_critical_values: Mudar o índice do predict proba que está sendo analisado

Site com objetivo da biblioteca, tutorial e como contribuir

Além do site com a documentação sobre cada função (https://jpgianfaldoni.github.io/MLBugDetection/) fazer um site mais genérico com:

descrição do objetivo da biblioteca;
tutorial com exemplos de como utilizar a biblioteca, e;
informações sobre como contribuir com o projeto (para desenvolvedores).