Giter VIP home page Giter VIP logo

mmm_tuto's Introduction

Comment utiliser la machine à données

Les fichiers de ce tutoriel:

  • La source contient des informations associées à des lycées: source_tuto.csv
  • La référence est une base de lycées avec leur identifiant unique UAI: ref_tuto.csv

NB: Cliquer sur "raw" puis clique droit et "enregistrer sous" pour récupérer les fichiers...

Upload des deux fichiers et création du projet:

Alt Text

Sélection des colonnes:

Vérifier que le fichier a été correctement uploadé Alt Text

Inférence de types des colonnes:

Elle est optionnelle et peut être passée. Il est possible de corriger les types détectés par la machine. Alt Text

Appariement de colonnes:

Il faut grouper ensemble les colonnes censées correspondre. Dans le cas de ce fichier, il est intéressant de grouper les colonnes:

  • departement avec departement
  • commune avec localite_acheminement_uai
  • lycees_sources avec denomination_principale_uai et patronyme_uai

Alt Text

Labellisation:

Il faut indiquer à la machine les paires qui sont ou ne sont pas des matchs pour qu’elle affine l’algo de matching en cliquant sur “oui” ou “non”. On peut utiliser le bouton “précédent“ pour revenir en arrière. On peut utiliser je ne sais pas quand le cas est ambigu.

Alt Text Alt Text

On peut accélérer la labellisation (au début notamment), en indiquant directement les mots qui importants en cliquant dessus (tous les mots sélectionnés seront recherchés dans la table de référence).

Alt Text

Quand les performances semblent satisfaisantes (après au moins 5 labellisations), on peut passer à l’étape suivante.

Alt Text

Résultats:

On voit pour chaque ligne de la source la correspondance dans le référentiel qui a été trouvée par la machine (ou non). Le bouton vrai/faux permet d’indiquer si le match trouvé est effectivement bon. Certains matchs sont déjà à “faux” car la machine n’a pas une confiance suffisante dans le match proposés. Les matchs à “faux” ne seront pas présents dans le fichier final.

Alt Text

On peut trier les résultats par confiance. Si les résultats ne sont pas satisfaisants on peut revenir à la labellisation ou même changer l’appariement de colonnes. Sinon, on peut télécharger le fichier avec les résultats du matching.

Alt Text

mmm_tuto's People

Contributors

leobouloc avatar

Watchers

 avatar  avatar

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.