chartes / dico-topo Goto Github PK
View Code? Open in Web Editor NEWVolumes des Dictionnaires topographiques de la France en XML
Volumes des Dictionnaires topographiques de la France en XML
Je me suis permis de vérifier le référentiel en base pour le site web qui doit faire le lien entre les données de GEOFLAG, celle des XML et les informations de Camille Burette. Elle semble indiqué qu'elle a travaillé avec les données geoflag de 2011 et après vérification sur le site web et tout particulièrement sur les communes qui ont fusionné après 2016. Les communes reconnus étaient celle de 2011 et chaque commune était différencié au niveau des codes INSEE.
Cf.exemple : https://github.com/chartes/dico-topo/blob/master/data/DT02/DT02.xml
`
`
Autrefois seigneurie vassale de Montmirail. — La Celle dépendait des doyenné, archidiaconé, élection, subdélégation, prévôté et baill. de Sézanne, de l’intendance de Châlons et du dioc. de Troyes.
Elles sont entré de cette manière dans le code xml et suivent donc les configurations des données de 2011. Ils ont fusionnée en 2016 pour donner naissance à la commune de Dhuys et Morin-en-Brie et qui a le même code INSEE que la commune de Marchais.
Le problème est que sur le site les communes Fontenelle et Celle ne sont pas retrouvé sur la carte :
https://dicotopo.cths.fr/placenames/DT02-02355
https://dicotopo.cths.fr/placenames/DT02-01126
Donc j'ai peur que la carte du site utilise les données de 2018 alors que le travail réalisé par Camille Burette suit l'encodage INSEE de 2011.
Et le fichier communes-linking.py qui créé une partie de la base semble utiliser les informations de 2018 aussi comme on peut le voir avec la ligne :
28103 ark:/12148/cb15254034h
Elle référencie la ville de https://catalogue.bnf.fr/ark:/12148/cb15254034h qui a été créer en 2018.
Il est donc probable qu'il y ait un problème de compatibiltié entre le travail de Camille Burette et l'encodage du site mais cela mérite vérification plus profonde.
DT | Liage des vedettes commune | Liage des communes citées en localisation | Identification des localisations ambiguës | Injection XML validée |
---|---|---|---|---|
fichier | DTxx_liageINSEE_article-commune.ods |
DTxx_liageINSEE_localisation-commune.ods |
DTxx_liageINSEE_localisation-commune-desambiguisation.ods |
enrichissement_xml_dt branch |
DT01 | x | x | x | x |
DT02 | x | x | x | x |
DT05 | x | x | x | x |
DT07 | x | x | x | x |
DT10 | x | x | x | x |
DT11 | x | x | x | x |
DT14 | x | x | x | x |
DT15 | x | x | x | x |
DT18 | x | x | x | x |
DT21 | x | x | x | x |
DT22 | x | |||
DT23 | x | x | x | x |
DT24 | x | x | x | x |
DT26 | x | x | x | x |
DT27 | x | x | x | x |
DT28 | x | x | x | x |
DT30 | x | x | x | x |
DT34 | x | x | x | x |
DT36 | x | x | x | x |
DT37 | x | x | ||
DT41 | x | x | x | x |
DT42 | x | x | x | x |
DT43 | x | x | x | x |
DT44 | x | x | x | x |
DT51 | x | x | x | x |
DT52 | x | x | x | x |
DT53 | ||||
DT54 | x | x | x | x |
DT55 | x | x | x | x |
DT56 | x | x | x | x |
DT57 | x | x | x | x |
DT58 | x | x | x | x |
DT60 | x | x | x | x |
DT62 | x | x | x | x |
DT64 | x | x | x | x |
DT65 | x | x | x | |
DT68 | x | x | x | x |
DT71 | x | x | x | x |
DT72 | x | x | x | x |
DT73 | x | x | ||
DT76 | x | x | x | x |
DT77 | x | x | x | x |
DT79 | x | x | x | x |
DT80 | x | x | x | x |
DT86 | x | x | x | x |
DT88 | x | x | x | x |
DT89 | x | x | x | x |
L’indentification automatique des communes des localisations échoue à environ 10%.
TODO : lever les codes erreurs et renseigner dans la mesure du possible @insee
.
Erreurs
article_not_found
: le renvoi ne correspond à aucune vedettecommune_is_empty
: la balise commune est videinsee_not_found
: la vedette n’a pas de code inseetoo_many_insee_codes
: localisation correspondant à plusieurs vedettesdéfinition | PO_t7.xml | PO_t8.xml | PO_t9.xml | TOTAL | |
---|---|---|---|---|---|
article |
une notice de lieu | 4292 | 2546 | 5396 | 12234 |
vedette |
les labels du lieu | 4292 | 2546 | 5396 | 12234 |
vedette/i |
4866 | 2955 | 5907 | 13728 | |
//i[not(ancestor::vedette)] |
139 | 260 | 222 | 621 | |
localisationpa |
pays de localisation | 804 | 5 | 0 | 809 |
localisationde |
dpt de localisation | 3433 | 2446 | 5339 | 11218 |
localisationca |
canton de localisation | 3838 | 2122 | 5270 | 11230 |
localisationco |
commune de localisation | 812 | 1083 | 1844 | 3739 |
localisation |
localisation, divers | 990 | 197 | 351 | 1538 |
forme_ancienne |
forme ancienne et attestation(s) | 9073 | 4512 | 9953 | 23538 |
fa |
forme ancienne | 9073 | 4512 | 9952 | 23537 |
reference |
ref biblio de la forme ancienne | 12883 | 7018 | 12626 | 32527 |
i |
italique | 5017 | 3261 | 6150 | 14428 |
sup |
exposant | 4650 | 3206 | 7506 | 15362 |
//sup[not(ancestor::localisationca)][not(ancestor::localisationco)] |
405 | 11 | 392 | 808 | |
sm |
petites caps | 16174 | 8687 | 16602 | 41463 |
renvoi |
renvoi à un article | 10 | 11 | 226 | 247 |
compl |
? | 1129 | 866 | 1100 | 3095 |
x |
incertitude ? | 227 | 626 | 384 | 1237 |
y |
quadratin de la première forme ancienne | 75 | 245 | 420 | 740 |
z |
forme ancienne restituée ? | 74 | 244 | 403 | 721 |
Par commodité, ajout de la pagination de chaque article dans article/@pg
.
Les balises i
rendent difficile l’extraction des vedettes :
PO7-00004
: <vedette><i>Abbaye</i> (<i>l’</i>)</vedette>
PO7-03995
: <vedette><i>Vauffelin</i>, en all. <i>Füglisthal</i></vedette>
PO7-00053
: <vedette><i>Alby</i> ou <i>Alby-sur-Chéran</i></vedette>
PO7-02803
: <vedette><i>Réchésy</i>, en all. <i>Röschlach</i> ou <i>Röschli</i></vedette>
Pire :
PO7-00461
: <vedette><i>Bonhomme</i> (<i>le</i>), en all. <i>Diedolshausen</i></vedette>
PO7-00662
: <vedette><i>Chaffal</i> (<i>le</i>), auj. <i>l’Escoulin</i></vedette>
Des exemples dans DT02 :
DT02-00003
: <vedette><sm>Abbaye (L’),</sm></vedette>
DT02-00014
: <vedette><sm>Abonval</sm> ou <sm>Ploisy,</sm></vedette>
DT02-00944
: <vedette><sm>Buisson (Le)</sm> ou <sm>Montabaudière,</sm></vedette>
Je propose de standardiser en suivant le modèle précédemment adopté :
PO7-00004
: <vedette><sm>Abbaye (l’)</sm></vedette>
PO7-03995
: <vedette><sm>Vauffelin</sm>, en all. <sm>Füglisthal</sm></vedette>
PO7-00053
: <vedette><sm>Alby</sm> ou <sm>Alby-sur-Chéran</sm></vedette>
PO7-02803
: <vedette><sm>Réchésy</sm>, en all. <sm>Röschlach</sm> ou <sm>Röschli</sm></vedette>
PO7-00461
: <vedette><sm>Bonhomme (le)</sm>, en all. <sm>Diedolshausen</sm></vedette>
PO7-00662
: <vedette><sm>Chaffal (le)</sm>, auj. <sm>Escoulin (l’)</sm></vedette>
Qu’en dites-vous ? Pas si trivial… cf PO7-00662
.
La localisation est spécifiée dans un élément dédié pour chaque échelon administratif (très pratique), même si les valeurs peuvent être mal standardisées.
Le schéma diffère fortement sur ce point des DT. Je proposerais de réviser ce modèle. Par exemple :
<article old-id="PO7-02698" pg="649">
<vedette><i>Pont-du-Doux</i></vedette>
<localisationde>Ardèche</localisationde>
<localisationca>c<sup>on</sup> de Tournon</localisationca>
<localisationco>c<sup>ne</sup> de Saint-Barthélemy-le-Plein</localisationco>
…
</article>
deviendrait (à revoir, pas top, cf segmentation de la commune – il faut analyser l’ensemble des balises).
<article old-id="PO7-02698" pg="649">
<vedette><i>Pont-du-Doux</i></vedette>
<definition>
<localisation>
<departement>Ardèche</departement>
<canton>canton de Tournon</canton>
<commune precision="approximatif" insee="07217">commune de Saint-Barthélemy-le-Plein</commune>
<!-- 'Saint-Barthélémy-le-Plain' dans le COG 2011 -->
</localisation>
</definition>
…
</article>
localisationpa
Unique pays de localisation, si PAS la France : Allemagne, Asie mineure, Italie, Palestine, Suisse
Un seul article avec localisationpa
ET localisationde
:
PO7-01969
: pa = 'Suisse' / de = 'Haut-Rhin'.210 articles sans localisationpa
NI localisationde
(//article[not(localisationde)][not(localisationpa)]
) :
localisationde
(Ancien) Département de localisation.
2 articles avec 2 départements de localisation :
PO7-02695
: Isère + SavoiePO8-02447
: Bouches-du-Rhône + VarListe étendue des valeurs possibles… Il va falloir normaliser les valeurs dans le code utile au liage :
localisationco
Canton de localisation.
Analyser intérêt.
localisationco
Commune de localisation.
3 articles avec plusieurs communes de localisation :
PO7-02635
: Arnavon + Saint-FerréolPO7-02932
: Saint-Saphorin + ChardonnePO9-04206
: Viala-du-Tarn + Saint-Rome-de-Tarnlocalisation
Localisation indéfinie.
Par exemple :
PO8-00098
: <localisation>arr<sup>t</sup> de Grasse</localisation>
TODO: analyser
Une forme (fa
) + sa ou ses référence(s) (reference
).
fa
Contient la forme ancienne.
621 i
hors vedette, par exemple :
PO7-00180
: <forme_ancienne><fa>Assinetz</fa>, <reference>304 var. <i>b</i></reference>.</forme_ancienne>
PO7-01190
: <compl>, localité disparue près de <i>Beauchastel</i></compl>
PO7-02550
: <renvoi>Voir <i>Saint-Sylvestre</i>.</renvoi>
D’accord pour conserver.
405 sup
hors localisationca
et localisationco
. – souvent des abréviations.
TODO: analyser
Peut-on normaliser les renvois comme dans les DT et les insérer dans un commentaire ?
DT02-04296
: <renvoi>— Voy. <sm>Montreuil.</sm></renvoi>
<renvoi>Voir <i>Saint-Sylvestre</i>.</renvoi>
(PO7-02550
) deviendrait :
<commentaire>
<p><renvoi>Voir <sm>Saint-Sylvestre</sm></renvoi>.</p>
</commentaire>
compl
?
x
Souvent de la ponctuation : incertitudes de saisie ?
y
Des quadratins ajoutés devant la première forme ancienne d’un article ? Supprimer ?
z
Dans fa
: restitution d’une forme ancienne ?
Ajout de DT15 par @CamilleArchives dans la branche ajout_element_commune
.
Très nombreux problèmes de validation sur ce DT15 à reprendre sur la branche master
.
TODO: dresser la liste des valeurs de typologie
et déterminer si on peut normaliser et réduire cette liste. Inscrire alors la valeur correspondante dans typologie/@ft
(pour feature type).
Exemple
<typologie>étang de 22 hectares</typologie>
deviendrait
<typologie ft="etang">étang de 22 hectares</typologie>
DT | Nombre d'articles | Nombre de commune | Code INSEE invalide | Attribut type invalide | Manque balise INSEE | Article liée | Balise commune sans attribut insee | Attribut insee vide | Attribut insee invalide | Pourcentage d'article lié |
---|---|---|---|---|---|---|---|---|---|---|
DT01_Etape2 | 11268 | 458 | 0 | 0 | 0 | 9864 | 0 | 0 | 0 | 87.5 |
DT01_Etape3 | 11268 | 458 | 0 | 0 | 0 | 10420 | 0 | 0 | 0 | 92.5 |
DT02_Etape2 | 6301 | 835 | 0 | 0 | 0 | 6195 | 0 | 0 | 0 | 98.3 |
DT02_Etape3 | 6301 | 835 | 0 | 0 | 0 | 6222 | 0 | 0 | 0 | 98.7 |
DT05_Etape2 | 9661 | 189 | 0 | 0 | 0 | 9582 | 14 | 0 | 0 | 99.2 |
DT05_Etape3 | 9661 | 189 | 0 | 0 | 0 | 9580 | 0 | 0 | 0 | 99.2 |
DT07_Etape2 | 16127 | 351 | 0 | 0 | 0 | 16113 | 0 | 0 | 0 | 99.9 |
DT07-Etape3 | 16127 | 351 | 0 | 0 | 0 | 16118 | 0 | 0 | 0 | 99.9 |
DT10_Etape2 | 3710 | 448 | 0 | 0 | 0 | 3192 | 10 | 1 | 1 | 86.1 |
DT10_Etape3 | 3710 | 448 | 0 | 0 | 0 | 3217 | 0 | 0 | 0 | 90.3 |
DT11_Etape2 | 14816 | 441 | 0 | 0 | 0 | 14501 | 101 | 0 | 0 | 97.8 |
DT11_Etape3 | 14816 | 441 | 0 | 0 | 0 | 14611 | 0 | 0 | 0 | 98.6 |
DT14_Etape2 | 15318 | 772 | 0 | 0 | 0 | 14986 | 0 | 0 | 0 | 97.6 |
DT14_Etape3 | 15318 | 774 | 0 | 0 | 0 | 14986 | 0 | 0 | 0 | 97.8 |
DT15_Etape2 | 16596 | 269 | 0 | 0 | 0 | 16484 | 0 | 0 | 0 | 99.3 |
DT15_Etape3 | 16596 | 269 | 0 | 0 | 0 | 16499 | 0 | 0 | 0 | 99.4 |
DT18_Etape2 | 15716 | 294 | 0 | 0 | 0 | 15488 | 8 | 0 | 0 | 98.5 |
DT18_Etape3 | 15716 | 294 | 0 | 0 | 0 | 15496 | 0 | 0 | 0 | 98.6 |
DT21_Etape2 | 7560 | 719 | 0 | 0 | 0 | 7191 | 0 | 0 | 0 | 95.1 |
DT21_Etape3 | 7560 | 719 | 0 | 0 | 0 | 7267 | 0 | 0 | 0 | 96.1 |
DT23_Etape2 | 23704 | 269 | 1 | 0 | 0 | 22128 | 1 | 0 | 0 | 93.4 |
DT23_Etape3 | 23704 | 269 | 0 | 0 | 0 | 22586 | 0 | 0 | 0 | 95.3 |
DT24_Etape2 | 18550 | 650 | 0 | 0 | 0 | 17514 | 0 | 0 | 0 | 94.4 |
DT24_Etape3 | 18550 | 650 | 0 | 0 | 0 | 17580 | 0 | 0 | 0 | 94.8 |
DT26_Etape2 | 12385 | 382 | 0 | 0 | 0 | 12327 | 0 | 0 | 0 | 99.5 |
DT26_Etape3 | 12385 | 382 | 0 | 0 | 0 | 12330 | 0 | 0 | 0 | 99.6 |
DT27_Etape2 | 11628 | 870 | 0 | 0 | 0 | 10425 | 0 | 0 | 0 | 89.0 |
DT27_Etape3 | 11628 | 871 | 0 | 0 | 0 | 10512 | 0 | 0 | 0 | 90.4 |
DT28_Etape2 | 7263 | 425 | 0 | 0 | 0 | 7226 | 0 | 0 | 0 | 99.5 |
DT28_Etape3 | 7263 | 425 | 0 | 0 | 0 | 7234 | 0 | 0 | 0 | 99.6 |
DT30_Etape2 | 7412 | 374 | 0 | 0 | 0 | 7237 | 0 | 0 | 0 | 97.6 |
DT30_Etape3 | 7412 | 374 | 0 | 0 | 0 | 7254 | 0 | 0 | 0 | 97.9 |
DT34_Etape2 | 6482 | 346 | 0 | 0 | 0 | 5632 | 0 | 0 | 0 | 86.9 |
DT34_Etape3 | 6482 | 346 | 0 | 0 | 0 | 5652 | 0 | 0 | 0 | 87.2 |
DT36_Etape2 | 8406 | 244 | 0 | 0 | 0 | 8228 | 0 | 0 | 0 | 97.9 |
DT36_Etape3 | 8406 | 244 | 0 | 0 | 0 | 8296 | 0 | 0 | 0 | 98.7 |
DT41_Etape2 | 324 | 295 | 0 | 0 | 0 | 321 | 0 | 0 | 0 | 99.1 |
DT41_Etape3 | 324 | 295 | 0 | 0 | 0 | 321 | 0 | 0 | 0 | 99.1 |
DT42_Etape2 | 12613 | 337 | 0 | 0 | 0 | 11344 | 0 | 0 | 0 | 89.9 |
DT42_Etape3 | 12613 | 337 | 0 | 0 | 0 | 11381 | 0 | 0 | 0 | 90.2 |
DT43_Etape2 | 9269 | 262 | 0 | 0 | 0 | 9241 | 0 | 0 | 0 | 99.7 |
DT43_Etape3 | 9269 | 262 | 0 | 0 | 0 | 9258 | 0 | 0 | 0 | 99.9 |
DT44_Etape2 | 20577 | 218 | 0 | 0 | 0 | 20410 | 4 | 0 | 0 | 99.2 |
DT44_Etape3 | 20577 | 218 | 0 | 0 | 0 | 20491 | 4 | 0 | 0 | 99.6 |
DT51_Etape2 | 6626 | 660 | 0 | 0 | 0 | 6167 | 0 | 0 | 0 | 93.1 |
DT51_Etape3 | 6626 | 660 | 0 | 0 | 0 | 6274 | 0 | 0 | 0 | 94.7 |
DT52_Etape2 | 4139 | 550 | 0 | 0 | 0 | 3986 | 0 | 0 | 0 | 96.3 |
DT52_Etape3 | 4139 | 550 | 0 | 0 | 0 | 4061 | 0 | 0 | 0 | 98.1 |
DT54_Etape2 | 3926 | 735 | 0 | 0 | 0 | 3507 | 0 | 0 | 0 | 89.3 |
DT54_Etape3 | 3926 | 735 | 0 | 0 | 0 | 3740 | 0 | 0 | 0 | 95.3 |
DT55_Etape2 | 6079 | 588 | 0 | 0 | 0 | 5674 | 0 | 0 | 0 | 93.3 |
DT55_Etape3 | 6079 | 589 | 0 | 0 | 0 | 5976 | 0 | 0 | 0 | 98.3 |
DT56_Etape2 | 20742 | 242 | 0 | 0 | 0 | 20011 | 0 | 0 | 0 | 96.4 |
DT56_Etape3 | 20742 | 242 | 0 | 0 | 0 | 20292 | 0 | 0 | 0 | 97.8 |
DT57_Etape2 | 3662 | 636 | 0 | 0 | 0 | 2782 | 0 | 0 | 0 | 75.9 |
DT57_Etape3 | 3662 | 625 | 0 | 0 | 0 | 2906 | 0 | 0 | 0 | 79.4 |
DT58_Etape2 | 9276 | 316 | 0 | 0 | 0 | 8522 | 45 | 0 | 0 | 91.9 |
DT58_Etape3 | 9276 | 317 | 0 | 0 | 0 | 8568 | 0 | 0 | 0 | 92.4 |
DT60_Etape2 | 3863 | 698 | 0 | 0 | 0 | 3749 | 12 | 1 | 1 | 97.0 |
DT60_Etape3 | 3863 | 698 | 0 | 0 | 0 | 3807 | 0 | 0 | 0 | 98.6 |
DT62_Etape2 | 10667 | 903 | 0 | 0 | 0 | 10232 | 0 | 0 | 0 | 95.9 |
DT62_Etape3 | 10667 | 903 | 0 | 0 | 0 | 10450 | 0 | 0 | 16 | 98.0 |
DT64_Etape2 | 5799 | 560 | 0 | 0 | 0 | 5657 | 0 | 0 | 0 | 97.5 |
DT64_Etape3 | 5799 | 560 | 0 | 0 | 0 | 5743 | 203 | 0 | 0 | 99.0 |
DT65_Etape2 | 6277 | 480 | 0 | 0 | 0 | 5578 | 0 | 0 | 0 | 88.9 |
DT65_Etape3 | 6277 | 480 | 0 | 0 | 0 | 5992 | 0 | 0 | 0 | 95.5 |
DT68_Etape2 | 9247 | 497 | 0 | 1 | 1 | 8214 | 0 | 0 | 0 | 88.8 |
DT68_Etape3 | 9247 | 497 | 0 | 0 | 0 | 8872 | 0 | 0 | 0 | 95.9 |
DT71_Etape2 | 20208 | 573 | 0 | 0 | 0 | 20087 | 5 | 0 | 0 | 99.4 |
DT71_Etape3 | 20208 | 573 | 0 | 0 | 0 | 20154 | 4 | 0 | 0 | 99.7 |
DT72_Etape2 | 49114 | 393 | 0 | 0 | 0 | 45421 | 236 | 0 | 0 | 92.5 |
DT72_Etape3 | 49114 | 393 | 0 | 0 | 0 | 46588 | 0 | 0 | 0 | 94.9 |
DT73_Etape2 | 9709 | 329 | 0 | 0 | 0 | 9150 | 0 | 0 | 0 | 94.24 |
DT76_Etape2 | 31048 | 826 | 0 | 0 | 0 | 29597 | 0 | 0 | 0 | 95.3 |
DT76_Etape3 | 31048 | 826 | 0 | 0 | 0 | 30106 | 0 | 0 | 0 | 97.0 |
DT77_Etape2 | 17402 | 541 | 0 | 0 | 0 | 16775 | 0 | 1 | 1 | 96.4 |
DT77_Etape3 | 17402 | 541 | 0 | 0 | 0 | 17242 | 0 | 0 | 0 | 99.1 |
DT79_Etape2 | 11651 | 359 | 0 | 0 | 0 | 11395 | 30 | 0 | 0 | 97.8 |
DT79_Etape3 | 11651 | 359 | 0 | 0 | 0 | 11502 | 0 | 0 | 0 | 98.7 |
DT80_Etape2 | 5379 | 831 | 0 | 1 | 0 | 4060 | 0 | 0 | 0 | 75.5 |
DT80_Etape3 | 5379 | 831 | 0 | 0 | 0 | 5234 | 0 | 0 | 0 | 97.3 |
DT86_Etape2 | 11968 | 293 | 0 | 0 | 0 | 11741 | 44 | 0 | 0 | 98.1 |
DT86_Etape3 | 11968 | 293 | 0 | 0 | 0 | 11907 | 0 | 0 | 0 | 99.5 |
DT88_Etape2 | 17258 | 536 | 0 | 0 | 0 | 16770 | 32 | 0 | 0 | 97.1 |
DT88_Etape3 | 17258 | 536 | 0 | 0 | 0 | 17025 | 13 | 0 | 0 | 98.6 |
DT89_Etape2 | 5550 | 482 | 0 | 0 | 0 | 5462 | 1 | 0 | 0 | 98.41 |
DT89_Etape3 | 5550 | 482 | 0 | 0 | 0 | 5493 | 1 | 0 | 0 | 98.97 |
Liste des erreurs récurrentes, en prévision d’une campagne de correction.
NB: il faut prévoir de superviser ces corrections.
search | replace |
---|---|
l'village | l’ancien village |
l'cimetière | l’ancien cimetière |
Au cours de l'étape 3, l'ajout de balise commune avec un code insee n'a pas été réalisé car la comparaison des chaînes de caractères entre la colonne du csv et le xml ne pouvait correspondre à cause de modifications effectuées par Python.
Le problème a été corrigè à partir du DT27 car les chaines de caractères ont été strippés, il faut donc reprendre du DT01 au DT26 pour rajouter les balises communes avec les codes insee manquants.
@architexte : peux-tu contrôler les @type inscrits pour les dpts listés en objet. Merci
par ex
<article type="commune" id="DT54-00001" pg="1">
DT62 n’est pas lié au référentiel insee.
TODO:
localisation
(lien code insee si possible)Dans certains volumes, les vedettes sont saisies en majuscules.
sm
!)sm
, ce qui pose problème pour l’injection des données)Des renvois sont inscrits en commentaire des articles.
TODO: renseigner @corresp
sur renvoi
de manière à pointer vers l’identifiant de l’article référencé.
Les informations contenus dans les balises communes des DT doivent correspondre, dans la majorité des cas, aux labels INSEE.
Extraire les contenus des balises communes fautives et évaluer avec SN, OC et VJ quelles sont les balises qui doivent être modifier, supprimer ou conversever.
Messieurs @canteaut @architexte,
Certains cas particuliers trouvés dans la balise localisation
demande une certaine expertise pour savoir ce que je dois faire avec :
Cas des notions cantons, arrondissement qui sont suivi du nom d'une ville doivent-ils être ajouter comme des communes ou non
On trouve aussi régulièrement la notion de "près de" qui peut être suivi de plein de données aussi bien une commune qu'un hameau ou autre donc il semble judicieux que ces données soient contrôlées.
Il existe une ambiguité par rapport au cas qui précise un lieu par un site naturel Il peut s'agir d'un site naturel d'une commune comme Laruns qui est une commune du département :
Gave de Bious (Le), ruisseau qui descend des montagnes de LarunsMais il peut aussi s'agir d'un nom qui ne soit pas lié aux communes :
<article id="DT64-04057" pg="119"> <vedette><sm>Mouscle (La),</sm></vedette> <definition><typologie>ruisseau</typologie> qui sort du <localisation>bois de Mourle</localisation>
Donc il est probable
La commune de la localisation est identifiée par @insee
.
TODO : enrichir localisation/commune
avec @corresp
de manière à pointer vers l’article correspondant à cette commune identifiée par son code insee (@insee
).
Plusieurs localisations, plus ou moins certaines :
Vérifier que tous les articles sont identifiés.
Comprendre sinon pourquoi.
DT | Nombre d'articles | Nombre de commune | Code INSEE invalide | Manque attribut type | Manque balise INSEE | Article liée | Balise commune sans attribut insee | Attribut insee vide | Attribut insee invalide | Pourcentage d'article lié |
---|---|---|---|---|---|---|---|---|---|---|
DT52 | 4139 | 550 | 0 | 0 | 0 | 4061 | 0 | 0 | 0 | 98.1 |
DT56 | 20742 | 242 | 0 | 0 | 0 | 20292 | 0 | 0 | 0 | 97.8 |
A declarative, efficient, and flexible JavaScript library for building user interfaces.
🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.
TypeScript is a superset of JavaScript that compiles to clean JavaScript output.
An Open Source Machine Learning Framework for Everyone
The Web framework for perfectionists with deadlines.
A PHP framework for web artisans
Bring data to life with SVG, Canvas and HTML. 📊📈🎉
JavaScript (JS) is a lightweight interpreted programming language with first-class functions.
Some thing interesting about web. New door for the world.
A server is a program made to process requests and deliver data to clients.
Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.
Some thing interesting about visualization, use data art
Some thing interesting about game, make everyone happy.
We are working to build community through open source technology. NB: members must have two-factor auth.
Open source projects and samples from Microsoft.
Google ❤️ Open Source for everyone.
Alibaba Open Source for everyone
Data-Driven Documents codes.
China tencent open source team.