Bones,
He fet un scraping de la web del nomenclàtor extraient tots els topònims que tenen, i ho he bolcat en un fitxer JSON (2.2Mb), després de netejar una mica les dades. El format de cadascú és el següent:
{
"id": 5056,
"is_in": "Tunísia",
"name:ca": [
"Parc Nacional Ichkeul"
],
"name": [
"Ichkeul National Park",
"المحمية الوطنية إشكل"
],
"entity_type": "Patrimoni de la UNESCO",
"latitude": "37.1330688824",
"longitude": "9.65095208206",
"url": "https://nomenclator-mundial.iec.cat/info.asp?id=5056"
},
correspon bàsicament a aquest bloc:
name i name:ca són arrays perquè el nom original pot tenir noms en diferents idiomes/alfabets, o tenir els noms separats per un punt i coma o una barra.
El camp entity_type és bastant útil perquè pot classificar els diferents tipus de toponímies (nuclis, entitats administratives, rius, muntanyes, mars, etc…). A més s’inclouen les coordenades i l’url de la font.
Ara bé, aquest forum no deixa pujar fitxers, com considereu que es millor compartir-ho? Compte que és força gran, IMO, OSM-Catalan potser un candidat, o el web osmcatala.cat, o directamente un maproulette.
Què hi penseu? Digueu-me i us ho passo
