Import av namn frå SSR, der kommunen allereie har mange namn

Importfilene her er dedupliserte mot namn som allereie er importert direkte frå SSR.

Men, dei er inneheld framleis mange namn som allereie er i OSM. Dette gjer dei vanskelege å gjera seg nytte av i kommunar som allereie har god dekking av namn.

Kunne det vera mogleg å laga filtrerte versjonar av desse filene, der namn som allereie er i OSM er fjerna?

Ein så enkel ting som at eksakt like namn mellom alle name-taggar i ein kommune i OSM, og dei tilsvarande namna i SSR er fjerna vil fungera godt til midt bruk med å “tetta hol”.
Sjølvsagt vil det vera nokre falske positiv, som at ei “stormyra” i OSM i ein ende av kommunen blir matcha mot “stormyra” i SSR i ein annan ende, og derfor ikkje blir med i fila, men til slike ting har ein jo fullversjonen til.

Importfilene i lenken ovenfor er “bruttofiler”, dvs. de tar ikke hensyn til hva som er importert til OSM tidligere. Men det er markert der hvilke stedsnavn som er duplikater allerede i SSR (dvs i filen), innenfor en gitt radius, f.eks. to gårder som har samme navn.

Det er sikkert mulig å lage skript som vasker importfilene mot OSM, men jeg er litt usikker på om det blir en god arbeidsflyt. En av årsakene er forskjellig tagging - f.eks. kan et tettsted, en foss og en gård i nærheten av hverandre ha nøyaktig samme navn. En annen utfordring er små nyanser i skrivemåten som må fanges opp, f.eks. “Toppfjell” vs “Toppfjellet” osv. I tillegg må flere varianter av tillatte men ikke anbefalte skrivemåter for ett og samme sted håndteres.

Det jeg synes fungerer best i praksis er å ta en hel hovedgruppe eller undergruppe om gangen for en kommune, f.eks. vann (innsjøer), og så manuelt flette det som finnes fra før. Da får man lagt inn ssr:stedsnr=* (for å se status senere) og samtidig sjekket skrivemåten.

Se bort fra hovedgruppen “bebyggelse”, den er allerede tatt, selv om prosent fullført i tabellen varierer (stort sett pga duplikater).

Når dette er sagt så tester jeg et skript som fletter fjelltopper, og vurderer et skript som fletter navn på innsjøer. Erfaringsmessig så kan 90% av jobben automatiseres.

1 Like