Taginfo database: verrassing en verwondering

Een jaar geleden heb ik de taginfo database gedownload om wat onderzoek te doen naar de frequentie waarop bepaalde tags voorkomen, en vooral naar het voorkomen van zeldzame tags. Een verslag daarvan is terug te vinden in deze twee dagboekartikelen: [1][2]

Jochen Topf (de beheerder van de taginfo database) schreef eerder al een interessant artikel waarin hij een procedure voorstelde om het grote aantal tags (key=value paren) die overbodig zijn, te verwijderen. Overbodig doordat ze maar één keer voorkomen (of hooguit een paar keer).

Ik wilde - een jaar later - eens bekijken hoe de situatie nu is.
Eerst even over die database, die is groot: ruim 5 Gb en hij bevat meer dan 81 miljoen records. 7 miljoen meer dan een jaar geleden.
Je kunt op de taginfo site ook al veel informatie vinden, maar ik wilde wat meer details en dan is een download noodzakelijk. De database is in Sqlite formaat en voor alle platforms bestaan goede front-ends. Voor Mac gebruik ik Valentina.

Een jaar geleden waren er 54382 verschillende tags in gebruik, dit jaar zijn dat er 59953 (+10%). De door Jochen Topf nagestreefde vermindering is dus allerminst van de grond gekomen. (*)

Welke tags komen het vaakst voor?

In de volgende tabel zie je de 20 meest voorkomende tags van dit moment (stand 5-8-2016).
Je ziet de key in kolom 1, het aantal keren dat die voorkomt in kolom 2 en kolom 3 laat zien hoeveel mappers die key hebben gebruikt.

Een jaar geleden was de source=* tag de meest gebruikte, nu staat daar dus de building=* tag die 196.733.489 keer wordt gebruikt door 221.523 gebruikers.

In de onderstaande tabel zien we welke tags de meeste gebruikers hebben:

Hier zien we dat de name=* tag de meeste gebruikers kent.

En hoe zit het met de tags die maar één keer voorkomen?
Een jaar geleden kwamen 19037 tags maar één keer voor, vaak een teken dat er sprake is van bv. een tikfout in een veel gebruikte key (Name ipv. name bv.)
Dit jaar was dat aantal opgelopen naar 20608, een toename van 8%, maar geheel zoals kan worden verwacht door de toename van het totaal aantal tags.
Hieronder een tabel met een aantal van die keys die maar één keer voorkomen:

Zoals je kunt zien is de eerste key (ele) een key die gebruikt wordt om de hoogte aan te geven (ele=8848 voor Mount Everest) een voorbeeld van een tikfout, er staat een spatie voor. Maar ook de andere keys zijn ongebruikelijk (met haakjes of alleen uit cijfers bestaand) en er is ook nog een flink aantal keys dat niet in het UK-Engels is gegeven. Een van de voorwaarden om de database internationaal bruikbaar te houden.
Kortom, er staat veel in die database waar terecht een vraagteken bij kunt zetten.
Als je bv. kijkt naar het aantal tags dat hooguit 10 keer voorkomt, dan zie je dat dat ruim 49000 tags (82%) zijn.

Ik was benieuw naar tags die relatief vaak worden gebruikt, maar door maar heel weinig gebruikers, want dan moet er iets aan de hand zijn: waarom een tag heel veel gebruiken die niemand anders gebruikt?
Kijk eens in deze tabel:

Bovenaan staat een key species:ro die 66812 keer wordt gebruikt, maar door maar 10 personen. Waarom?
Als je dat wilt weten, dan moet je op de taginfo site deze key opzoeken en dan de overpass knop gebruiken. Dat leverde me me dit plaatje op:

Wat is daar aan de hand???

Dan maar eens inzoomen:

Het blijkt dat in Boekarest** ruim 66000 (!)** bomen zijn getagd en daarbij voorzien zijn van de Roemeense soortnaam (species:ro=*).
Ik heb in Nederland een paar bomen getagd omdat het echte “landmarks” zijn vanwege hun leeftijd of afmetingen en om die reden een rol (kunnen) spelen bij het oriënteren op de kaart. Maar 66000 bomen in één stad??
Zou het een groep biologen zijn die ook een app heeft geschreven waarmee ze die enorme collectie ook kunnen raadplegen.
(Bij de discussies in dit forum over de markthal in Rotterdam, vroeg iemand zich af (ironisch bedoeld), wanneer we zouden beginnen de boeken in de bibliotheek vast te leggen. Als je dit bomenverhaal ziet, zou ik zeggen: waarom niet morgen beginnen? Er is vast wel iemand die daar later een mooi gebruik van kan maken).

Een andere verrassing.
Op de 4e plaats op het lijstje staat de tag: top_ele, 18373 keer gebruikt door slechts één mapper. Waar is die mee bezig geweest?

Dat is Rio de Janeiro, maar WTF is daar nu weer aan de hand?
Inzoomen dan maar:

Het blijkt dat in Rio bijna 100.000 gebouwen van tags zijn voorzien die de nauwkeurige hoogte van de gebouwen in die stad vastleggen, te weten:
ele=* hoogte boven zeeniveau
height=* hoogte van het gebouw
top_ele=* hoogste punt (som van de eerste 2 waarden).
Als je verder gaat zoeken blijkt er een grote import te hebben plaatsgevonden tbv. van de Olympische spelen waarbij Rio goed 3-dimensionaal op de kaart wordt gezet:

=====

Conclusie.
Twee keer een mooi gebruik van OSM en een les om te beseffen dat alles in die database kan worden vastgelegd, ook als dat niet relevant lijkt voor het directe gebruik of hier en nu.

=====

(*) Weliswaar is door mijn dagboekartikel een aantal mensen geattendeerd op fouten die later zijn verwijderd en er draaien een paar “bots” die structurele fouten (bv. een spatie aan het begin of eind van een key) oplossen, maar de toename is onmiskenbaar.

edit: links naar plaatjes hersteld.

Leuke inzicht, marc, bedankt.

Waarom is er eigenlijk een tag top_ele als deze waarde al volgt uit ele en height ?? Dat hebben die Brazilianen dus niet goed begrepen.

Vermoedelijk is dat makkelijker voor de 3D-renderer, want die hoeft dan niet meer te rekenen…
Maar omdat het kan, en ook omdat er niet wordt gecontroleerd of advies wordt gegeven bij het aanmaken van een nieuwe key, zullen we er mee blijven zitten.
Jammer is ook dat ze geen wiki hebben aangemaakt (zoals wordt geadviseerd als je een nieuwe key maakt) waarin het doel/gebruik van die nieuwe key wordt uitgelegd.
Feitelijk zou iedereen die een nieuwe key aanmaakt, automatisch naar een blanco wiki pagina moeten worden gestuurd die moet worden ingevuld, vóórdat verder kan worden gegaan met het gebruik van die key.

Mijn ervaring met zulke maatregelen is dat men dan maar bestaande tags gaat hergebruiken voor een ander doel en die vervuiling is volgens mij nog erger dan het spontaan ontstaan van nieuwe tags.

Dat zal zeker gebeuren, maar het komt natuurlijk ook voor dat iemand die de key Landuse gebruikt en vervolgens op een wiki-template pagina terechtkomt met het verzoek om deze nieuwe key te omschrijven, zich realiseert dat hij/zij landuse bedoelde en op zijn/haar schreden terugkeert.

Simpeler zou zijn als alle editors automatisch alle tags in lowercase zetten en overbodige spaties wegpoetsen. Heb je veel meer aan in dit soort gevallen.

Wat je beschrijft kan wel werken als iemand ladnuse gebruikt en z’n spelfout hierdoor kan corrigeren. Laat editors voor zelden gebruikte tags en waarden bijvoorbeeld rood kleuren zodat ook dit direct inzichtelijk is dat highway=snelweg niet de gebruikelijke waarde is.