Semi-geautomatiseerdebewerkingsvoorstel: afgeleide website-links voor Kruidvat, Trekpleister, en ICI Paris XL

Zoals al gehint in deze post is het triviaal om voor Kruidvat, Trekpleister, en ICI Paris XL de website tag in te vullen met een link naar de filiaalpagina. Deze tags zijn al regelmatig toegevoegd door mappers aan losse vestigingen, maar worden steeds verwijderd door @borishag die in opdracht van A.S. Watson (eigenaar van deze winkels) deze data up-to-date houdt, uit angst dat deze data verouderd.

Er lijkt onder de mappers van de Nederlandse gemeenschap echter grotendeels overeenstemming te zijn over dit gebruik van website. Het maakt het voor kaartgebruikers en mappers ook eenvoudig om zaken zoals openingstijden te kunnen verifiëren.

Zoals @Herrieman al opmerkte is de filiaalpagina van deze ketens af te leiden uit het filiaalnummer, die in de ref staat.

Voor deze ketens lijkt de ref bijna altijd te kloppen. Ik heb een paar verdachte waarden nagekeken en verbeterd, maar ik schat dat deze ref voor 99% van de gevallen correct is.

Voorbeelden van filiaalpagina-URLs

Wat wil ik doen

Ik wil voor elk van deze drie ketens alle winkels opvragen met Overpass, en deze met een scriptje aanpassen. Dit heb ik op kleine schaal met handmatige controle hier geüpload:

Er worden geen nieuwe winkels toegevoegd. Er wordt alleen een website toegevoegd aan bestaande winkels met een ref.

De scripts passen de .osm-bestanden met daarin alle winkels aan. Dit is een zo’n scriptje. De tags brand:website en brand:wikipedia worden ook gelijk correct ingesteld, hoewel dit meestal al klopt.

De scripts zijn al getest; het enige wat nog moet gebeuren is de data uploaden.

Dit is een semi-geautomatiseerde werkwijze met een voorspelbare uitkomst qua data.

Deze scriptaanpak lost ook het grootste bezwaar van @borishag op, namelijk dat deze URL’s eens in de tien jaar of zo nog wel eens willen wijzigen. Mocht dat weer gebeuren, dan is het natuurlijk eenvoudig om alle website te verwijderen, maar ook een aangepast scriptje is niet zo lastig.

Ziet iemand hier verder problemen in?

10 Likes

Klinkt als een veelbelovend plan. Je zou deze methode zelfs kunnen kopiëren naar andere ketens waarbij een ref onderdeel uitmaakt van van de website links, al weet ik zo gauw niet te bedenken welke dat kunnen zijn.

1 Like

Klopt, als die bestaan en de refs zijn ingevoerd dan kan dat zo overgenomen worden.

Misschien ook gelijk brand:wikidata (Q2226366 voor het voorbeeld van Kruidvat) toevoegen als dat ontbreekt. Zie er verder ook niet echt een probleem in.

1 Like

Geldt in ieder geval voor Albert Heijn: https://www.ah.nl/winkel/1514

Voor de reguliere Albert Heijnen is dat nu mogelijk voor ongeveer de helft van de filialen waar een ref staat. Een deel kan omgekeerd de ref ook juist herleiden uit de website die er soms wel is met het filiaalnummer erin.

Dat wordt wel een ingewikkelder scriptje, ook met die rare franchisesituatie in Limburg erbij en alle varianten van de winkel (XL, To Go).

Ik heb wel even een opruimronde gedaan door de afwijkende ref-tags:

https://overpass-api.de/achavi/?changeset=161739925

Wat misschien ook nog wel een aardige toevoeging aan het script kan zijn (of een variatie): checken of de winkelspecifieke URLs daadwerkelijk naar een filiaalpagina verwijzen. Als je op die URL een 404 krijgt weet je meteen dat er iets niet klopt. Ben wel bang dat dit in de praktijk niet zo makkelijk gaat werken omdat veel van die websites dan alsnog een 200 retourneren maar dan met de inhoud dat de winkel niet bestaat (ah.nl doet dan in elk geval afgaande op wget).

Ik heb verder geen negatieve feedback ontvangen.

Uitgevoerd:

Zelfs nog bij drie filialen de opening_hours verbeterd; er zaten notatiefouten in de waarden.

1 Like

Het is altijd even een afweging bij zoiets. Hoe complex maak je het script? Moet het een alleskunner zijn, of is het minder werk gewoon voor elke keten die je aanpakt het scriptje aan te passen? Ik heb bij deze drie ketens voor het laatste gekozen. Immers, de ref is hier (op de door mij gevonden fouten na) behoorlijk consequent bijgewerkt. Dan geloof ik wel dat 99% van deze nieuwe links gewoon werkt op basis van een steekproef. :slight_smile: