Automatisiertes beheben toter Links

In den OSM-Daten gibt es jede Menge tote Links verschiedener Art:

- offline: https://edeka-kusnezow-lewandowski.de/ https://www.biergarten-zum-saliter.de/
- defekt, nicht mal 500: https://www.altesbrauhaushemmendorf.de/ https://www.dezbuehne.de/
- 500: https://www.hotelamkamp.de/ https://www.pizzafun-ol.de/ https://innowoprint.de/
- von domain-hordern übernommen: http://aulendorfer-hof.de/diner.html http://www.optik-millies.de/ http://www.quedlinburg-pension.de/ http://www.minigolf-hagnau.de/ http://praxis-dr-siebling.de/

Da will ich anpacken!

Eckpunkte:

  • Ich werde mich selbstverständlich an die AECoC halten. Darum ja diese Diskussion hier, wie genau wir das machen wollen.
  • Ich habe bereits einen Crawler geschrieben, der jeden Monat jede Domain genau einmal besucht: https://monosm.uber.space/
  • Eine Domain, die 6+ Monate durchgehend und unverändert mit dem gleichen Fehler “kaputt” ist, sollte wohl nicht mehr beworben werden.
  • Ich schlage vor, das Tag “website” in “disused:website” zu ändern, auf die Art können problematische Eintrage gefunden werden ohne dass User dadurch verwirrt werden. tote Links
  • Mir ist bekannt, dass Änderungen gestückelt und geographisch zusammenhängend passieren sollen, sowie alles Weitere unter “Execute with caution”.

Um noch auf ein paar Punkte der AECoC einzugehen:

  • Dieser Bot fällt in die Kategorie “Useful edits that would be tedious to do manually, only after approval by the community and appropriate discussion.”
  • Keine der "Problematic usage"s treffen zu.

Wie genau erlange ich “approval by the comunity”, was sind die nächsten Schritte?

Gruß
Ben

Quellen für angegebene tote Links:

n1741952752 https://www.biergarten-zum-saliter.de
n1782775160 http://www.quedlinburg-pension.de
n253745048 https://www.altesbrauhaushemmendorf.de/
n3558718331 http://www.optik-millies.de/
n5229963992 http://aulendorfer-hof.de/diner.html
n661072984 https://www.hotelamkamp.de/
n8277754429 http://praxis-dr-siebling.de/
n9764906980 https://www.dezbuehne.de/
w180307621 https://innowoprint.de/
w244997403 http://www.minigolf-hagnau.de/
w261065851 https://www.pizzafun-ol.de/
w700728064 https://edeka-kusnezow-lewandowski.de/
4 Likes

Hallo und vielen Dank für deine Idee und die Initiative.
Schau dir gerne eine Diskussion aus dem letzten Jahr genau darüber an: Is there a procedure to prevent link rot?

Und die daraus resultierenden MapRoulette-Challenges: MapRoulette

Meiner Meinung nach ist es nur bedingt sinnvoll, nur die URL auf “disused” zu setzen, da eine tote URL meist auch bedeutet, dass das zugehörige Objekt “tot” ist. Hier sollte also, meist mit entsprechender Ortskenntnis, geprüft werden, ob das betreffende Objekt dort überhaupt noch existiert.

Beispielsweise funktioniert die Webseite eines Restaurants nicht mehr. Hat das Restaurant die Webseite einfach abgeschaltet, weil sie nicht mehr gebraucht wird, aber das Restaurant existiert noch? Oder wurde das gesamte Restaurant aufgegeben, dann gehört nicht nur ein “disused” vor den Tag website, sondern auch vor den Tag amenity=restaurant. Aber woher weiß man, was genau mit dem Restaurant passiert ist? Man muss zwangsläufig vorbeischauen.

11 Likes

Kennst Du den OSM Link Validator von @Strubbl? Hier z.B. für München.

Ich habe ihn auch selbst für Potsdam aufgesetzt und schon viele URLs dort korrigiert.

Eine Domain, die 6+ Monate durchgehend und unverändert mit dem gleichen Fehler “kaputt” ist, sollte wohl nicht mehr beworben werden.

Nach meiner Erfahrung spricht das eher dafür, dass es den POI so nicht mehr gibt. Z.B. dauerhaft geschlossen oder bei Restaurants Betreiberwechsel. Man sollte also recherchieren, was es damit auf sich hat, ob man einen Nachfolger finden kann, oder was jetzt stattdessen an dieser Adresse zu finden ist. Schwierige Fälle kann man nicht vom Sessel aus recherchieren, sondern muss sie vor Ort besuchen.

Meiner Meinung nach ist mit disused:website niemandem geholfen. Das Tag wertet so doch keiner aus. Und der POI, der überprüft werden müsste, ist immer noch nicht überprüft.

Ich würde eine Auswertung wie beim OLV besser finden, wo dann Mapper die betroffenen Objekte von Hand untersuchen und korrigieren können.

9 Likes

Oh, und ich freue mich natürlich über Deinen Enthusiasmus und dass Du OSM verbessern willst. Aber hast Du Dich wirklich erst heute registriert? Oder ist das ein Zweitaccount? Falls Du noch keine Erfahrung mit OSM hast, würde ich vorsichtig vorschlagen, dass Du erstmal „normal“ editierst – sagen wir mal für ein paar Monate – bevor Du Dich an die Bot-Programmierung machst. Das wird Dir ein viel besseres Gefühl dafür geben, wie man POIs und Webseiten recherchiert, wie die Datenqualität und -aktualität in Deiner Gegend sind, usw.

7 Likes

Dem stimme ich voll und ganz zu.

Anhand von kaputten Websites geschlossene POIs zu finden, klingt interessant.

POIs aktuell zu halten, ist eine Ewigkeits-Fleißaufgabe. Die Suche nach defekten Websites ist dabei ein Baustein. Sie sollte aber nicht allein dazu dienen, nur das Website-Tag zu pflegen und auf disused:website=* zu ändern. Das ist mit dem Geist dieses Projekts, nämlich eine von Menschen gepflegte Karte zu sein, nicht vereinbar. Maschinell gepflegte Datensätze können andere, die auf größere finanzielle Ressourcen zugreifen können, besser (im Sinne von wahlweise schneller, günstiger, nutzerfreundlicher, umfangreicher, großflächiger).

Wie schon @mcliquid und @hfs schrieben, sind kaputte Websites ein Hinweis auf aufgelassene POIs. Manchmal findet man Presseberichterstattung im Netz dazu, dann kann sich man eigentlich die Ortsbesichtigung (von außen) sparen, wenn man nicht darauf Wert legt, den neuen Mieter des Ladenlokals zu erfassen.

MapRoulette ist von der Konzeption her für Aufgaben gemacht, die man ohne Ortsbesichtigung erledigen kann. Da wir in OSM keine automatisch angelegten Notes (Fehlerhinweise auf openstreetmap.org) wünschen, bleiben die folgenden Möglichkeiten:

  • regelmäßige Publizierung deiner Ergebnisse auf Gemeinde/Kreis/Kachel-Ebene als Qualitätsindex (sprich: Werden die Werte besser oder schlechter? Wo sind die Daten aktueller (falls man das damit überhaupt sagen kann)?)
  • Kartendarstellung der gefundenen POIs, damit man sie in Touren integrieren kann.
  • regelmäßige Bereitstellung als Datensatz, damit andere Qualitätssicherungsplattformen diesen integrieren können (z.B. Osmose, OSMI; Osmose ist wiederum in Vespucci eingebunden)
  • Bereitstellung in irgendeiner Form für StreetComplete-Nutzende (frag mich bitte nicht, ob es dafür schon einen Schnittstelle gibt)

StreetComplete ist IMHO die ideale Plattform, da sie vor Ort genutzt wird, wenn die Leute vor dem Laden stehen. StreetComplete hat jetzt schon Aufgaben, die bei alten POIs nach Existenz des Objekts oder Aktualität der Öffnungszeiten fragen.

7 Likes

Ich habe diese MapRoulette-Challenge ausprobiert, und für mich war das schwierigste dabei genau das Problem, dass man ohne Ortsbesichtigung nur schwer feststellen kann, dass es einen Laden nicht mehr gibt.

Es wäre toll, diese Daten in einer Handyapp angezeigt zu bekommen, ähnlich Notizen, evtl. gleich mit der Option, den POI mit einem Klick auf disused zu setzen.

StreetComplete wäre eine Option dafür, hat aber soweit ich weiß bisher keine solche Schnittstelle, wo man quasi selbst Quests erstellen kann.

MapComplete dagegen hat so eine Schnittstelle: du kannst da selbst eine Overpass-Abfrage angeben oder eine GeoJSON-Datei hochladen und daraus eine Karte basteln mit Quests im StreetComplete-Stil. Das klappt dann sogar ohne App, direkt im Browser. Wie das genau funktioniert, habe ich mir aber noch nicht angeguckt.

1 Like

dem stimme ich auch weitgehend zu, wobei mir in letzter Zeit auch andere Fälle begegnet sind, wo die Betreiber entweder die Seite nicht wichtig genug fanden (sie denken Facebook etc. reicht aus), oder weil sie vergessen haben zu bezahlen und sich ein Domaingrabber die Domain geschnappt hat.

Der Minigolf hat eine “url” die noch geht, vielleicht einfach mal tagsüber anrufen…
https://www.gemeinde-hagnau.de/de/Entdecken/Sehenswertes/Minigolf

1 Like

Aber bitte noch bis April warten. Hagnau ist doch noch im Winterschlaf. Pia macht wie jedes Jahr erst am 1. April wieder auf.

Und die daraus resultierenden MapRoulette-Challenges:

Das ist eine wirklich tolle Idee! Da allerdings in über 2 Monaten weniger als 1% aller Links gefixt wurde, bin ich nicht so zuversichtlich ob das tatsächlich einen Unterschied macht. In der Zwischenzeit kommen ja ständig neue hinzu, und die “alten” toten Links werden weiterhin beworben. Klingt schlecht.

eine von Menschen gepflegte Karte

Das will ich auch auf keinen Fall ändern! Mir ist bekannt wie kritisch OSM zu Imports und automatischen Edits steht. Jedoch bewirbt OSM im Moment aktiv veraltete Webseiten. Diese Anzeige ist so unzuverlässig dass ich sie nicht mehr als User benutzen kann. Tote Links umzubenennen in disused:website würde dafür sorgen, dass es nicht mehr beworben wird, und kann trotzdem sehr einfach von z.B. StreetComplete gefunden werden. Ein tolles Tool :smiley:

Aber hast Du Dich wirklich erst heute registriert? Oder ist das ein Zweitaccount?

Dies ist ein Zweit-Account. Wenn gewünscht kann ich dir in einem Privat-Chat meinen “richtigen” Account den ich für StreetComplete und sonstige Edits verwende verlinken. Allerdings kann man davon ableiten wo genau ich wohne, darum möchte ich das nicht öffentlich zugänglich haben. Ich habe dort ca. 1200 changesets.

Bereitstellung in irgendeiner Form für StreetComplete-Nutzende

Großartige Idee! StreetComplete könnte z.B. das Tag disused:website benutzen um früher als gewöhnlich nachzufragen, ob eine amenity noch existiert. Und in der Zwischenzeit werden kaputte Webseiten nicht verlinkt. Win-win!

selbst eine Overpass-Abfrage angeben oder eine GeoJSON-Datei hochladen

Leider sind die Daten in der Größenordnung von zig bis hunderten Megabyte. Das über eine Webseite zu lösen klingt aufwendig. Im Gegensatz dazu verwenden schon viele Leute (z.B. ich) StreetComplete, und würden eine neue Quest sofort sehen.

Darum bin ich auch weiterhin dafür, solche Fälle auf disused:website zu setzen, um das hier zu vermeiden:

Falsche Daten werden in OSMAnd beworben:

Falsche Daten werden auf www.openstreetmap.org beworben:

Darum ja mein Vorschlag, die toten Links nicht mehr zu bewerben :slight_smile:

1 Like

ja der macht da ab und an Notes… Meisten sind die Geschäfte geschlossen, oft dann schon neue Geschäfte drin. Muss man vor Ort erkunden.

Von mir aus kann man automatisch… überall eine Note erstellen wo eine Website nicht mehr geht… die schau ich dann bei Gelegenheit von meiner Gegend an… auch SC zeigt die Notes an. In der Note bitte einen Link auf das OSM-Objekt…

Andere Möglichkeiten nutze ich weniger…

Gruß Miche

Edit: natürlich muss man prüfen ob an der Stelle vielleicht schon eine Note gibt :wink:

eine Webseite die nicht mehr erreichbar ist, oder die von einem domain-grabber gekrallt wurde, würde ich überhaupt nicht mehr in OSM haben wollen, weder als “website” noch als “disused:website”. Bei anderen Seiten, die es zwar noch gibt, die aber offenbar derzeit ungenutzt sind, ein beliebiges Beispiel wäre https://cloudmade.com/ könnte “disused:website” passen, wobei dann niemand mehr draufclickt und man ja nie (außer vielleicht, man hat weitere informationen) weiß, ob nicht in 5 Minuten die Seite wieder online geht.

Mein Crawler speichert den Antwort-Body ebenfalls, und ich habe schon darüber nachgedacht, in wie weit man domain-grabber automatisiert feststellen kann. In diesem Thread wollte ich erstmal die “low-hanging fruit” pflücken, also die “eindeutig kaputten und für immer toten” Domains. (Wieauchimmer man das dann definiert, Vorschlag siehe oben.)

Da schon jetzt so viel Gegenwind kommt, bin ich pessimistisch wieviel Anklang Edits haben werden, die domain-grabber entfernen.

Ich war anfangs auch eher dagegen, denn man sollte dann das gesamte Objekt prüfen. Aber was bringt es uns, wenn wir einen Haufen defekte Links über Jahre in der Datenbank lassen, nur damit man diese irgendwann für QA nutzen könnte.

Ich denke inzwischen auch, dass es Sinn machen kann, die Website-Einträge zu entfernen und zeitgleich einen OSM-Hinweis mit der Bitte um Überprüfung zu erstellen. Ein fixme ginge auch, aber die OSM-Hinweise werden vermutlich schneller bearbeitet.

Meinst du automatisierte Notes? Das klingt nach einer schlechten Idee, wie schon @Nakaner geschrieben hat.

3 Likes

Diesen Satz versetehe ich nicht. Geht es um Auswerter, die an diese Domains Werbung versenden? Oder wirbt jemand damit, das es in OSM eine Anzahl X an Domains gibt?

Zwar sind die Links nicht mehr sichtbar, aber genau mit dieser Unsichtbarkeit wird das eigentliche Problem versteckt. Es wäre besser das Problem zu lösen als es zu verstecken. Ein Problemlösung ist für mich auch URL löschen und ein Hinweis mit Link auf das Objekt.

Nein. StreetComplete findet disused:website nicht. Bzgl. Websites von POIs ist StreetComplete nicht einsetzbar. Vielleicht könnte man da was mit SCEE machen. Aber da habe ich noch keine Idee für.

Das ist nicht implementiert. Ich glaube auch nicht daran, dass das kommt bis ich es sehe. Wenn diese Funktion da ist, können wir das gerne noch einmal diskutieren.

Die neuen Quests sind meist per Default erst einmal deaktiviert und müssen manuell aktiviert werden. StreetComplete-Poweruser sehen das, wenn sie den Changelog verfolgen und dann auch noch manuell aktivieren.

Willkommen im Internet. Das ist leider normal und ein ewiges Katz-und-Maus-Spiel. Das ist nicht nur bei OSM so.

Bitte tu das nicht. Bitte behebe das eigentliche Problem. Es gibt, wie oben bereits von jemand erwähnt, keine SW, die disused:website, disused:contact:website oder disused:url auswertet.

ab und an. :smiley: Ja, es ist etwas weniger geworden zur Zeit. Die Notes sind händisch erstellt, aber mHv. Textbausteinen natürlich. Die Textbausteine müssen meist auch angepasst werden, aber es erleichtert das Erstellen. Sehr viele Mapper haben bereits geholfen zu den Hinweisen Rückmeldung zugeben. Das ist so cool. Danke nochmal an dieser Stelle.

Ich prüfe einfach auf URLs von den typischen verdächtigen in der Antwort:

Das eigentliche Problem ist damit nicht gelöst: Das jemand mal den POI aktualisiert so wie es derzeit real ist. disused:website oder URL löschen ohne weitere POI-Analyse bringt dem POI nichts. Das ist nur sinnvoll, wenn man weiß, dass es diesen POI noch gibt. Ansonsten ist mindestens ein Hinweis ist wünschenswert.

Wie viele tote Links hast du denn zB. in Bundesland XY oder Land XY gefunden, dass du automatische Edits generieren möchtest? Macht das Sinn? Vielleicht kann man lieber lokale Communities mit einer guten Auswertung animieren, sich die POIs mit fehlerhafter URL vor Ort mal anzusehen. Ok, in MV klappt das eher semi-gut. Das ist halt nicht Arbeitsweise von den meisten Mappern - Hinweisen nachgehen dagegen schon eher.

Nehmen wir dein Beispiel https://www.altesbrauhaushemmendorf.de/. Ja, die Website ist nicht erreichbar. Aber http://altesbrauhaushemmendorf.de/ ist erreichbar. Klar, ein 404. Aber was sagt uns das nun über den POI? Die Domain scheint noch jemand zu besitzen, der keinen Wert auf eine Webpräsenz legt. Vielleicht aber doch und morgen ist die Website wieder da? Einfach die URL löschen wäre dann schade. Wer trägt die wieder ein, wenn sie wieder geht?

Bin mal weiter die Beispiele aus Beitrag #1 durchgegangen.

https://www.hotelamkamp.de/ ist 503 currently unavailable, also bald wieder da?

https://www.dezbuehne.de/ könnte auch wieder kommen.

https://innowoprint.de/ bzw http://innowoprint.de/ ist kaputt aber nicht eindeutig für immer weg.

http://www.minigolf-hagnau.de/ der POI scheint eine andere Website zu bekommen, siehe oben

https://www.pizzafun-ol.de/ ist auch eher kaputt als weg. Aber warum ist die Website noch gemappt?
Sieht aus wie vergessen zu löschen: Way: 261065851 | OpenStreetMap → hier ist einfach löschen ok, weil es offensichtlich vergessen wurde.

Der Rest ist Domain-Parking oder die Domain gibts wirklich nicht mehr. Da wäre es gut für jeden POI zu recherchieren, was da los ist. Wenn die tote URL gelöscht wird ohne weiteres, haben wir keinen Hinweis mehr darauf, dass mit dem POI etwas nicht stimmen könnte. Vor allem wurde der POI dann kürzlich erst editiert und erscheint somit als aktuell gepflegt. Das finde ich problematisch.

Genau das ist doch schon QA, die nicht irgendwann sondern durch den Hinweis direkt genutzt wird. Also Links löschen und automatisiert Hinweise an diesen Stellen erstellen? Bereits existierende Hinweise automatisch erkennen und vielleicht nur einen Kommentar ergänzen, dass die URL gelöscht wurde?

Dieses automatische URL-Löschen findet dann nur in DE statt oder weltweit? Für letzteres wäre zumindest noch eine Diskussion auf Englisch hilfreich.

Neue Notes sind einigen Mappern in “ihrem Mappinggebiet” eine Arbeitsaufforderung und werden gerne auch dementsprechend kommentiert. Ich könnte mir auch vorstellen, dass Mapper in ihrer Gegend die automatischen Notes dann einfach wegfiltern/ignorieren/schließen ohne Kommentar, weil es sehr viele werden pro Stadt/Landkreis können.
Ich hätte wenig Lust in eine Note zu schreiben, die ein Bot aufgemacht hat, weil da wahrscheinlich kein Feedback mehr kommt dann und sich auch niemand weiteres um die Note kümmert.

Seit ich QA über defekte Links mache, habe ich hauptsächlich in & rund um München bereits um die 1000 Notes geöffnet, die darauf basieren. Das könnte auch als Note-Spam empfunden werden, wenn man die Notes in einem Gebiet beobachtet und da auf einmal 1000 neue Notes aufpoppen.

(edit: siehe fettgedrucktes f.)

1 Like

Sorry, vielleicht verwende ich den Begriff etwas komisch. Mit “bewerben” meine ich lediglich, dass die URL da halt in den Daten steht, siehe Screenshots.

Es geht nicht um Werbung.

Was wäre denn ein besseres Wort? Vielleicht “behaupten” oder “beschriften”?

vielleicht einfach “verwendet werden”

Warum ist die Idee schlecht? @Nakaner schreibt lediglich, dass “wir” (?) das nicht wünschen. Ich habe damit jedenfalls kein Problem. Vielleicht gibt es ja eine Community-Entscheidung dazu, dass Notes grundsätzlich nicht automatisiert erzeugt werden dürfen. Wenn dem so ist, fällt diese Variante natürlich weg.

Nein, ich meinte, wenn wir uns gegen das Löschen entscheiden und die Einträge so belassen und nichts weiter unternehmen. Wenn wir feststellen, dass ein Datum falsch ist, gehört der aus der Datenbank gelöscht und nicht aufbewahrt, nur weil wir ein falsches Datum für QA nutzen können. Dann lieber offensichtlich falsche Tags (was noch genau definiert werde muss) durch ein fixme ersetzen.

Ja. Und ob es zu einem Objekt ein oder zwei Notes gibt, ist in meinen Augen nicht relevant. Dann gibt es halt zwei Hinweise, z.B.: “Tante Emma hat hier dicht gemacht” von Anonym und “Dieses Objekt könnte nicht mehr aktuell sein. Bitte prüfe vor Ort, ob es dieses Objekt noch gibt. Dieser Hinweis wurde automatisch erzeugt, weil die angegebene Webseite nicht mehr erreichbar ist.”

Bei OSM gibt es keine Regel “One feature - one OSM note” :wink:

2 Likes