Vorschlag für autom. Edit: Schreibweise Straßennamen

Ich muss zugeben, dass ich so Bot-Attacken ziemlich bedenklich finde. Da kann einiges falsches geändert werden. Wir sollten uns doch noch selber vertrauen können. Wie wäre es mit einer Liste, die wir uns aufteilen und so kann jeder eigenmächtig entscheiden, ob es richtig ist. Der Bot hat kein Gewissen.

Denkt mal darüber nach…

Ja das ist richtig. Aber hast du jede Woche Lust so eine Liste abzuarbeiten?

Gibt es denn bspw. in JOSM schon so eine Fehler-Vorlage für den Typ?

Also entweder ich habe es überlesen, oder es wurden noch keine richtigen Zahlen genannt, wie oft das Problem auftritt. Wenn es eine gewisse Menge überschreitet würde ich vielleicht dann doch nichts dagegen sagen…

Aktuell sind’s rund 450-500 und die stammen aus den letzten 3 Monaten. Da lief der xybot zum letzten Mal.

Also ich dachte, wenn es um die 10.000 geht, dann hätte ich unter Bauchschmerzen so einen Durchlauf für gut befunden, aber dass können wir doch selber oder nicht?

Jo, aber wer will schon jede Woche über die Liste der Tipfehler schauen?

Wenn ich eine Liste von vermutlich falschen “Strassen” habe (z.B sowas wie “192398191, 144162419, 193405927, 130546766, 124159991, 115513952, 177851184, 186786406, 194740256, 180440109, 180256701 sind ß-ss-Fehler”), könnte ich die in JOSM laden und korrigieren. Allerdings wäre spätestens beim 5. Mal meine Prüftätigkeit nicht besser als die jedes Bots. Dann solls doch lieber der Bot gleich selber machen.

Grüße, Max

Neben der Tatsache, dass bei den meisten die Bereitschaft, dauerhaft stupide Fehler zu beheben recht gering ist, ist die Auffassungsgabe das Problem.

Ich habe durch mehr oder weniger Zufall die Gleistrasse gefunden und darauf hin alle strasse separat gefiltert und speziell nach weiteren Fehlern gesucht. Trotz zweimaliger Durchsicht hab ich die Gastrasse nicht gefunden. Irgendwann schaltet der Kopf einfach ab.

Hallo Max,

ich weiß ja nicht wie die anderen das sehen, aber ich könnte mir vorstellen, dass wir uns einmal im Quartal dransetzen. Und dann machen wa das :wink:

Gruß,
Tim

Ich denke das Problem ist viel größer. Es ist eben nicht damit getan einmal im Quartal 500 Rechtschreibfehler zu beseitigen. Es gibt noch zahlreiche weitere Fehler, welche beseitigt werden möchten und das kann dann kein Bot machen.
Vielleicht kann der Bot ja eine Liste mit all seinen Änderungen erzeugen, damit Mapper wie Tim nochmal drüberschauen können ob falsch positive Werte dabei waren. Und dann die Ausnahmeliste erweitern. Aber ansonsten sollte der Bot das alleine tun. Ich würde jedenfalls nicht mehr machen als der Bot und kann mich max nur anschließen.

Um Fehler darzustellen, brauche ich allerdings keinen Bot. Da reichen auch unsere Qualitätstools wie keepright oder OSMI. Vernünftige Erweiterungen für diese Tools werden sich ja machen lassen.
Zu bemerken ist, dass im Falle der Änderung der Schreibweise Straßennamen ein Bot durchaus Sinn macht. So bleibt die menschliche Schaffenskraft dem Projekt OSM für Edits erhalten, die kein Bot machen kann.

Bei dem Änderungssatz war auch Burscheid dabei?
Es fehlte dort die Änderung “Bergstaße”.
Welche ich zufällig geändert habe.
http://www.openstreetmap.org/browse/changeset/14196618

http://www.openstreetmap.org/browse/way/48791726/history

Wie man an der Chronik des Wegs sieht, passieren Schreibfehler schnell.
Wenn jeder mal einem Blick in die Straßenliste wirft, dann findet man diese und andere.
http://regio-osm.de/listofstreets/Bundesrepublik+Deutschland/index.html

Das sehe ich genauso. Wer korrigiert übrigens die 79 Gerhard-Hauptmann-Straßen?

Baßtölpel

So, mit etwas Verzögerung nun gesammelt die Antworten auf diverse Fragen und Anmerkungen:

In den Filterkriterien für Kandidaten ist dies dank Hennings Mithilfe bereits enthalten; die Ersetzungsvorschrift habe ich auch soeben angepaßt. Bisher wurde dort Stringende verlangt, jetzt Wortende. Die diversen Straßen der Freundschaft etc. werden also im Bedarfsfall auch berücksichtigt. Wobei mir Fehler, die nicht korrigiert werden, weniger Kopfschmerzen bereiten als vermeintliche Fehler, die fälschlicherweise behoben werden.

Die bereits genannten Zahlen hat Henning inzwischen wiederholt. Es geht in der Tat um die Größenordnung von 500 Fehlern pro Quartal, also 2000 pro Jahr. Klar kann man das manuell beheben, aber mal ehrlich: Strasse zu Straße zu ersetzen ist eine ziemlich dämliche Aufgabe, und von daher prädestiniert zur Automatisierung. Ein Mensch könnte zwar tatsächlich im Einzelfall überlegen, ob nicht doch ein legitimer Spezialfall vorliegt; ein Bot kann dies nicht. Aber wie von maxbe schon beschrieben, guckt man nach einer Handvoll solcher Fehler wohl wirklich nicht mehr so genau hin, und der Vorteil der menschlichen Intelligenz ist dahin. Außerdem besteht das Risiko, beim manuellen Ändern des name-Tags neue Tippfehler einzubauen, gerade wenn die Konzentration nachläßt.

Übrigens hat es in den vergangenen Jahren bereits eine Reihe von Fehlerputzkampagnen (“Aktion %d”, http://wiki.openstreetmap.org/wiki/Aktionen ) gegeben. Es ging jeweils um eine bestimmte Fehlerkategorie, und es haben sich stets genug Mapper gefunden, um in überschaubarer Zeit die jeweiligen Fehler zu beseitigen. Aber schau Dir mal den Verlauf der Aktionen 11-13 an, wo es um Verbindungsfehler von Straßen ging und erstmals nicht Deutschland, sondern zunächst Afrika und dann nacheinander verschiedene europäische Länder (Portugal, Spanien, Frankreich) ins Visier genommen wurden. Durch die regelmäßige Wiederholung setzte ein starker Ermüdungseffekt ein, und spätestens in Frankreich hat letztlich kaum noch jemand mitgemacht (ich auch nicht). Einer quartalsweisen Korrektur von “Strassen”-Fehlern würde es meiner Einschätzung nach ganz ähnlich ergehen, erst recht, da die Korrektur dieser Fehler noch weit weniger Gehirnschmalz erfordert als z.B. die genannten Verbindungsfehler, und auch weit weniger befriedigend ist: stellt man eine fehlende Verbindung her, wird ggf. ein ganzer Landstrich für Routinganwendungen besser erschlossen; im Falle der “Strassen” käme ich mir irgendwann ziemlich blöd dabei vor, Legasthenikern hinterherzuputzen (man möge mir die despektierliche Ausdrucksweise nachsehen).

Wolgang B und viw haben bereits zurecht darauf hingewiesen, daß die Arbeitszeit von Mappern, die bereit sind, Fehler zu beheben, eine kostbare Ressource ist. Bei den oben zitierten “Aktionen” haben sich jeweils genug Mapper beteiligt, um sie jeweils in überschaubarer Zeit erfolgreich abzuschließen; dennoch hat jeweils nur ein winziger Bruchteil aller Mapper mitgemacht, und das obwohl wir uns in DE gern unserer überdurchschnittlichen Datenqualität rühmen und Qualitätssicherung hier vermeintlich populärer ist als in den meisten anderen Gegenden. Man sehe sich nur einmal die diversen Layer des OSM Inspector an: anderswo sieht es meist noch viel schlimmer aus, aber auch in DE kommen die wenigen Mapper, die sich systematisch um Fehlerbeseitigung bemühen, kaum hinterher. Dann sollen sie doch wenigstens von den ganz stupiden Aufgaben entlastet werden, um sich um die schwierigeren Probleme kümmern zu können.

Wenn Du aber meinem Bot genau auf die Finger gucken willst, ist mir das mehr als recht. Gerade in den ersten Wochen werde ich mir seine Änderungen zwar auch genau ansehen, aber ein zusätzliches Augenpaar ist jederzeit willkommen. Die Änderungen sind grundsätzlich anhand der Änderungssätze nachvollziehbar, aber ich möchte noch ein vernünftiges Logging einbauen und die Logs dann auch zugänglich machen (wenn auch vorerst wahrscheinlich - aus reiner Bequemlichkeit - nicht in Echtzeit, sondern gebündelt).

Nein, das Programm arbeitet die Kandidatenliste von oben nach unten unten nach oben ab, das heißt in der Reihenfolge aufsteigender absteigender IDs, und im Moment nur bis zum Erreichen des voreingestellten Limits. Die genannte “Bergstrasse” steht in der Tat in der Kandidatenliste, wird nun aber vom Programm ignoriert werden:

(osm-task-fix-strasse 'way 48791726)
=> "Bergstraße"
  • Es wird nur der Straßenname im Editor angezeigt. Das heißt, daß keine Änderung vorgenommen wurde, weil die Ersetzungsvorschrift [1] keine Änderung bewirkt. (Das Programm ist bis auf weiteres nicht zur Weitergabe gedacht und besitzt keine interaktiven Funktionen, daher sind einige Zustandsmeldungen, so wie diese, derzeit etwas kryptisch ausgeführt.)

Nachtrag: Das Programm arbeitet in umgekehrter Reihenfolge, neueste/höchste Elemente zuerst. Der XML-Parser gibt die OSM-Elemente in umgekehrter Reihenfolge zurück.

Es gibt auch diverse Kurt-Schuhmacher-Straßen. Der Haken an solchen Tippfehlern ist, daß man leider doch nie sicher sein kann, daß statt des Dichters bzw. des SPD-Politikers nicht doch der Gemeindevorsteher oder Dorfpfarrer Namensgeber war, welcher eben doch “Gerhard” bzw. “Schuhmacher” geschrieben wurde. Fraglos sind solche Tippfehler (die es in den allermeisten Fällen sind) ärgerlich, aber ich selbst werde von einer Korrektur in diesen Fällen die Finger lassen, egal ob einzeln mit JOSM oder automatisch.

[1] für die Neugierigen mit Elisp-Kenntnissen :wink:


(osm-obj-tag-value-replace-regexp myway "name" "\\([Ss]\\)tr\\(\\.?\\|asse\\)\\b" "\\1traße")))

PS. Nächster Testlauf: http://www.openstreetmap.org/browse/changeset/14220167
Da dieser nicht über Düsseldorf hinauskam, gleich noch einer: http://www.openstreetmap.org/browse/changeset/14220177

Hallo Oli-Wan

Was ist mit anderen Tipp-Fehlern im Begriff (Ss)traße?

Suchst und findest du die auch? Auch wenn man dabei sicher eher vorsichtig mit einer automatischen Korrektur sein wird, wäre zumindest eine Auflistung solcher 'Problem’fälle nützlich.

Wie schnell ist mal ein Buchstabe vergessen, zwei Buchstaben vertauscht, die Groß-/Kleinschreibung falsch oder ein Leerzeichen/Verbindungsstrich vergessen.

Edbert (EvanE)

Gerade mit einem Bot muss man natürlich aufpassen, nicht mehr Schaden als Nutzen zu erzeugen. Wenn man aber vor lauter Angst, vereinzelt neue leichte Fehler zu erzeugen, massenhaft vorhandene Fehler beibehält, ist das auch nicht sinnvoll. Man sollte immer überlegen, was denn die Alternativen sind. Würden lokale Mapper die Aufgabe mit weniger Fehlerrate erledigen? Ich denke in dem Falle der vermeintlich richtig aussehenden Schreibweisen würde es sogar eher in Richtung der Falschschreibung konvergieren.
Beim Vergleich von Fehlerraten ist auch nicht primär die Fehlerrate des Edits, sondern die letztendlich verbleibende Fehlerrate in der Datenbank entscheidend. Dabei hat der Bot deutliche Vorteile. Zum einen dürfte der Bot deutlich besser von anderen Mappern beobachtet werden. so dass Fehler eher auffallen. Zweitens lernt der Bot besser aus gemachten Fehlern als die Gesamtheit der Mapper. Drittens sind Fehler durch einen Bot eher einheitlicher und besser nachzuvollziehen, so daß die Wahrscheinlichkeit des Auffindens größer ist.

Bei diesem speziellen Fall kommt auch noch Folgendes hinzu: In den Ausnahmefällen, dass eine derartige Straße nach dem Dorfpfarrer etc. benannt ist und daher abweichend geschrieben ist, ist man sich vermutlich lokal dieses Sonderfalls bewust. Somit wird ein Fehler leichter erkennt.

Dennoch sollte man natürlich überlegen, wie man das Erzeugen neuer Fehler minimieren kann. Zunächst einmal könnte man mit offizielen Straßenlisten abgleichen, soweit diese vorhanden sind. Als nächstes könnte man Taglisten und Listen von Kommentaren aus der History von den betreffenden Wegen erzeugen und nach Hinweisen auf eventuell abweichende Schreibweisen (z.B. in note tags) manuell durchsuchen.

Weiterhin könnte der Bot aus der History heraussuchen, welcher Mapper die vermeintliche Falschschreibung eingetragen hat und diesem eine Nachricht schicken. Diese sollte aus den vermeintlichen Namensgeber (mit Wikipedia-Link) und die bevorstehende automatische Ersetzung verweisen sowie um Widerspruch bitten, falls Informationen über einen abweichenden Namensgeber oder abweichende Schreibweise vorliegen. Auch ein Hinweis von sonstigen Rückmeldungen eher abzusehen wäre wohl sinnvoll.

Wenn kein Widerspruch kommt, kann die automatische Ersetzung erfolgen. Vorher sollte nochmal ein Diff der Tag beziehungsweise History-Liste auf neu hinzugekommene Hinweise manuell geprüft werden. Wenn man noch mehr Sicherheit haben möchte, könnte der Bot auch noch einen Eintrag in OSB generieren und um die manuelle Überprüfung der automatisch ersetzten Schreibweise bitten (wieder mit Wikipedia-Link zum potentiellen Namensgeber).

Wenn der Bot dann tatsächlich mal einen Fehler gemacht hat, und dieser erkannt und korrigiert wurde, könnte der Bot zukünftig diese ungewöhnliche Schreibweise auch gegen unwissende Mapper schützen.

Da viele Fälle von “Strasse” vermutlich nicht auf Tippfehlern sondern auf Unwissenheit über die neue Rechtschreibung beruhen, wäre es vermutlich hilfreich, auch hier den Verursacher aus der History automatisch zu ermitteln und ihm einen netten Hinweis mit Erklärung und Wikipedia-Link zu senden. Vielleicht reduziert dies dann die Neuentstehung der Falschschreibungen. Insbesondere sollte man diese Nachricht schicken, wenn jemand die korrekte Schreibweise in die falsche Schreibweise geändert hat.
Auch wenn jemand nur “Str.” verwendet hat, wäre eine erklärende Nachricht vielleicht sinnvoll.

Diese Nachrichten dürfen natürlich nicht für jedes Objekt neu geschickt werden, sondern dürfen pro User maximal in großen zeitlichen Abständen wiederholt werden.

Ein Problem, das leider auch menschliche Korrektoren trifft. Mir ist vor einiger Zeit mal eine “Dessauerstraße” in “Dessauer Straße” umbenannt worden, worauf sich eine kleine Diskussion ergab, ob die Straße denn nun nach einem Herrn Dessauer (von denen es hier ein paar nicht ganz unwichtige gab) oder nach der Stadt Dessau benannt wurde. Sogar eines der drei Straßenschilder hatte letztere Schreibweise. Der Vorteil menschlicher Korrektoren ist aber natürlich, dass die vom Korrigieren ablassen, wenn man sie überzeugt hat, und nicht den selben vermeintlichen Fehler immer wieder ausbessern :wink:

München? Nach wem ist sie denn nun benannt worden?

Baßtölpel

Man kann sicher einen Layer oder OSB erzeugen, der möglicherweise falsche Namen anzeigt. Ich halte es aber für fatal, wenn man einen Bot laufen lässt, der bei seiner Arbeit rät. Wenn die Korrektur nicht eindeutig ist, dann muss man vor Ort nochmal nachschauen.

Da bin ich anderer Meinung. Ein Bot sollte nur solche Änderungen vornehmen, bei denen ein Irrtum nahezu ausgeschlossen ist. Wenn man aber schon von vornherein damit rechnen muß, daß ein Teil der Änderungen schädlich ist, scheidet ein Boteinsatz für mich aus.

Bei den letzten beiden Punkten stimme ich Dir zu, beim ersten bin ich mir nicht so sicher. Anfangs werden sicher einige Leute genauer hinsehen; aber nach einer gewissen Gewöhnungsphase nicht mehr, wenn sich der Bot erst einmal bewährt hat. Das ist ja auch gewollt: ein Bot soll ohne Aufsicht sauber und geräuschlos seine Arbeit erledigen. Wenn jede Änderung sorgfältig analysiert werden muß, ist der Zeitvorteil dahin.
Bei mir ist es sogar eher umgekehrt: wenn ein fremder Mapper in meiner Gegend arbeitet, schaue ich mir den Änderungssatz in der Regel näher an. Die Änderungssätze von xybot haben mich dagegen nicht mehr interessiert, nachdem ich erst einmal wußte, um welche Art von Änderungen es ging und daß diese (mindestens in meiner Gegend) nicht zu beanstanden waren.

Auch da bin ich nicht sicher. Bei vielen Straßennamen selbst in meiner eigenen Stadt weiß ich nicht, worauf sie sich beziehen, und würde das auch nicht von anderen Mappern erwarten. Durch bloßen Zufall weiß ich, daß hier auch nach Franz Hansmann eine Straße benannt wurde; neben diversen Straßen, Plätzen und Schulen mit David Hansemann als Namensgeber. Auch diese Straße ist eine Einladung zur falschen Korrektur.

Nach meinem Verständnis sind potentielle Boteinsätze und Fälle, wo man zuerst nachfragen muß, annähernd orthogonal.
Was, wenn der Eintrag von einem Mapper stammt, der OSM schon vor Jahren wieder verlassen hat? Von dem wird man keine Antwort erhalten. Oder von einem durchaus noch aktiven, der seinen zur Anmeldung benutzten Mailaccount nicht mehr nutzt und sich auf OSM nicht einloggt? Oder von einem “Gastmapper”, der die deutsche Sprache nicht versteht?

“Strasse” war/ist auch nach der (von mir bevorzugten) traditionellen Rechtschreibung falsch. Ich denke nicht, daß man dem jeweiligen Verursacher seinen Fehler noch unter die Nase reiben muß: da werden sich viele angegriffen fühlen, egal wie freundlich man eine solche Mail formuliert. Um Leute aus dem Projekt zu vergraulen, braucht es keinen Bot, das bekommen wir oft genug alleine hin. Daher lieber geräuschlos korrigieren und keine großen Worte darum machen.

Guten Morgen,

Vielen Dank für deine ausführlichen Antworten und das Angebot eines Loggings. Echtzeit brauche ich nicht unbedingt, kein Bock die ganze Zeit vorm Bildschirm zu sitzen… Ich werde dich unterstützen.

Gruß,
Tim