Bezüglich der Ergänzungsvorschläge stimme ich folgenden uneingeschränkt zu:
- Asynchrone Umschalttaste in jeglicher Kombination einschließlich “?” statt “ß”.
- “ß” ersetzt durch
– kleines beta
– Versal-ß meinetwegen auch, auch wenn mir nicht klar ist, wie jemand dies erzeugt haben soll.
– “0” oder “9”, da “Stra0e” und “Stra9e” optisch “Straße” ähnlich sind.
– zusätzlich noch “8” oder “B”, da “Stra8e” oder “StraBe” optisch “Straße” noch ähnlicher sind und eventuell als Ersatzzeichen bei fehlendem ß verwendet sein könnten.
Wenn es denn zu den fehlenden oder vertauschten Buchstaben kommt, beginnt langsam das Ratespiel.
Wenn man zugesteht, dass Buchstaben im Wort “Straße” fehlen oder vertauscht sein können, muss man dies eigentlich auch anderen potentiellen Namen zugestehen.
Aufgrund der hohen Wahrscheinlichkeit des Auftretens von “Straße” im Straßennamen wurde ich zumindest bei den explizit aufgeführten Beispielen davon ausgehen, dass dass Restrisiko hinreichend gering ist, sofern es sich bei dem vermeintlichen “Straße” um ein eigenständiges Wort handelt. In diesem Fall würde ich nicht erwarten, dass ein Mensch dies anders korrigieren würde.
Wenn dass vermeintliche “straße” jedoch nur ein Wortbestandteil ist, ist es bei fehlenden oder vertauschten Buchstaben noch unsicherer, dass die die Grenze der Wortbestandteile an der vom Bot erwarteten Position liegt. Wenn es hier zu einer Fehleinschätzung kommt, hat der resultierende Name nicht nur einen kleinen Schreibfehler sondern enthält völligen Unfug, der aber schlimmstenfalls noch korrekt aussehen könnte.
Zunächst einmal sollte der Bot eine Validierung des potentiell korrekten Namens versuchen. Findet sich dieser in benachbarten OSM-Wegen oder auch in addr-Tags wieder, dürfte der Ersetzung nichts im Wege stehen. Ebenso könnte eventuell eine Validierung über Straßenlisten erfolgen.
Ist diese Art der Validierung nicht möglich, sehe ich zwei mögliche Alternativen:
Entweder wird ein OSB Eintrag erzeugt
oder der Name wird auf Verdacht ersetzt und es wird spezielles Protokoll geschrieben, dass dann manuell nachkontrolliert werden muss.
Damit die Nachkontrolle zügig erfolgen kann, sollte dieses Protokoll nur die problematischen Fälle enthalten, damit die Aufmerksamkeit nicht durch Standardfälle verlorengeht.
Das Protokoll sollte eine Tabelle enthalten mit altem Namen und neuem Namen. Hinzukommen sollten aber noch einige Spalten, in denen der alte Name kunstlich mit Bindestrichen modifiziert wird.
Nehmen wir an, der Bot findet “Gleistrase” vor.
Das Protokoll sollte dann enthalten:
“Gleistrase”, “Gleistraße”, “Glei-strase”, “Gleis-trase”, “Gleist-rase”
Wenn man in den letzten beiden Spalten auf etwas halbwegs vernünftiges stößt, sollte man verdacht schöpfen. Ebenso wenn Spalten 2 und 3 nichts halbwegs vernüftiges enthalten. Ich denke mit dieser Darstellung überliest man die Problemfälle nicht so leicht.
Alternativ könnte der Bot natürlich das Protokoll auch als Vorschlagsliste schreiben und erst nach manueller Freigabe die Ersetzung im nächsten Lauf wirklich durchführen.
Unter der Bedingung einer erfolgreichen Validierung (auch bei separatem Wort) könnte man Filterregeln wohl noch deutlich aufweichen.
Edit: fehlendes nicht ergänzt.