Ich glaube nicht, dass die Query das macht was du willst, speziell haben die Objekte mit kaputten Namen im Schnitt kein name:zh Tag und ob, wenn name:zh vorhanden, die maps.me Nutzer das gleiche in name eingetragen haben ist eher unwahrscheinlich. In meiner Erfahrung und google translate sind es eher selten wirkliche Chinesische Namen für die Objekte.
Sind leider auch areas betroffen, z.B. hier: http://www.openstreetmap.org/way/27426213
Der Mapper wollte wohl ein Restaurant ändern und hat dann nebenbei den Name vom BAUHAUS geändert.
Das sind die Standard-Ideographen. Die ersten CJK-Codes gibt es sogar schon ab x2E80 http://www.utf8-zeichentabelle.de/. In der Praxis dürfte das aber keinen Unterschied machen, da jeder chinesische Text Standard-Zeichen enthalten müsste.
Genau genommen sind aber selbst etliche der ASCII-Zeichen (~, @, { …) verdächtig, die Codes ab x0100 für Namen in DACH sowieso.
Den Ansatz hatte ich vorher mit einem regexp. Ist aber voll in die Hose gegangen. Du ahnst es nicht, welcher Schrott aber auch “richtige” ASCII-Zeichen in den Namen drin sind.
360°, T€DI, O² , diverse Anführungszeichen, Sonderzeichen, …
nach
name not similar to e'[A-Za-z0-9ÄÖÜäöüß ÁÉÍÓÚŹáéíóúźàèòùśŁłîăčěğŠšžÇ窺ñūâêÎÔøİ()\\-,.:;\/_–\'|\\[\\]´`+!&@®#?€„“”»«°№\"’]*'
hab ich dann aufgegeben und das Vorgehen gewechselt.
Gruss
walter
ps: die nächste Auswertung mach ich mal für DACH. Wird aber einige Tage dauern, da die mehrere Stunden schleicht und ich meine DB nicht zu sehr quälen will.
Ich finde man die wieder korrigiert sollte man die chinesischen Namen nicht einfach wegwerfen, wie es in http://osmlab.github.io/osm-deep-history/#/node/1853002791 passiert ist, sondern nach name:zh übertragen, nachdem man geprüft hat, ob das stimmt (z.B. mit Wikipedia).
Dito, hab ich auch wo sinnvoll. Da stand in etwa etwas von einem “Pauls Platz”, was nichts mit unserem Friedrich-Ebert zu tun hat sondern nur mit dem umgebenden Platz. Darfst du aber gerne entsprechend ergänzen. Ergänzt am Paulsplatz.
Ich habe in der USA schon einer Koreaner gefunden, der mit dem Programm neue Punkte eingetragen. Hier hilft Translate.google.com den richten Language Code zu finden.