Überprüfung des Zeichensatzes mit overpass

Ich versuche vergeblich eine overpass turbo query zu bauen, die mir alle name-tags nennt, in denen nicht der UTF-8 Zeichensatz verwenden wird (also z.B. Hindi, japanisch…).

Vielleicht kannst Du ja mit dem Test in JOSM weiterkommen. Suche hier nach containsUnusualUnicodeCharacter
https://josm.openstreetmap.de/browser/josm/trunk/src/org/openstreetmap/josm/data/validation/tests/TagChecker.java

Oh jee! Keine Ahnung wie ich das verwenden könnte.
In overpass bräuchte man wohl einen geeigneten regulären Ausdruck.

Hintergrund:
In Indien gilt die Regel: Alle name-tags in englischer Sprache. Die vielen indischen Regionalsprachen in name:xy=…
Leider gibt es momentan wieder Konflikte, weil vor allem Newbies das nicht wissen oder wissen wollen. Der Name-tag ist nun mal auf der Mapnik-Seite sichtbar, die anderen nicht. Diese Problemfälle sind schwer zu finden. Daher mein Versuch mit einer overpass query.

Glaube du hast da was durcheinander bekommen. Unicode ist ein Zeichensatz, UTF-8 ist eine Kodierung von diesem Zeichensatz. Heutzutage wird üblicherweise alles in Unicode geschrieben, also Englisch, Japanisch, Klingonisch (http://www.evertype.com/standards/csur/klingon.html), usw.

Die OSM-Datenbank benutzt ebenfalls Unicode. Und die APIs nutzen UTF-8. Ich hoffe, dass es deshalb überhaupt keine nicht-Unicode-Daten gibt.

Was genau suchst du nun? Nicht-englische Tags? Oder irgendwelche defekten Kodierungen?
https://image.slidesharecdn.com/unicodeandcharacterencoding-140410003026-phpapp01/95/character-encoding-unicode-how-to-with-dignity-1-638.jpg

Ich weiß nicht, ob Overpass+Regex das geeignete Tool ist. Es geht zwar: https://overpass-turbo.eu/s/Vhd
Aber vielleicht wäre es sinnvoller, ein OSM-Extrakt zu durchsuchen?

Hab mich vielleicht fachlich falsch ausgedrückt.
Ich suche alle Fälle, bei denen im name-tag nicht der englische Name steht, sondern eine indische Sprache verwendet wird, wie Malayalam, Kannada, Tamil, Hindi, Bengali,…

Da hast Du zwei Möglichkeiten:
Entweder alle Zeichen auflisten, die Du für englisch hälst und dann nach name suchen, der nicht ausschließlich diese Zeichen enthält:

node[name][name !~ "^[A-Za-z0-9 /\&\'\,\.\(\)\-\:\–\|]+$"]

(die Liste ist bestimmt nicht vollständig)
oder eben nach Zeichen in name suche, die Du nicht erlauben willst, so wie im Beispiel bei #5

Nicht dass ich mich in Indien gut auskennen würde, aber eine solche Regel halte ich grundsätzlich für problematisch. In multilingualen Gebieten sollten die Menschen vor Ort entscheiden, welche Sprache sie priorisieren (also in “name” eintragen), bzw. wenn man sich nicht einigen kann, bleibt “name” leer und es werden nur name:xx tags verwendet. Wer sollte die Authorität haben, für ganz Indien festzulegen, dass überall Englisch in “name” eingetragen werden soll? Selbst wenn das vor ein paar Jahren mal eine Gruppe von Mappern so beschlossen hat kann das m.E. nicht für alle Ewigkeit und für alle Orte und Gegenden verbindlich sein.

Danke Gerd!
Mit deinem regulären Ausdruck (den ich noch ein wenig ausgebaut habe) komme ich schon recht weit.
Es ist schon erstaunlich, welche Sonderzeichen-Kominationen die Mapper sich ausdenken.

Heinz V, gerade wenn es “Konflikte” gibt wie du schreibst, ist eine technische “Lösung” vermutlich nicht angebracht. Kannst Du erklären, was Du mit der Overpass Query genau vorhast?
Zur Sicherheit auch noch ein Link ins Wiki: https://wiki.openstreetmap.org/wiki/Automated_edits :wink:

Also einen automatische Edit habe ich noch nie gemacht und wäre bei den vielen unklaren Fällen gar nicht möglich.
Ich würde mir die Fälle in JOSM laden und manuell die Fälle durchgehen.
Beispielfall : jemand hat den Namen unter name:hi eingetragen und meint, so müsse es auch bei name heissen. Dies würde dann wieder zurückgesetzt.
So ein Fall ist eindeutig. In z.B 500 Fällen jeden Mapper einzeln anschreiben und um Änderung bitten: Nein Danke, dann lasse ich es.

Vergessen habe ich : kürzlich habe ich mehrere Changesets zurückgesetzt. Da gab es aber Absprachen mit der indischen Community und ich wurde darum gebeten.

Nach mehr als 11 Jahren Mapping-Praxis sind mir die Regeln für automatische Edits sehr wohl vertraut.
Ich kenne mich mit der Lage in Indien recht gut aus.
Das Sprachenproblem ist warlich komplex; aber ich habe darauf nie Einfluss genommen.
Ja, vor Jahren haben eine Handvoll indische Mapper die Regel aufgestellt. Seitdem gab es regelmäßig Problemfälle und es wurde darüber diskutiert. Im Moment sind es vor allem ganze neue Mapper, die grundsätzlich das Wiki nicht lesen. Changesets werden grundsätzlich ignoriert.
Vor Jahren wurde die Karte openstreetmap.in aufgesetzt, wo statt dem name-tag eine Sprache nach eigener Wahl angezeigt wird. Leider fehlt das Wissen, Rechnerkapazität… um dies zu verbessern.
Im Moment gibt es ca. 20 sehr aktive indische Mapper und diese sehen die name-Sprachen-Regelung alle genauso wie ich sie geschildert habe.

das hatte ich mir schon fast gedacht, als ich 2009 gesehen habe, sicherheitshalber wollte ich trotzdem nochmal kurz drauf hinweisen, (weil es gelegentlich mal vorkommt dass auch langjährige Mapper das nicht kennen).

Es ist halt ein schmaler Grat, insbesondere wenn es um Sprache geht, die ja sehr mit Identität zu tun hat, und wo es oft Reibungspunkte geben kann. Für Leute wie mich ist es sicherlich bequem, wenn die Namen auf englisch da stehen, oder wenigstens mit lateinischen Schriftzeichen, aber ein bisschen komisch ist es doch, wenn es 2 landesweite Amtssprachen gibt (Hindi und Englisch), und man sich für die „ausländische“ Sprache entscheidet und das Hindi im name-tag ignoriert? Die über 20 weiteren Amtssprachen gelten jeweils nur regional, aber für eine wirklich inklusive Karte „von unten“ wäre es vielleicht ok, das als 3. Namen mit in den name tag zu stecken? Nur als Anregung, Nachteil dieser multivalue-Krücke ist, dass die Karte dann sehr voll würde.

Ich halte nichts von der Sprachenvielfalt im name-tag.
Wesentlich besser wäre es, wenn openstreetmap.org eine Sprachauswahl hätte.
(Sonst wollen die Russen, Japaner, Chinesen… den Namen von Rom auch noch in ihrer Sprache als 4., 5. … Eintrag.)

es geht bei „name“ um lokale Identität, Japaner und Russen sind vorwiegend als Besucher in Rom, während es bei Chinesen durchaus eine nennenswerte Minderheit gibt, insbesondere in bestimmten Vierteln, für einen Einzug in den name-Tag sind es aber noch sehr wenige. Nicht direkt vergleichbar mit Hindi in Indien, bzw. regional einer der dort überwiegenden Sprachen.

Bezüglich der Russen… in Rom hast du wohl recht.
Die von mir genannte Sprachenauswahl auf openstreetmap.org würde viele Probleme lösen und die Attraktivität von OSM nicht nur in Indien enorm vergößern. Aber ich kann nicht abschätzen, ob das realisierbar ist. Zumindest sind mir keine Aussagen von „Experten“ hierzu bekannt.