Grüße an die "KI" Apologeten

Nur eines von vielen Beispielen.
Hier trifft es halt mal uns.

Wer es nutzt unterstützt es.

https://www.heise.de/news/OpenStreetMaps-sorgt-sich-Tausende-KI-Bots-erfassen-Daten-11156876.html?wt_mc=sm.red.ho.mastodon.mastodon.md_beitraege.md_beitraege

8 Likes

Hängt das mit den problemen bei overpass zusammen?

Also ehrlich, wenn es nur darum geht aktuelle daten abzufragen, dann sollen die sich eine eigene instanz aufsetzen.
Und was kann man dagegen machen? Die öffentliche so abschalten, dass nur mit osm-account angemeldet man anfragen stellen kann? Dann gebt ja sicher viel kaputt das darauf aufbaut. Aber wär mir recht das für eine weile hinzunehmen als Streik-Option.

1 Like

Die öffentlichen Overpass Server haben nichts mit der Infrastruktur der OSMF zu tun. Es mag sein dass es ähnliche Probleme sind, bis jetzt hat aber @drolbr nichts wirklich dazu verlauten lassen.

1 Like

Ok.
In dem Artikel steht halt nicht was die woher nehmen um dann was damit anzufangen.
Ich will hiermit aber auch nicht direkt nach einer Anleitung genau dafür fragen.

Drolbr hatte zu dem Thema einen eigenen Thread

Die letzte Info von Ihm darin ist leider auch schon etwas älter und bisher hat sich die Situation nach meinem empfinden immer nur in kurzen Zeiträumen gebessert. Ich weiche je nach Anforderung dann auf Postpass aus.

Insgesamt ist es aber ein Thema dass große OpenSource-Services immer stärker beschäftigt und keine wirkliche Lösung in Sicht ist. Sowohl auf Seiten des allgemeinen sinnbefreiten Scrapings, als auch des Vibe-Codings diverser Skript-Kiddies mit kathastrophalem Code, der Services wie OSM oder Overpass etc. direkt anzapft. Die gab es zwar schon immer, aber nicht in der Masse und den Möglichkeiten.

2 Likes

@silversurfer83 Danke! Genauso muß man auch in die Gegenrichtung denken: Beeinflussung/ Manipulation von OSM-Daten…

Es mag sein dass es ähnliche Probleme sind, bis jetzt hat
aber @drolbr nichts
wirklich dazu verlauten lassen.

Kurze Antwort: ich weiß es nicht. Wenn ich wüsste, was sich wirklich verschoben hat, würde ich ausreichend zielgenaue Maßnahmen ergreifen.
Die CPU-Last ist stark gestiegen, die Anzahl der Requests signifikant gesunken. Gleichartige Requests sind gleich schnell geblieben.

Die Anzahl der IP-Adressen ist stark gestiegen, und es gibt eine große Anzahl Requests mit streuendem Aussehen, bei denen man als Mensch schnell erkennt, dass diese keinen Sinn ergeben. Den Zuwachs an IP-Adressen hat es aber vor allem aus den Kontingenten der Hyperscaler gegeben. Sowie ein paar Artefakte, die Residential Proxies sein könnten (aber nicht zwingend sind). Auf die Idee mit schrottiger KI als Ursache hat mich erst jemand in den Fragen nach dem Talk gebracht.

Im SotM-EU-Vortrag Folien habe ich meine Erkenntnisse bis dahin gesammelt. Das ist ein temporärer Link, weil ich das Vortragsvideo oder die Folien nicht gefunden habe.

Seitdem habe ich am 23.01. noch zwei Abfragen mit erkennbaren Mustern gesperrt, was laut Munin zumindest für den Moment ein wenig Luft verschafft hat.

Ich habe da aber leider auch nicht so viel Zeit drauf verwenden können, weil es für den Treasurer deutlich mehr Arbeit gab: die Bank of Ireland hatte uns aus dem Konto ausgesperrt, bis das Board der Grund herausgefunden hat, einen formalen Beschluss (am 18.12.) getroffen hat wer Zugriff hat, und mehrere Board-Mitglieder diesen Beschluss auf dem selben physischen Formblatt in Tinte unterschrieben haben. Wir mussten also die richtigen papierenen Papiere von Kenya nach Deutschland nach Irland bekommen. Über Weihnachten und den Jahreswechsel und zwei Gehaltsläufe.

Wie immer hat die Kommunikation da eher so mittel funktioniert, und ich muss mich noch bei recht vielen Leuten entschuldigen. Ich freue mich daher immer über Pings, weil ich dann etwas zielgerichteter Fragen beantworten kann.

Die Rechnung ist: es gibt rund 4 Mrd IP-Adressen (bisher kein Fehlnutzer nutzt IPv6), aber nur ein paar hunderttausend echte OSM-Nutzer (und viel weniger regelmäßige Mapper). Wenn wir ein OSM-User-Token zuschalten und die Abfragen priorisieren, bekommen wir für diese User die alte Schwuppdizität zurück. Für alle anderen gibt es weiterhin Best Effort nach Tagesform je nachdem wieviel Fehlnutzer verfrühstücken.

Das ist aber eher mehr Arbeit und wird wohl den ganzen Februar füllen. Ich überlege, ob es verhältnismäßig ist, mal Logs für 24 Stunden irgendwo abzulegen, so dass dann andere nach Mustern mitsuchen können.

17 Likes

Das geht gut mit KI. :wink: SCNR

Ansonsten: IP Priorisierung hört sich gut an. Ob’s da schon fertige Tools für gibt weiß ich nicht.

Das klingt schwer nach KI mit KI bekämpfen :open_mouth: :upside_down_face: .
Tatsache aber ist: KI ist beim Erkennen von verborgenen Mustern in großen Datenmengen dem Menschen inzwischen meist weit überlegen.

3 Likes

Deswegen kommt KI auch nicht mit OSM zurecht. Kein Muster zu erkennen. :wink:

11 Likes

Mit meiner Infrastruktur und den von mir betriebenen bzw. bereitgestellten Diensten habe ich aktuell offenbar noch Glück und werde nicht überdurchschnittlich mit Requests belastet. Klar gibt es immer mal Spitzen, aber insgesamt ist das (noch) ok.

Wenn es dir (@drolbr) möglich ist, Logs zur Nutzung für Forschungszwecke bereitzustellen, würde ich gern versuchen, dabei etwas Unterstützung zu leisten. Ehrlicherweise habe ich kein genaues Bild davon, wie so ein Logfile bei deinem Dienst konkret aussieht, aber vielleicht findet ja die eine oder andere KI trotzdem etwas, das wir übersehen haben. :robot::wink:

Beste Grüße
Pascal

3 Likes