Undiskutierter Import von Unternehmensdaten in Deutschland

Hallo,

gerade habe ich im IRC von User Rockus aufgeschnappt (diese Posting ist mit dem Melder so abgesprochen), dass 76 (!) verschiedene neue Accounts, die erst seit einigen Tagen existieren, seit heute POIS in größerer Menge importieren. Auf “importieren” sind wir aufgrund folgender Auffälligkeiten gekommen:

(1) Pro Changeset wird nur ein Node importiert.
(2) Es werden nur Nodes importiert.
(3) created_by=* am Changeset ist jedesmal anders und identisch mit dem Changeset-Kommentar!
(4) Die Beschreibungen der POIs sind identisch mit denen in einem Brachenbuch.
(5) Es werden nicht mehr existente POIs importiert.
(6) Aufgrund der Reihenfolge der Changesets gehe ich davon aus, dass irgendwelche Listen nacheinander geparst und in die OSM-DB geschrieben werden. Es ist auffällig, dass zwanzig Changesets hintereinander diverse DEVK-Versicherungsagenten eintragen.
(7) Die Changesets haben zeitliche Abstände im Sekundenbereich. Das ist kein Mensch.

Die Edits erstrecken sich scheinbar über das gesamte Bundesgebiet (mir fielen Edits in Chemnitz, Stuttgart und Karlsruhe auf). Die Accounts sind nach Berliner Haltestellen benannt, z.B. Friedrichsfelde, Voltastraße, Lichtenrade.

Ich habe wahllos einige Changesets einiger Accounts kommentiert, z.B. https://www.openstreetmap.org/changeset/31542509#map=15/48.7990/9.2428 oder ihnen eine PN gesendet. Einige haben den Text (jedesmal das Gleiche) auf Englisch, einige auf Deutsch bekommen.

Weil es sich über das gesamte Bundesgebiet erstreckt, schreibe ich das hier. Die DWG (Frederik) ist informiert und greift ein.

Viele Grüße

Michael

EDIT durch TEL0000: Titel geändert, da mittlerweile klar ist, dass es sich nicht um Daten aus einem Branchenbuch handelt.

Alles klaro. Dass es sich um eine vollautomatische Datenübernahme aus diversen Branchenbüchern handelt, hatte ich schon vermutet - nur über den Umfang war ich mir nicht im klaren. Da hätte ich mir die - in meiner typisch “netten Art” geschriebene - Nachricht ja sparen können. :wink:

Gruss
walter

Die Lokalisierung ist auch falsch. Erst wird aus einer Adresse in der “Sophienstr. 3 / I” eine “Sophienstr. 31”, dann vermutlich mit Google nachgeschaut, wo diese nicht existente Adresse sein könnte und dann der Node dorthin gesetzt.

Ach du scheiße - danke fürs erkennen und melden!

Hier in einer der Sperren ( https://www.openstreetmap.org/user_blocks/684 ) schreibt er sogar von >100 Accounts, die die identifiziert haben. Krass.

Die Daten sind auch ganz putzig und bestätigen (durch ihre Halbgarheit, falls es das Wort gibt) den Eindruck eines eiligen Imports. Z.B. ist bei diesem POI in Mannheim allerhand “suboptimal”:

  • werbemäßige Schreibung des Namens nur in Großbuchstaben “HEILENDE KÜCHE”
  • bei phone=* ist das Format ungeschickt (dt. Vorwahl ohne Internationalisierung mit +49)
  • die opening_hours sind mechanisch Tag für Tag wiederholt – ein menschlicher Mapper würde das schon aus Faulheit kürzer formulieren
  • description=* ist eindeutig keine Beschreibung in unserem Sinne, sondern ein ziemlich abgedrehter Kleinanzeigentext
  • nach dem schwurbeligen description-Tag nehme ich mal an, dass es sich um ein Lebensmittelgeschäft o.Ä. handeln soll; als Tag ist jedoch shop=kitchen gesetzt, was nach einer voreiligen Ableitung aus dem Namen aussieht.

Lustig: ein esoterisches Küchenstudio habe ich bisher noch nicht gesehen … :smiley:

Es wäre wirklich mal interessant zu wissen, wer/was dahinter steckt. Aus “Spass an der Freude” macht man sowas wohl nicht.

Will da jemand eventuell einen “Eintragsservice” aufbauen?

Oder gar den ungefragt aufgenommene Firmen eine Rechnung schicken? Diese Rechnungen werden ja in vielen Buchhaltungen einfach bdurchgewunken und bezahlt, ohne der Sache auf den Grund zu gehen. Siehe http://www.frankfurt-main.ihk.de/recht/themen/wettbewerbsrecht/unlauterer_wettbewerb/adressbuchangebote/index.html

Wir werden es wohl nicht so schnell erfahren.

Gruss
walter

ps: es könnte aber auch sein, dass es der Adressbuchverlag selber ist und dass er “seine” Daten in OSM reinklopft. Und dann?

Servus,

mein “bevorzugtes Nagelstudio” :wink:
http://www.openstreetmap.org/node/3554757503
geht bei der Suche mit dem sehr aussagekräftigen description
“Beauty Angels steht für ausgebildetes Personal, hochwertige Produkte und ein breites Leistungsangebot.”
in Richtung

https://www.bundes-telefonbuch.de/suche/wimpernverlaengerung
http://web2.cylex.de/firma-home/beauty-angels-kosmetikstudio-11074547.html
http://www.stadtbranchenbuch-muenchen.de/6694172.html
und ähnliche querverlinkte Nonsens-Seiten.
Fragt sich, wer der Urheber ist

Ist es vorgesehen/ wünschenswert, diese “Datenbereicherung” auch wieder zu reverten ?

Im Fall von
http://www.openstreetmap.org/user/magdalenenstr
immerhin 112 Einzelreverts.
Allerdings würden wir dann auch den sehr hilfreichen Eintrag der "HEILENDE KÜCHE " verlieren ;-))

Gruss
derBeKri

Ja.
Wenn es “geklaute” Einträge sind, wegen Urheberechtsverletzung und wenn es “eigene” Daten sind, wegen nicht angemeldetem und dazu noch schlampigem Import.

Für Frederik absolut kein Problem, er hat seine Programme dafür.

Hier mal die wohl komplette Liste - habe ich auf Bitte der betroffenen Firma selbstverständlich entfernt.

die allerdings auch einige saubere Einträge hat, die wohl nicht von dem Übeltäter stammen.
Nee, doch alle von ihm.

Man beachte die manchmal leeren Öffnungszeiten. genauso schlampig wie die hier nicht aufgelisteten Strassennamen mit Str.

Gruss
walter

Der erste Account, der derartig aufgefallen ist, ist der Account “synup”; als einziger hat der ausser-deutsche Daten auf die gleiche Weise hinzugefügt. Fügt man dem ein “.com” hinzu, gibt es auch schon einen Verdacht, wer oder was dahinterstecken könnte… ich revertiere nun mal die bekannten Edits, aber wenn da irgendwer die Anmeldung automatisiert hat, kann es natürlich sein, dass sich weitere ähnliche Accounts anmelden und/oder die hier gesperrten Accounts nach Ablauf des 24h-Blocks einfach weitermachen. (Ich habe allerdings das “muss sich anmelden”-Flag gesetzt, und vielleicht können das die Bots ja nicht…)

Lassen wir uns mal überraschen…

Habt Ihr die IP Adressen der Accounts? Dann könnte man ja validieren ob synup.com dahinter steckt.

ganz frisch von Heute: http://www.openstreetmap.org/user/mierendorff

                wno_asosmlink                    |           name            |           description            |          opening_hours           

-----------------------------------------------------±--------------------------±---------------------------------±---------------------------------
http://www.openstreetmap.org/browse/node/3556340493 | inlingua Center Abensberg | Do you speak…? Sprachen ler… | Mo 07:30-19:30;Tu 07:30-19:30…
http://www.openstreetmap.org/browse/node/3556280793 | inlingua Center Leer | Sprachen lernen im inlingua C… | Mo 08:00-19:00;Tu 08:00-19:00…
http://www.openstreetmap.org/browse/node/3556264105 | inlingua Center Aachen | Do you speak…? Sprachen ler… | Mo 08:30-13:00,16:00-20:30;Tu…
http://www.openstreetmap.org/browse/node/3556262808 | inlingua Center Karlsruhe | Parlez-vous français? Sprache… | Mo 08:30-14:00,16:00-21:00;Tu…
(4 Zeilen)

@woodpeck: in welchem Land war das denn? amiland

Gruss
walter

bin ich eigentlich blind oder warum kann ich hier den CS nicht kommentieren? http://www.openstreetmap.org/changeset/31560878
Koennte sein, dass der CS noch offen ist?

Der war scheinbar noch offen - jetzt steht er als geschlossen vor 24 Minuten und kann kommentiert werden.

Das wäre ja durchaus vorteilhaft, denn dann könnte man ihm erklären, wie es “richtig” geht und anfragen, ob er seine Daten nicht stattdessen für eine Vollständigkeitsüberprüfung und als Hilfestellung für einen “manuellen Import” in der Form “da muss ein Laden sein, geh hin, schau nach, trag ein oder streich aus der Liste” bereitstellen würde. Manuelle Kontrolle ist bei solchen Daten auf jeden Fall notwendig.

Ja, das wäre schön; die Daten sind ja prinzipiell für uns wertvoll, aber nicht in der Form “Wir nutzen OSM als Datenmüllhalde und Werbebanner, nach uns die Sintflut”. Und schon garnicht undiskutiert und ungefragt!

Ich glaube inzwischen nicht mehr an meine “das war der Verlag selber”-Theorie.
Cyclex und Stadtbranchenbuch werden laut Impressum wohl von zwei unabhängigen deutschen Firmen betrieben. Da kann ich mir sowas nicht vorstellen. Eigentlich könnten sich deren Anwälte damit beschäftigen.

gruss
walter

Hallo,

wenn man in den kommenden Tagen wissen will, ob diese Bots weitermachen, kann man einfach wahllos in WhoDidIt irgendwo eine Bounding-Box für einen RSS-Feed aufziehen und diesem im Browser öffnen:

  1. WhoDidIt aufrufen http://zverik.osm.rambler.ru/whodidit/?zoom=10&lat=51.18385&lon=8.07178&layers=BTT
  2. Auf “Get RSS link” klicken
  3. Box aufziehen
  4. Auf “RSS link” klicken und diesen im Browser anschauen. Beispiel

Wer schon selbst regelmäßig per WhoDidIt über seinen Feed-Reader sein “Revier” im Auge hat, kann auch seine üblichen Feeds nutzen.

Die Box darf groß sein. WhoDidIt zeigt nur die zwanzig neusten Changesets an. Wenn die Box groß ist, kommt man halt weniger weit nach hinten in die Geschichte, was aber recht ist. Im RSS-Feed wird auch das created_by=* angezeigt. Da created_by == comment bei diesen Edits, findet man sie recht schnell. Außerdem klingt der Changeset-Kommentar meist wie eine Firma.

Viele Grüße

Michael

Ich frage lieber meine DB. Da hab ich das Filter inzwischen so eingestellt, dass die mir hoffentlich nicht durch die Lappen gehen.
Danach ist heute bis auf die vorhin gezeigten 4 Einträge mit Inlingua nichts hinzugekommen.

Und die werde ich heute nacht irgendwann rausschmeissen.

… vanished in the haze (*)

Gruss
walter

*) http://songmeanings.com/songs/view/792/

Ich habe inzwischen eine Mail von den Verantworlichen bekommen, die ich hier mal ohne Namen zu nennen wiedergebe; ich habe die Firma (ein mir bislang unbekanntes Unternehmen aus Berlin) gebeten, sich doch hier im Forum zu beteiligen und eine Lösung zu suchen (falls es eine gibt).

Die Firma betreibt einen Web-Service, über den Gewerbetreibende ihre “Online-Sichtbarkeit” managen können. Dieser Web-Service trägt die Unternehmensdaten automatisch in lauter verschiedene Online-Plattformen ein.

Der Autor der Daten ist dabei in der Regel der Unternehmer selbst.

Der Grund, warum die Firma bei uns so viele Accounts angelegt hat, ist, dass man nicht möchte, dass jeder sofort sehen kann, wer die Kunden der Firma sind. (Nicht dass wir das nicht schnell rausgefunden hätten…) die Firma fürchtet, dass jeder Konkurrent sonst einfach nur die Edits des einen Accounts ansehen muss, um zu wissen, wen sie abwerben müssen.

Die Firma würde gern mit uns irgendwie kooperieren, um weiterhin ihre Unternehmensdaten zu uns fliessen zu lassen, und ist hier durchaus gesprächsbereit.

Ich sehe (und das habe ich auch schon so zurückgemailt) drei Probleme:

  • OSM ist eine Community; die User-Accounts haben bei uns den Sinn, dass man Kontakt aufnehmen kann. Aber wie Kontakt aufnehmen mit dem Unternehmer, dessen Daten zu uns nur durch ein automatisches Portal kommen?

  • Die Firmen-Einträge enthalten in der Regel einen Werbe-Blurb. Daran haben wir bei OSM kein Interesse.

  • Ich bezweifle, dass der Unternehmer tatsächlich der Rechteinhaber an der Geoposition ist; für mich sieht es aus, als ob hier mit Hilfe eines Geocdoers Adressen in Punkte auf der Karte gewandelt wurden, und dann hätten wir ein Lizenzproblem.

Wie gesagt, ich habe der Firma empfohlen, sich hier direkt zu melden und die Sache zu besprechen, und bis zur Klärung der Sache keine weiteren Importe durchzuführen.

Bye
Frederik

Erst einmal Danke für deine Aktionen - und natürlich auch für die hoffentlich bald sichtbaren Versuche dieser Firma, das Problem aus der Welt zu schaffen.

Alle Daten in OSM sind frei und dürfen von allen für alle Zwecke verwendet werden. Wem das nicht passt, der sollte “seine” Daten hier nicht eintragen.

Zum “Stellvertreter-Verfahren”: Das gefällt mir überhaupt nicht. Wir hatten mit Wheelmaps Probleme und Yapis lief am Anfang ja auch nicht gerade rund.

sehe ich genau so. Das passt hier nicht hin.

Der Eintrag werbefreier POI mit “vernünftigen”, korrekten und legalen Informationen (keine von GM übernommenen Koordinaten!), wäre natürlich sehr wünschenswert - nur wie?

Nicht nur das: ich habe mMn festgestellt, dass die Daten aus den Webauftritten mindestens zweier unterschiedlicher deutscher Firmen stammen könnten.
Dieses anhand von wortwörtlichen Formulierungen inclusive Übernahme “seltsamer” Schreibweisen. Das ist für mich noch ungeklärt.

Weiterhin ist ungeklärt, was mit bereits in OSM vorhandenen POI geschehen ist oder geschehen soll, insbesondere wegen der speziellen Node/Way/Relation-Problematik und den dann möglichen mehrfachen Einträgen.
Geschützt sind die POI natürlich auch nicht. Da kann jedermann was ändern. Selbst die OSM-ID ist nicht permanent, da werden Updates bestimmt lustig :wink:

Zu guter letzt bin ich stinksauer über die freche, nahezu unverschämte Art, die OSM-Community hinters Licht zu führen:

  • Masseninport aus - für mich - zweifelhafter Quelle
  • keinerlei Kommunikation vor der Aktion
  • Versuche, die Vorgehensweise zu verschleiern und dann den Schutz der eigenen Kundendaten vorzuschieben.
  • Einsatz von Spam-Usern mit Wegwerf-Mail ohne reale ansprechbare Person

Gruss
walter

Liebe OSM-Community,

mein CTO hat mich gestern Abend informiert, dass die Datenübermittlungen an OpenStreetMap per API leider nicht akzeptiert wurden. Er erklärte mir, dass die Ursache darin liegt, dass das von uns übermittelte Volumen an POIs und die Anzahl der dafür erstellten Accounts bei Ihnen Sicherheitsbedenken ausgelöst haben. Er erläuterte mir, dass es ein Problem darstellt, dass Sie in unserem Fall zur Zeit nicht wissen können, ob unsere übermittelten Daten legitim sind.

Als Co-Founder und Geschäftsführer des hinter der Datenübermittlung stehenden Unternehmens, spreche ich Sie daher heute an, um Ihnen die gesamten Hintergründe sehr offen darzustellen und um Ihre - selbstverständlich begründeten - Sicherheitsbedenken aufzuklären.

Bevor ich das tue, möchte mich jedoch zuerst im Namen meines Unternehmens für jegliche Unannehmlichkeiten und entstandenen Irritationen ganz herzlich entschuldigen.

Zu unserem Unternehmen:
Wir sind ein Unternehmen mit ca. 65 Mitarbeitern aus Berlin. Wir haben ein Datensynchronisation-Tool entwickelt, um die mobile und lokale Sichtbarkeit von standortbasierten Unternehmen zu managen. Wir helfen Unternehmen ihre Unternehmensinformationen plattformübergreifend in den relevantesten Plattformen einheitlich zu halten, einschließlich Google Maps, Google+, Facebook, foursquare, Nokia Here and 30 weitere Apps, Bewertungsportale, Verzeichnisse und Navigationssysteme. Wir haben hierfür über mehrere Jahre API Kooperationen mit >30 relevanten Plattformen aufgebaut. Auf diese Weise sorgen wir für eine plattformübergreifende, konsistente Unternehmenspräsenz. Inzwischen verwalten wir (im direkten Auftrag der jeweiligen Unternehmensinhaber) tausende von Standorten.

Wie funktioniert das?
Wir stellen direkt nach der Beauftragung durch den Unternehmensinhaber, diesem ein Online Interface zur Verfügung, über das der Inhaber des Unternehmens die aktuellen Unternehmensdaten einpflegen kann. Wir synchronisieren im Anschluss diese inhaberverifizierten Unternehmensinformationen in die relevantesten Plattformen.

Die Legitimität und Aktualität der Daten ist 100% gewährleistet, da die Daten vom Unternehmensinhaber selbst stammen.

Gerne möchte ich den zweiten Punkt ansprechen, der bei Ihnen zurecht Sicherheitsbedenken ausgelöst hat: Die Anzahl der verwendeten Accounts.

Ich habe meinem CTO den allgemeinen Auftrag gegeben, die Datenübermittlung stets so durchzuführen, dass nicht jeder unserer Mitbewerber unsere gesamte Kundenliste einfach auslesen kann. Aus unserer bisherigen Erfahrung wissen wir, dass unsere Mitbewerber dies versuchen und sehr aggressiv unsere Kunden abwerben. Wenn wir unter diesen Rahmenbedingungen über einen Account alle unsere POIs bei Ihnen einspielen, entsteht bei uns ein sehr hohes Sicherheitsrisiko. Sobald einer unserer Mitbewerber auch nur einen einzelnen unserer Kunden bei Ihnen findet, kann er über die user “history” alle unsere Kunden problemlos auslesen. Als Geschäftsführer wäre es fahrlässig von mir, wenn wir auf diese Weise unsere gesamte Kundenliste offenlegen.

Ich möchte Sie daher bitten, uns einen Weg zu ermöglichen (z.B. über mehrere Accounts, aber sehr gerne auch über einen anderen Weg), der uns als Unternehmen nicht diesem hohen Risiko aussetzt. Selbstverständlich sind wir bereit, dafür alle erforderlichen Schritte einzuleiten, um uns bei der Datenübermittlung Ihnen (OSM) gegenüber zu identifizieren:

z.B. eine Identifizierung über…

  • unsere IP Adresse
  • unsere E-Mail Adresse
  • jegliche andere Identifizierungsmethoden, die uns gegenüber OSM Contributoren identifizieren

Gerne finde ich mit Ihnen und der OSM Community auch eine Lösung für die anderen 3 angesprochenen Punkte:

  1. Möglichkeit der Kontaktaufnahme mit dem Eintragenden.

Wir haben ein Team (unser Operations-Team), dass ausschließlich für die Datenübermittlung an die verschiedenen Plattformen verantwortlich ist, wenn die Datenübermittlung nur halb-automatisch erfolgen darf. Gerne setze ich dieses Team ein, um OSM einen “Kommunikations-Rückkanal” zur Verfügung zu stellen, der Gewährleistet, dass Sie stets problemlos mit uns in Kontakt treten können, falls Fragen zu einzelnen POIs aufkommen, d.h. sobald ein Contributor eine Rückfrage zu einem POI hat, reagiert unser Operations-Team auf diese Rückfrage innerhalb kürzester Zeit.

  1. Pin Positionierung

Wir bieten den Unternehmen, die manuelle Nachjustierung der Koordinaten an (die die jeweiligen Unternehmen noch nicht in jedem Fall nutzen). In Rücksprache mit den Inhabern kann unser Operations-Team jedoch gerne auf Ihren Wunsch hin stets eine manuelle Nachjustierung der Koordinaten vornehmen.

  1. Keine werbliche Hervorhebung

Die meisten Plattformen erwarten von uns, dass wir ihnen den Beschreibungstext des jeweiligen Unternehmens als Datenfeld mitliefern, damit die Unternehmensprofile mit dem maximalen Content ausgestattet sind. Ich gehe davon aus, dass wir über Ihre API in Ihrem Fall den Beschreibungstext ebenfalls übermittelt haben. Wir können auf Ihren Wunsch hin, dieses Feld gerne auslassen, so dass sie lediglich die Basis-Unternehmensdaten übermittelt bekommen.

Wir hoffen, dass Sie uns helfen können, einen Weg zu finden, unsere Daten der OSM Community zur Verfügung zu stellen, ohne unsere Unternehmensexistenz durch Offenlegung unserer Kundendaten zu gefährden.

Ich bedanke mich ganz herzlich für Ihr Feedback und Ihre Unterstützung und stehe Ihnen jederzeit für Rückfragen zur Verfügung.

Viele Grüße aus Berlin

Danke für ihre schnellen und ausfühlichen Erläuterungen. ich versuche mal ein wenig aus meiner - mehr technisch orientieren - Sicht zu antworten. Es wäre natürlich prima, wenn sich nächste Woche ihr Technischer Direktor hier einklinken würde.

Genau da liegt für uns der “Hase im Pfeffer”.

ok, damit ist meine Vermutung, dass mit den Daten nicht alles rechtens ist, vom Tisch. Sorry, aber das sah für mich ein wenig seltsam aus.

Das ist wirklich nicht einfach und Ihre ersten Versuche waren ja auch leicht zu “knacken”.

Ich habe da einen Ansatz, der das eventuell lösen kann. Da ich aber nur ein einfaches Mitglied der Deutschen OSM-Community bin und nicht für irgend ein Gremium offiziell sprechen kann und will, werden Sie sich hier auf weiteren Feadback der Kollegen gefaßt machen müssen. Und die können ganz anderer Meinung sein.

Man könnte - so schlimm wie sich das auch jetzt anhört - für jeden Kunden einen eigenen OSM-Account anlegen. Das machen natürlich Ihre Mitarbeiter in seinem Auftrag. Das automatische Registrieren haben sie ja schon im Griff :wink:

Wenn dabei keine Wegwerf-Mail benutzt wird, sondern eine Mailadresse, die per forwarding indirekt an ihren Support geht, “merkt” das in OSM niemand - auch nicht der Mitbewerb. Mailadressen werden bei uns nicht bekannt gegeben, sie sind geschützt.

Die Position mancher Pins in den ehemals vorhandenen Datensätzen stimmt uns (mich und Herrn Ramm) bedenklich. Es war hier klar ersichtlich, dass die Position einer noch nicht in OSM erfassten Adresse absolut deckungsgleich mit der in Google-Maps zu erkennenden Position ist. Daher liegt die Vermutung nah, dass der GeoCoder von Google verwendet wurde.
Und das schafft uns - und ihnen - sehr grosse Probleme. Ihnen, weil die Google-Koordinaten nur in Google-Produkten verwenden dürfen und uns, weil wir sowas mit in unsere DB nicht haben dürfen und damit angreifbar sind.

Ja, das hört sich gut an. Besonders, da wir in OSM die POI mit den Adressen und Kontakten durchaus gut gebrauchen können.

Es gibt da noch einige Anmerkungen zu weiteren technischen Problemen, die bei der halb-automatischen Erfassung von POI auftreten können.

Z.B.

  • Wartbarkeit bei ID-Änderung
  • Vermeidung redundanter oder sogar unterschiedlicher Informationen zum selben Objekt
  • andere Kleinigkeiten

Das würde hier aber den hiesigen Rahmen sprengen und sollte eher mit Ihrer Tecknik geklärt werden.

Mfg
walter