ODbL-Zustimmung nach Datum des letzten Edits

Ich glaube, es ist nicht so leicht, aus den Kurven etwas herauszulesen.

Ein Problem entsteht dadurch, daß die Anzahl User im Laufe der Zeit zugenommen hat. Das sollte für alle Gruppen gleichermaßen gelten, also für die nur angemeldeten inaktiven, als auch für die aktiven User.

(a) Bei gleicher Zustimmungsrate über alle Zeiten würden die Zustimmungen der aktuell aktiven User also wohl einen überproportialen Anteil an Edits repräsentieren. Dabei ist unterstellt, daß jeder Nutzer nach einer bestimmten Zeit die Lust verliert und aufhört beizutragen. Viele hören schnell auf, wenige halten länger durch und nur ganz wenige machen sehr lange mit. Dabei ist weiter unterstellt, daß diese “Lustverteilung” unabhängig von der Anzahl der User ist.

(b) Wenn “Edits” sowohl die Anlage neuer Objekte als auch das Ändern bestehender Objekte bedeutet, so steht zu vermuten, daß ältere, mittlerweise inaktive User einen höheren Anteil an neu angelegten Objekten haben. Die Nicht-Zustimmung eines alten Users könnte im Mittel also negativere Auswirkungen haben, als die eines neuen Users. Dafür gibt es aber weniger davon (siehe Punkt a).

Diese zeitabhängigen Einflüsse sind in den angegebenen Statistiken nicht enthalten – oder verstehe ich sie nur nicht richtig?

Den Erfolg der E-Mail-Aktion kann ich auch schlecht abschätzen. Wenn jemand vor einem oder zwei Jahren mal für ein paar Wochen aktiv war, dann aber die Lust verloren hat: mit welcher Wahrscheinlichkeit wird er auf eine E-Mail reagieren, wenn er OSM seit dieser Zeit aus den Augen verloren hat? Vermutlich gilt auch hier: je länger ein User inaktiv ist, um so geringer die Wahrscheinlichkeit, daß er auf so eine E-Mail reagiert. Auch hier werden die Punkte (a) und (b) von oben ein Einfluß auf die Statistik haben, sowie vielleicht auch die Menge der Edits dieses Users. Allerdings zeigt die zeitliche Veränderung der Statistik von Oli-Wan, daß sich am “langen Ende” auch was tut. Die statistische Signifikanz kann ich aber nicht beurteilen.

Verläßliche Prognosen werden daher wohl schwer zu stellen sein.

Das dürfte stark von der Formulierung der Mail abhängen. Wenn man jemandem zeigt, daß seine Beiträge immer noch in OSM stecken und geschätzt werden, auch wenn er OSM für sich längst abgehakt hat, wird er sich vielleicht schon die Mühe einiger weniger Mausklicks (Link in der Mail, “Forgot your password?”, nochmal den Link in der Mail und schließlich “I agree”) machen.

Einerseits sollte in der Mail rüberkommen: Bitte stimme zu, damit deine Arbeit und die darauf aufbauende Arbeit anderer nicht verloren geht; ohne deine Zustimmung können wir sie nicht in die neu lizenzierte Datenbank übernehmen - andererseits darf die Mail nicht zu kompliziert und lang werden, denn dann liest sie niemand. Kann man nur hoffen, daß diese Mail nicht “mal eben so” geschrieben wird.

Zudem wäre es sicher hilfreich, die Mail in (möglichst viele) verschiedene Sprachen zu übersetzen und jedem Adressaten möglichst eine Mail in seiner Sprache zukommen zu lassen. Nur was ist mit denen, die in ihren Benutzereinstellungen keine bevorzugte Sprache eingestellt haben? (Mußte man bei der Anmeldung nicht, oder?) Die Changesets oder erstellten Objekte zu O(10^5) Benutzeraccounts nach Hinweisen auf die Muttersprache der Nutzer zu durchforsten, na viel Spaß. Klar, der räumliche Schwerpunkt gibt schon einen Hinweis, ist aber auch nicht idiotensicher: 1000 Objekte in Deutschland gemappt, 1000 in Spanien: Muttersprache Französisch? Automatisierung fällt also wohl weitgehend flach…

Manch einer macht seine Zustimmung davon abhängig wie mit der Vergangenheit umgegangen wird, ganz besonders wenn seine Arbeit darauf aufbaut weil er viele Informationen recherchiert und ergänzt. Momentan herrscht eine ungute Stimmung die nur nach vorne sieht und es als verschmerzbar ansieht wenn bereits geleistete Arbeit vernichtet wird, Arbeit die nicht wieder herstellbar ist und schon gar nicht einfach. Also muss alles unternommen werden diese Menschen zu erreichen und wenn man sie nicht erreicht müssen alle Möglichkeiten ausgeschöpft werden diese Daten zu retten; Wegwerfkulturen die unter Verschwendung von Ressourcen und Verlust von Bewährtem ständig alles neu bauen gibt es zu Genüge.

Ergänzung:
Wie wäre es denn eine Intiative zur Rettung von Daten? Schnellstmöglich bestimmen wer sicher nicht zustimmt und dann alle anderen Daten von nicht erreichbaren mappern in Angriff nehmen: Versuche die mapper zu kontaktieren oder je nach Umfang der Daten Methoden überlegen sie legal zu übernehmen. Von all diesen Anstrengungen bekomme ich überhaupt nichts mit, sollte es sie denn geben.

Wer seine Zustimmung aber davon abhängig macht, vergisst, dass der Datenverlust immer größer wird, je weniger wir an einem Strang ziehen. Diese ganze Diskussion hier schreckt die Leute doch ab. Da bekommt man dann eine Mail, die einen zur Zustimmung auffordert, schaut vorher mal ins Forum um sich mal kurz zu informieren und alles was man ließt ist Datenklau, Abverkauf, Korruption der Osmf, Kommerzialisierung. Wer wird denn da zustimmen?

Bezüglich Datenrettung: Man kann schlecht vor dem Stichtag sagen, wer wirklich nicht zustimmt. Andererseits macht es wenig Unterschied, ob man die Daten vor oder nach der Umstellung rettet, denn zumindest im letzten CC-Planetfile kommt man ja noch ran. Ansonsten kann man nur feststellen, wer vielleicht in der eigenen Umgebung, etc. nicht zugestimmt hat und ihn vielleicht selbst mal freundlich darauf hinweisen, per Mail zum Beispiel. Koordiniert wird da sicher nichts laufen, wie das bei OSM eben so ist: Wenn du willst, das etwas getan wird, tu es selbst und such dir Mitstreiter.

Ich weiß nicht, ob das noch jemanden interessiert, aber hier mal eine aktualisierte Statistik…

Auswertung vom 30.11.2010
   0 bis   30 Tage seit letztem Edit: 33.0 % (241/730 User)
  31 bis   60 Tage seit letztem Edit: 18.5 % (61/329 User)
  61 bis   90 Tage seit letztem Edit: 14.7 % (47/320 User)
  91 bis  120 Tage seit letztem Edit:  9.3 % (26/281 User)
 121 bis  180 Tage seit letztem Edit:  3.7 % (17/457 User)
 181 bis  360 Tage seit letztem Edit:  1.2 % (36/2884 User)
 361 bis  540 Tage seit letztem Edit:  0.7 % (26/3605 User)
 541 bis  720 Tage seit letztem Edit:  0.5 % (8/1696 User)
 721 bis  900 Tage seit letztem Edit:  0.5 % (5/1085 User)
mehr als  900 Tage seit letztem Edit:  0.6 % (4/629 User)
Basis: 12016 User mit Changesets, davon haben 471 zugestimmt
Auswertung vom 07.12.2010
   0 bis   30 Tage seit letztem Edit: 41.4 % (281/678 User)
  31 bis   60 Tage seit letztem Edit: 16.1 % (44/274 User)
  61 bis   90 Tage seit letztem Edit: 14.1 % (31/220 User)
  91 bis  120 Tage seit letztem Edit: 11.5 % (27/234 User)
 121 bis  180 Tage seit letztem Edit:  5.2 % (20/383 User)
 181 bis  360 Tage seit letztem Edit:  1.3 % (32/2448 User)
 361 bis  540 Tage seit letztem Edit:  0.8 % (24/3152 User)
 541 bis  720 Tage seit letztem Edit:  0.5 % (8/1588 User)
 721 bis  900 Tage seit letztem Edit:  0.3 % (3/935 User)
mehr als  900 Tage seit letztem Edit:  0.3 % (2/644 User)
Basis: 10556 User mit Changesets, davon haben 472 zugestimmt
Auswertung vom 17.12.2010
   0 bis   30 Tage seit letztem Edit: 42.7 % (279/653 User)
  31 bis   60 Tage seit letztem Edit: 22.3 % (59/264 User)
  61 bis   90 Tage seit letztem Edit: 19.8 % (44/222 User)
  91 bis  120 Tage seit letztem Edit: 14.8 % (31/209 User)
 121 bis  180 Tage seit letztem Edit:  6.0 % (22/367 User)
 181 bis  360 Tage seit letztem Edit:  1.9 % (44/2316 User)
 361 bis  540 Tage seit letztem Edit:  0.7 % (20/2933 User)
 541 bis  720 Tage seit letztem Edit:  1.0 % (15/1547 User)
 721 bis  900 Tage seit letztem Edit:  1.9 % (16/838 User)
mehr als  900 Tage seit letztem Edit:  1.7 % (11/651 User)
Basis: 10000 User mit Changesets, davon haben 541 zugestimmt

Laut users_agreed.txt haben derzeit[1] 5994 User zugestimmt.
Quote a) = 2.1 % (exakt [2]), Quote b) = 5.1 %, Quote c) = 4.8 %

[1] zur Startzeit des Analyseprogramms, gestern abend
[2] exakt meint: nicht auf Stichprobendaten beruhend, Definition der Quoten siehe früheres Posting

Im Prinzip läßt sich diese Statistik dank der von SunCobalt bereitgestellten Tabellen jetzt auch auf Basis der gesamten Datenbank (nicht bloß einer Stichprobe) oder auch für einzelne Länder und Regionen erstellen. Dazu bin ich aber noch nicht gekommen. Besteht Bedarf?

Mich interessiert es noch – umsomehr, wenn erst mal die E-Mails verschickt wurden. I.e. ob und wo man die E-Mail-Aktion in den Daten sieht. Dazu hat man aber besser die ganze zeitliche Entwicklung davor.

Schön wäre es, die Daten in festen Abständen zu bekommen, z.B. alle 14 Kalendertage. Ich denke, das sollte reichen.

Ich orientiere mich erstmal weiter an der Zahl der Einträge in users_agreed.txt: Update bei Zuwachs um etwa 500, was im Moment tatsächlich grob zwei Wochen entspricht. Hier sind die Daten zu n\approx6500:

Auswertung vom 30.12.2010
   0 bis   30 Tage seit letztem Edit: 44.5 % (269/604 User)
  31 bis   60 Tage seit letztem Edit: 20.1 % (54/269 User)
  61 bis   90 Tage seit letztem Edit: 16.3 % (37/227 User)
  91 bis  120 Tage seit letztem Edit: 12.4 % (25/201 User)
 121 bis  180 Tage seit letztem Edit:  9.4 % (34/362 User)
 181 bis  360 Tage seit letztem Edit:  1.3 % (29/2217 User)
 361 bis  540 Tage seit letztem Edit:  1.1 % (30/2826 User)
 541 bis  720 Tage seit letztem Edit:  1.1 % (19/1717 User)
 721 bis  900 Tage seit letztem Edit:  1.1 % (10/900 User)
mehr als  900 Tage seit letztem Edit:  1.2 % (8/677 User)
Basis: 10000 User mit Changesets, davon haben 515 zugestimmt

Laut users_agreed.txt haben derzeit[1] 6510 User zugestimmt.
Quote a) = 2.3 % (exakt[2]), Quote b) = 5.5 %, Quote c) = 5.2 %

[1] zur Startzeit des Analyseprogramms, 30.12.2010
[2] exakt meint: nicht auf Stichprobendaten beruhend, Definition der Quoten siehe früheres Posting

Ich wärme diesen Thread noch ein letztes Mal auf, dann gebe ich Ruhe. Ich habe diese kleine Statistik seit Jahresanfang etwa alle zwei Wochen (zuletzt wöchentlich) auf Basis von changesets-yymmdd.osm, d.h. nicht mehr wie anfangs nur für eine kleine Stichprobe, erstellt. Da die Entwicklung aber ungefähr den erwarteten Verlauf genommen hat und die enthaltenen Informationen im Prinzip auch odbl.de zu entnehmen sind, habe ich das nicht jedes Mal hier gepostet.

Zur Erinnerung: im Gegensatz zu den Auswertungen/Ranglisten auf odbl.de sind hier ausschließlich “Altmapper” einbezogen. Die Ablehner werden jetzt auch erfaßt.

Die jüngsten Zahlen aus changesets-110427.osm:

20110427
   0 bis  30 Tage seit letztem Edit: 82.3 % v 2.0 % (6481/156/7879 User)
  31 bis  60 Tage seit letztem Edit: 42.9 % v 0.3 % (1156/9/2692 User)
  61 bis  90 Tage seit letztem Edit: 35.4 % v 0.2 % (767/5/2168 User)
  91 bis 120 Tage seit letztem Edit: 29.7 % v 0.2 % (551/4/1854 User)
 121 bis 180 Tage seit letztem Edit: 25.8 % v 0.2 % (845/6/3272 User)
 181 bis 360 Tage seit letztem Edit: 11.6 % v 0.1 % (1281/9/11007 User)
 361 bis 540 Tage seit letztem Edit:  2.3 % v 0.0 % (670/5/28671 User)
 541 bis 720 Tage seit letztem Edit:  1.7 % v 0.0 % (571/5/33064 User)
 721 bis 900 Tage seit letztem Edit:  1.8 % v 0.0 % (234/3/13128 User)
mehr als 900 Tage seit letztem Edit:  1.8 % v 0.0 % (279/1/15622 User)
Basis: 119357 User mit Changesets, davon haben 12835 (10.8 %) zugestimmt und 203 (0.2 %) abgelehnt

Setzt man den ersten Bin so, daß er nur “Phase 3” umfaßt (i.e. Zustimmung und Ablehnung addieren sich zu 100%), ergibt sich folgendes Bild:

20110427
   0 bis  11 Tage seit letztem Edit: 97.5 % v 2.5 % (4946/126/5072 User)
mehr als  11 Tage seit letztem Edit:  6.9 % v 0.1 % (7889/77/114285 User)

(Ob die letzte Darstellung sinnvoll ist, sei mal dahingestellt, aber bevor jemand extra nachfragen muß…)

Die Entwicklung in den letzten Monaten habe ich unter http://osmac.bplaced.net/stats/agreement_vs_latest_edit.txt abgelegt. Ganz allmählich steigen auch die Quoten weiter unten in der Tabelle - sicher auch ein Effekt der Mail-Aktionen.