Na Discord pojawił się pomysł importu restauracji Warszawskich z mapa.um.warszawa.pl na podstawie danych koncesji alkoholowych. Dane wyglądają na aktualne ale wymagają lekkiej obróbki nazwowej bo jest tam dużo nie-nazowowych informacji.
Projekt bazowy do importu stworzony przez starsep:
Nie znaleźliśmy żadnych przeciwwskazań licencyjnych: https://mapa.um.warszawa.pl/warunki.html. Trzeba jedynie pamiętać o poinformowaniu drogą mailową o przetworzeniu danych ze strony.
Proces importu:
pobranie danych
analiza i czyszczenie
deduplikacja z osm (w tym usuniętych elementów)
dodanie punktów do map
Jedyną wadą tego importu jest to, że nie będzie on zawierał restauracji bez koncesji alkoholowych.
Czy planujesz próbę rozstrzygania, czy dany punkt kwalifikuje się jako restaurant, fast_food, cafe, bar, pub czy coś jeszcze innego? W jaki sposób? To jest chyba kwestia w największym stopniu determinująca końcową jakość tego importu.
Przeglądając te punkty na pewno trzeba też odsiać całkiem niemapowalne wpisy typu mini-bary w pokojach w hotelu Crowne Plaza.
Jeśli chodzi o normalizację nazw, poza usunięciem nienazwowych elementów, potrzeba oczywiście korekt typograficznych, tj. wywalenia cudzysłowów i zastąpienia pisowni całych nazw wielkimi literami.
Czy mamy informacje jak często jest aktualizowana ta mapa? To stan na dziś, na zeszły miesiąc, jak się urzędnikowi wpisze? Jakoś nie mogłem nigdzie znaleźć tej informacji.
Gdzieś przeczytałem na stronie że informacje są na stan z dnia poprzedniego, chyba w warunkach ale nie pamiętam dokładnie. Nie wiem też na ile to jest prawdą.
Przydaloby się to sprawdzić przed importem. Restauracje to coś co się dość często zmienia - ja mieszkam w mniejszej miejscowości i jest trudno nadążyć, w Wawie to pewnie co tydzień jakaś restauracja upada albo powstaje nowa. Być może da się sprawdzić w terenie chociaż część danych i dopiero wtedy importować?
Bardzo zaskakujące jest zastosowanie ChatGPT do generowania tagu name.
Pojawiają się często duplikaty.
Czy mógłbyś zgrupować changesety mniejszymi obszarami? Pozwoliłoby to na łatwiejszą weryfikację tych danych w terenie.
W tagu name wartości takie jak Punkt gastronomiczny, Bufet dla publiczności, Bufet śniadaniowy, Gastronomiczny z Barkiem, Barek z Wygrodzonym Ogródkiem, Bary w Kasynie, Restauracja Indyjska, Mała Gastronomia.
Dziwne tagowanie np. Urszi Cakes zupełnie nie brzmi na amenity=restaurant. Asia-Tasty to nie jest amenity=bar.
Minibarki w Pokojach raczej nie powinno być zmapowane (w hotelu).
Myślę, że sporo problemów możnaby uniknąć, gdyby program tylko generował propozycje, które mapper przęgladałby przez wysłaniem. Upload botem nie był tutaj dyskutowany.
Tego problemu nie będzie kiedy nadrobimy import ~800 punktów, 20 dziennie to: 40 dni. Po tym czasie nowe importy będą o wielkości 1-2 punktów. Nie uważam że jest to warte nakładu pracy.
Można traktować takie punkty jako punkty bez nazwy, wymagające dodatkowego survey. Po prostu na UM nie wszystkie lokacje mają konkretne nazwy.
Zgadzam się, ale ja nie widzę w tym dużej szkody tak długo jak ogólny obszar jest poprawny.
Mogę obiecać że do zakończenia importu 800 POI będę obserwował importowane dane pod względem ewentualnych bubli. 20 dziennie to chwila roboty . Zależy mi na dobrej jakości danych, ale sprawy jak np. przesunięcie o kilkadziesiąt metrów, czy bez-znaczeniowa nazwa, nie są z mojej perspektywie szkodliwe. Uważam, że benefit jaki niesie za sobą ten import znacznie przeważa ewentualne błędy. O wiele prościej jest zedytować już dodane dane niż od zera dodawać je samemu.
jak nazwy są typu " Bufet dla publiczności , Barek z Wygrodzonym Ogródkiem , Bary w Kasynie , Restauracja Indyjska , Mała Gastronomia " to na pewno do importu to się nie nadaje i importowane być nie może
Jak są też poprawne nazwy to wymagać to może to ręcznego przejrzenia.
Patrząc na
to też może wymagać ręcznego przejrzenia, przed importem
Jeszcze łatwiej jest zaimportować i nie poprawić, a wiele już było importów i botoedycji że ludzie przecenili swoje siły ( https://matkoniecz.github.io/OSM-wikipedia-tag-validator-reports/ znajduje między innymi tysiące problemów z bardzo starego zaimportowania wikidata na ślepo)
Stąd pewna reakcja alergiczna na pomysł typu “zaimportujmy wadliwe dane i poprawmy je”
Założenie jest takie że bot posiada taki sam zakres wiedzy jak nie-lokalny mapujący. A w tych 2 przypadkach nie ma za bardzo oczywistego znaku że coś jest nie tak.