[Warszawa] Import restauracji z mapa.um.warszawa.pl

Na Discord pojawił się pomysł importu restauracji Warszawskich z mapa.um.warszawa.pl na podstawie danych koncesji alkoholowych. Dane wyglądają na aktualne ale wymagają lekkiej obróbki nazwowej bo jest tam dużo nie-nazowowych informacji.

https://mapa.um.warszawa.pl/mapaApp1/mapa?service=mapa

Przykład odpowiedzi z API:

Projekt bazowy do importu stworzony przez starsep:

Nie znaleźliśmy żadnych przeciwwskazań licencyjnych: https://mapa.um.warszawa.pl/warunki.html. Trzeba jedynie pamiętać o poinformowaniu drogą mailową o przetworzeniu danych ze strony.

Proces importu:

  1. pobranie danych
  2. analiza i czyszczenie
  3. deduplikacja z osm (w tym usuniętych elementów)
  4. dodanie punktów do map

Jedyną wadą tego importu jest to, że nie będzie on zawierał restauracji bez koncesji alkoholowych.

1 Like

Czy planujesz próbę rozstrzygania, czy dany punkt kwalifikuje się jako restaurant, fast_food, cafe, bar, pub czy coś jeszcze innego? W jaki sposób? To jest chyba kwestia w największym stopniu determinująca końcową jakość tego importu.

Przeglądając te punkty na pewno trzeba też odsiać całkiem niemapowalne wpisy typu mini-bary w pokojach w hotelu Crowne Plaza.

Jeśli chodzi o normalizację nazw, poza usunięciem nienazwowych elementów, potrzeba oczywiście korekt typograficznych, tj. wywalenia cudzysłowów i zastąpienia pisowni całych nazw wielkimi literami.

Czy mamy informacje jak często jest aktualizowana ta mapa? To stan na dziś, na zeszły miesiąc, jak się urzędnikowi wpisze? Jakoś nie mogłem nigdzie znaleźć tej informacji.

Tak, do granicy tego co znajduje się w informacjach na API. Ostatecznie będzie to zapewne połączenie pół Rodzaj punktu oraz Nazwa punktu.

Gdzieś przeczytałem na stronie że informacje są na stan z dnia poprzedniego, chyba w warunkach ale nie pamiętam dokładnie. Nie wiem też na ile to jest prawdą.

możliwe że są tam wpisy obiektów co mają pozwolenie a jeszcze nie istnieją?

Nie wiem, ale spotyka się nieraz odwrotną sytuację: lokal już działa, ale jeszcze nie ma zezwolenia.

1 Like

Przydaloby się to sprawdzić przed importem. Restauracje to coś co się dość często zmienia - ja mieszkam w mniejszej miejscowości i jest trudno nadążyć, w Wawie to pewnie co tydzień jakaś restauracja upada albo powstaje nowa. Być może da się sprawdzić w terenie chociaż część danych i dopiero wtedy importować?

Projekt zrealizowany:

Będę monitorował jego zachowanie przez najbliższe dni i wprowadzał ewentualne poprawki.

Aktualnie ustawiłem limit importu maksymalnie 20 restauracji dziennie.

Pierwszy changeset:

Mam wątpliwości

  1. Bardzo zaskakujące jest zastosowanie ChatGPT do generowania tagu name.
  2. Pojawiają się często duplikaty.
  3. Czy mógłbyś zgrupować changesety mniejszymi obszarami? Pozwoliłoby to na łatwiejszą weryfikację tych danych w terenie.
  4. W tagu name wartości takie jak Punkt gastronomiczny, Bufet dla publiczności, Bufet śniadaniowy, Gastronomiczny z Barkiem, Barek z Wygrodzonym Ogródkiem, Bary w Kasynie, Restauracja Indyjska, Mała Gastronomia.
  5. Dziwne lokalizacje np. Node: ‪Urszi Cakes‬ (‪11018644078‬) | OpenStreetMap - poza budynkiem
  6. Dziwne tagowanie np. Urszi Cakes zupełnie nie brzmi na amenity=restaurant. Asia-Tasty to nie jest amenity=bar.
  7. Minibarki w Pokojach raczej nie powinno być zmapowane (w hotelu).

Myślę, że sporo problemów możnaby uniknąć, gdyby program tylko generował propozycje, które mapper przęgladałby przez wysłaniem. Upload botem nie był tutaj dyskutowany.

Skomentowałem

4 Likes
  1. Czy to nawet jest wątpliwość jak działa :slight_smile:
  2. Pierwszy import miał błąd w kodzie, od tamtego czasu był tylko 1 duplikat: Node: 1443527342 | OpenStreetMap 200m od danych z UM, zwiększe zasięg szukania duplikatów co powinno rozwiązać: Increase search range · Zaczero/osm-warszawa-restauracje@70bbefe · GitHub.
  3. Tego problemu nie będzie kiedy nadrobimy import ~800 punktów, 20 dziennie to: 40 dni. Po tym czasie nowe importy będą o wielkości 1-2 punktów. Nie uważam że jest to warte nakładu pracy.
  4. Można traktować takie punkty jako punkty bez nazwy, wymagające dodatkowego survey. Po prostu na UM nie wszystkie lokacje mają konkretne nazwy.
  5. Zgadzam się, ale ja nie widzę w tym dużej szkody tak długo jak ogólny obszar jest poprawny.
  6. Logika tagowania jest taka: priorytet mają dane z UM, jeśli kategoria nie jest wypełniona to jest ona zgadywana na podstawie nazwy: osm-warszawa-restauracje/config.py at 70bbefed1431de2ceafd9c8e90c686bc550d35c8 · Zaczero/osm-warszawa-restauracje · GitHub. Mogę ewentualnie odwrócić priorytety, o czym myślałem bo rzeczywiście UM ma dziwnie pokategoryzowane.
  7. Już usunąłem.

Mogę obiecać że do zakończenia importu 800 POI będę obserwował importowane dane pod względem ewentualnych bubli. 20 dziennie to chwila roboty :slight_smile:. Zależy mi na dobrej jakości danych, ale sprawy jak np. przesunięcie o kilkadziesiąt metrów, czy bez-znaczeniowa nazwa, nie są z mojej perspektywie szkodliwe. Uważam, że benefit jaki niesie za sobą ten import znacznie przeważa ewentualne błędy. O wiele prościej jest zedytować już dodane dane niż od zera dodawać je samemu.

  • Pomyliłem się, 600 punktów, nie 800, to 30 dni.

jak nazwy są typu " Bufet dla publiczności , Barek z Wygrodzonym Ogródkiem , Bary w Kasynie , Restauracja Indyjska , Mała Gastronomia " to na pewno do importu to się nie nadaje i importowane być nie może

Jak są też poprawne nazwy to wymagać to może to ręcznego przejrzenia.

Patrząc na

to też może wymagać ręcznego przejrzenia, przed importem

Jeszcze łatwiej jest zaimportować i nie poprawić, a wiele już było importów i botoedycji że ludzie przecenili swoje siły ( https://matkoniecz.github.io/OSM-wikipedia-tag-validator-reports/ znajduje między innymi tysiące problemów z bardzo starego zaimportowania wikidata na ślepo)

Stąd pewna reakcja alergiczna na pomysł typu “zaimportujmy wadliwe dane i poprawmy je”

4 Likes

2 głosy sprzeciwu więc zmieniłem, takie nazwy będą teraz odfiltrowane, a punkty bez konkretnej nazwy własnej nie zostaną dodane.

Zmieniłem priorytet na kategorie na podstawie nazwy, UM ma bardzo słabej jakości kategoryzację.

Na bieżąco monitoruję i wprowadzam poprawki, importowanych jest maksymalnie 20 punktów dziennie.

To był ten sam lokal, co zmapowany już Brewski. Jestem ciekaw, czy Brewski jest na liście zezwoleń osobno?

Niemal na pewno duplikat miejsca opisanego jako Zebra Shot Bar:

Uwidacznia się możliwy problem, że nazwa w zezwoleniu niekoniecznie odpowiada nazwie, pod którą prowadzona jest działalność.

1 Like

PiwPaw:

Uznałem że skoro mają stronkę na advisor to raczej git :smiley:.

a,

Shot Spot By Żyrafa vs Zebra Shot Bar,
nie brzmi jakby było to samo

Ma też Facebooka, na którym wciąż relacjonuje swoje sprawy sądowe za działalność w czasie lockdownu :smiley:

Miesiąc temu potwierdziłem jednak Zebrę, a nie Żyrafę :thinking:

wow.

jak usuniesz to 2-gi raz się nie doda :wink:


Założenie jest takie że bot posiada taki sam zakres wiedzy jak nie-lokalny mapujący. A w tych 2 przypadkach nie ma za bardzo oczywistego znaku że coś jest nie tak.

1 Like