Statystyka miast w Polsce

Dobra robota, wielkie dzieki!
Tez jestem ciekaw jak to wypadnie.
mozesz ten proces automatyzowac czy musisz wyczytywac odrecznie?
Bardzo ciekawi mnie jak wypadnie Lódz :wink:

Super, że udało Ci się to zrobić!
Dla Łodzi próbowałem zestawiac TERYT z plikiem generowanym przez MapOSMatic, ale ręcznie to robota na długie godziny. Mimo wszystko wychwyciłem kilkanaście brakujących ulic.

Czekam na analizę dla Łodzi :slight_smile:

Skrypt jest półautomatyczny. Tzn na wejściu potrzebuje numeru relacji granicy i identyfikatora terytu. Szczegóły i wyniki na stronie http://wiki.openstreetmap.org/wiki/User:Pbm/TERYT

Prosiłbym też o dodawanie danych, jeśli chcecie wyniki dla jakiejś miejscowości…

Jakby kogoś interesowało od strony technicznej jak to działa:

  1. Pobieram wgetem pełną relację i skróconą.
  2. Ze skróconej pobieram tylko nazwę miejscowości narzędziami typu grep i cut i odkładam na później.
  3. Relację pełną konwertuję w polygon za pomocą rel2poly.pl.
  4. osmosisem wyciągam wszystko wewnątrz polygonu (na podstawie dumpa Polski) i zapisuje do pliku osm
  5. awkiem i grepem wyciągam ulice z danej miejscowości z ULIC.xml
  6. Własny skrypt pythonowy parsuje osm i wyciąga ulice
  7. Ten sam skrypt wyciąga ulice z przeawkowanego i przegrepowanego terytu
  8. Ten sam skrypt liczy za pomocą diffliba podobieństwo nazw i dopasowuje ulice (o ile wcześniej nie dopasuje ich 1:1)
  9. Wypluwam wikikod

Jak ustaliliśmy ostatnio z Zibim na przykładzie powyższego Rudnika nad Sanem ulice bez dopasowania to najczęściej te znajdujące się w sąsiedniej miejscowości, a przechodzące jednym punktem za granicę.

A czy można zapytać o odświeżanie wyników ?? np. po wprowadzonych poprawkach, powiedzmy raz na tydzień aktualizacja istniejącej strony wiki ?? narzędzie fajnneeee, w Wiśle dużo poprawiłem literówek i przejęzyczeń.

Aha… z ulic z sąsiedniej gminy dla Wisły mam tylko dwie :wink:

EDIT: Zastanawiająca jest ilość wystąpień nazwy “Tortowa” w TERYTcie dla Wisły :wink:

Co do odświeżania to po weekendzie ściągnę nowego dumpa i puszczę ponownie dla miejscowości z listy…

Z tą Tortową to faktycznie coś jest nie tak… postaram się sprawdzić i wyjaśnić sytuację, ale też po weekendzie dopiero raczej…

BTW. Przypominam, że to narzędzie tylko wskazuje na co zwrócić uwagę i sprawdzić z innymi źródłami - same wyniki mogą być zawierać błędy, złe dopasowania, itp…

Pozwoliłem sobie dodać moje miasto. Duże miasto.
Czekam z niecierpliwością na wyniki Twojego skryptu.

Czy to narzędzie bierze pod uwagę pole bazy TERYT opisujące pierwszy człon nazwy (ul./pl./al./bulw.)? W OSM generalnie pomijamy ‘ulica’, a wszystkie pozostałe wpisujemy pełną nazwą, więc trzeba by porównywać z dołączoną odpowiednią, rozwiniętą, wartością z TERYT.

Przy okazji przypominam, piszemy „aleja …”, a nie „Aleja …” (tak samo jak „ulica …”). Co innego „Aleje Jerozolimskie” – tu „Aleje” jest częścią nazwy własnej.

(uwagi po przejrzeniu obecnych wyników na wiki)

Dzieki za sluszna uwage Jajcus!
Czy mamy gdzies na Wiki spisane uwagi dotyczace kodyfikacji pisowni ulic w Polsce?

@Jajcus: Z ULIC.xml wybieram tylko pola NAZWA_1 i NAZWA_2, pola CECHA (czyli właśnie “ul./pl./al./bulw.”) nie sprawdzam…

Katowice zrobione - na pierwszy rzut oka widzę kilka literówek w nazwach… Niedopasowań niezbyt wiele na szczęście… :wink:

Super robota, dzięki za Katowice!
Poprawiłem z doskoku parę literówek. Reszta w miarę wolnego czasu.
Jak aktualne są dane z OSM?
Pytam bo niedawno (17 marca) dodanej ulicy nie widać (w TERYTcie jeszcze jej nie ma, co zrozumiałe, bo ulica jest nowiutka w sensie nazwy).

Swoją drogą podoba mi się algorytm, który z Czeczota próbuje zrobić Rzeczną, a z Piłsudskiego - Poniatowskiego :wink:

ZTCW statsy są tworzone na podstawie pliku poland.osm, a jego aktualność zależy od tego czy pbm’owi chce się ściągnąć nową wersję :wink:

Potwierdzam to co powiedział Zibi… Poland.osm z którego to robiłem był z 15. Jutro/pojutrze postaram się puścić skrypt dla tych czterech miejscowości na nowszym pliku.

Algorytm nie jest taki zły. W “Piłsudskiego” fragment “skiego” zgadzający się z z “Poniatowskiego” po połowa nazwy… A mniej więcej taka jest granica dopasowania, którą ustaliłem, aby dopasowywał nazwy dłuższe, kiedy w OSM czy w TERYT są np. same nazwiska…

Znowu wrzuciłem parę poprawek.

Nie miałem zamiaru krytykować, tylko podzielić się tym co mnie rozbawiło. Twój algorytm jest bardzo pomocny i już sam ten fakt wystarczająco go broni.
Jak na takie duże miasto, całkiem nieźle wyszło.

Nie wiem ile Twoja maszyna jest w stanie obsłużyć miejscowości, ale zachęcam wszystkich aby ją dociążyć :wink:

A ktoś napisze, jak z tego korzystać?

@spexpl: http://wiki.openstreetmap.org/wiki/User:Pbm/TERYT - klikasz Dodaj, podajesz numer relacji granicy miejscowości jaka Cię interesuje oraz Numer miejscowości podstawowej znalezionej w szukajce terytu. A ja za jakiś czas generuję tabelkę…

Dopisałem Łódź, chociaż nie mam pewności czy Numer miejscowości podstawowej znalezionej w szukajce terytu to ten który wpisałem.
Dzięki.

Fajnie byłoby gdyby układał to alfabetycznie i była możliwość rozwijania danego miasta (jakieś ‘rozwiń’ i pojawia się tabelka).

Uaktualniłem wszystko do bazy z 27 marca… W Wiśle i Katowicach widać całkiem niezły postęp… :wink:

Dorzuciłem też Pruszków i Łódź, chociaż w Pruszkowie wyszło dużo fałszywych trafień niestety…

Co do zwijania miast to ztcw Mediawiki na wiki OSM nie ma odpowiednich javascriptów aby to się dało zrobić…

Nie wiem czy dobrze rozumięm o co chodzi:
relacja_granicy - 449696
identyfikator_miejscowosci_podstawowej - ??
nazwa - Kraków