Dobra robota, wielkie dzieki!
Tez jestem ciekaw jak to wypadnie.
mozesz ten proces automatyzowac czy musisz wyczytywac odrecznie?
Bardzo ciekawi mnie jak wypadnie Lódz
Super, że udało Ci się to zrobić!
Dla Łodzi próbowałem zestawiac TERYT z plikiem generowanym przez MapOSMatic, ale ręcznie to robota na długie godziny. Mimo wszystko wychwyciłem kilkanaście brakujących ulic.
Czekam na analizę dla Łodzi
Skrypt jest półautomatyczny. Tzn na wejściu potrzebuje numeru relacji granicy i identyfikatora terytu. Szczegóły i wyniki na stronie http://wiki.openstreetmap.org/wiki/User:Pbm/TERYT
Prosiłbym też o dodawanie danych, jeśli chcecie wyniki dla jakiejś miejscowości…
Jakby kogoś interesowało od strony technicznej jak to działa:
- Pobieram wgetem pełną relację i skróconą.
- Ze skróconej pobieram tylko nazwę miejscowości narzędziami typu grep i cut i odkładam na później.
- Relację pełną konwertuję w polygon za pomocą rel2poly.pl.
- osmosisem wyciągam wszystko wewnątrz polygonu (na podstawie dumpa Polski) i zapisuje do pliku osm
- awkiem i grepem wyciągam ulice z danej miejscowości z ULIC.xml
- Własny skrypt pythonowy parsuje osm i wyciąga ulice
- Ten sam skrypt wyciąga ulice z przeawkowanego i przegrepowanego terytu
- Ten sam skrypt liczy za pomocą diffliba podobieństwo nazw i dopasowuje ulice (o ile wcześniej nie dopasuje ich 1:1)
- Wypluwam wikikod
Jak ustaliliśmy ostatnio z Zibim na przykładzie powyższego Rudnika nad Sanem ulice bez dopasowania to najczęściej te znajdujące się w sąsiedniej miejscowości, a przechodzące jednym punktem za granicę.
A czy można zapytać o odświeżanie wyników ?? np. po wprowadzonych poprawkach, powiedzmy raz na tydzień aktualizacja istniejącej strony wiki ?? narzędzie fajnneeee, w Wiśle dużo poprawiłem literówek i przejęzyczeń.
Aha… z ulic z sąsiedniej gminy dla Wisły mam tylko dwie
EDIT: Zastanawiająca jest ilość wystąpień nazwy “Tortowa” w TERYTcie dla Wisły
Co do odświeżania to po weekendzie ściągnę nowego dumpa i puszczę ponownie dla miejscowości z listy…
Z tą Tortową to faktycznie coś jest nie tak… postaram się sprawdzić i wyjaśnić sytuację, ale też po weekendzie dopiero raczej…
BTW. Przypominam, że to narzędzie tylko wskazuje na co zwrócić uwagę i sprawdzić z innymi źródłami - same wyniki mogą być zawierać błędy, złe dopasowania, itp…
Pozwoliłem sobie dodać moje miasto. Duże miasto.
Czekam z niecierpliwością na wyniki Twojego skryptu.
Czy to narzędzie bierze pod uwagę pole bazy TERYT opisujące pierwszy człon nazwy (ul./pl./al./bulw.)? W OSM generalnie pomijamy ‘ulica’, a wszystkie pozostałe wpisujemy pełną nazwą, więc trzeba by porównywać z dołączoną odpowiednią, rozwiniętą, wartością z TERYT.
Przy okazji przypominam, piszemy „aleja …”, a nie „Aleja …” (tak samo jak „ulica …”). Co innego „Aleje Jerozolimskie” – tu „Aleje” jest częścią nazwy własnej.
(uwagi po przejrzeniu obecnych wyników na wiki)
Dzieki za sluszna uwage Jajcus!
Czy mamy gdzies na Wiki spisane uwagi dotyczace kodyfikacji pisowni ulic w Polsce?
@Jajcus: Z ULIC.xml wybieram tylko pola NAZWA_1 i NAZWA_2, pola CECHA (czyli właśnie “ul./pl./al./bulw.”) nie sprawdzam…
Katowice zrobione - na pierwszy rzut oka widzę kilka literówek w nazwach… Niedopasowań niezbyt wiele na szczęście…
Super robota, dzięki za Katowice!
Poprawiłem z doskoku parę literówek. Reszta w miarę wolnego czasu.
Jak aktualne są dane z OSM?
Pytam bo niedawno (17 marca) dodanej ulicy nie widać (w TERYTcie jeszcze jej nie ma, co zrozumiałe, bo ulica jest nowiutka w sensie nazwy).
Swoją drogą podoba mi się algorytm, który z Czeczota próbuje zrobić Rzeczną, a z Piłsudskiego - Poniatowskiego
ZTCW statsy są tworzone na podstawie pliku poland.osm, a jego aktualność zależy od tego czy pbm’owi chce się ściągnąć nową wersję
Potwierdzam to co powiedział Zibi… Poland.osm z którego to robiłem był z 15. Jutro/pojutrze postaram się puścić skrypt dla tych czterech miejscowości na nowszym pliku.
Algorytm nie jest taki zły. W “Piłsudskiego” fragment “skiego” zgadzający się z z “Poniatowskiego” po połowa nazwy… A mniej więcej taka jest granica dopasowania, którą ustaliłem, aby dopasowywał nazwy dłuższe, kiedy w OSM czy w TERYT są np. same nazwiska…
Znowu wrzuciłem parę poprawek.
Nie miałem zamiaru krytykować, tylko podzielić się tym co mnie rozbawiło. Twój algorytm jest bardzo pomocny i już sam ten fakt wystarczająco go broni.
Jak na takie duże miasto, całkiem nieźle wyszło.
Nie wiem ile Twoja maszyna jest w stanie obsłużyć miejscowości, ale zachęcam wszystkich aby ją dociążyć
A ktoś napisze, jak z tego korzystać?
@spexpl: http://wiki.openstreetmap.org/wiki/User:Pbm/TERYT - klikasz Dodaj, podajesz numer relacji granicy miejscowości jaka Cię interesuje oraz Numer miejscowości podstawowej znalezionej w szukajce terytu. A ja za jakiś czas generuję tabelkę…
Dopisałem Łódź, chociaż nie mam pewności czy Numer miejscowości podstawowej znalezionej w szukajce terytu to ten który wpisałem.
Dzięki.
Fajnie byłoby gdyby układał to alfabetycznie i była możliwość rozwijania danego miasta (jakieś ‘rozwiń’ i pojawia się tabelka).
Uaktualniłem wszystko do bazy z 27 marca… W Wiśle i Katowicach widać całkiem niezły postęp…
Dorzuciłem też Pruszków i Łódź, chociaż w Pruszkowie wyszło dużo fałszywych trafień niestety…
Co do zwijania miast to ztcw Mediawiki na wiki OSM nie ma odpowiednich javascriptów aby to się dało zrobić…
Nie wiem czy dobrze rozumięm o co chodzi:
relacja_granicy - 449696
identyfikator_miejscowosci_podstawowej - ??
nazwa - Kraków