Statystyka miast w Polsce

pbm · March 27, 2012, 10:01pm

http://www.stat.gov.pl/broker/access/showSearch.jspa → wpisujesz nazwę → z listy wybierasz “w miejscowościach podstawowych” → klikasz na właściwy Kraków → kiedy wszystko się rozwinie w drzewku po lewej będzie podświetlone Kraków miasto, jednak tam nie ma ulic (w mniejszych miejscowościach są i wtedy należy tylko w drzewku kliknąć pozycję nadrzędną i tam będzie w tabeli Identyfikator Miejscowości Podstawowej). W przypadku Krakowa należy podać identyfikatory jednostek, gdzie są ulice, czyli kolejnych delegatur takich jak “Kraków-Krowodrza”, itp. Jutro wieczorem poprawię opis na wiki i wygeneruję ten Kraków…

spexpl · March 28, 2012, 12:57am

A co robisz z innymi obiektami, takimi jak:

inne Węzeł Łagiewnicki im. ks.kard. Adama Stefana Sapiehy
park Bednarskiego
bulw. Bulwar Podolski
skwer Generała de Gaulle’a
rynek Dębnicki
rondo Grunwaldzkie
^^ Kraków Podgórze

Inna sprawa, czy ID GUSu się zmieniają? Czy można np wtagować je do OSM?

A co do opisu, po prostu napisz co to jest ten TERYT

Zbigniew_Czernik · March 28, 2012, 1:00am

Znaczy, potrzebujesz czegoś więcej niż jest napisane w Wikipedii?

marek_kleciak · March 28, 2012, 7:12am

Pbm,
robisz naprawde swietna robote, wielkie dzieki!
Mozna by jakos zautomatyzowac wyniki analiz tak, by pokazywaly sie w tabeli
http://wiki.openstreetmap.org/wiki/Pl:Miasta_w_Polsce w postaci proporcji: ilosc ulic w TERYT / ilosc ulic w OSM

Planujesz kiedys przymierzyc sie do Warszawy?

Alf_red · March 28, 2012, 12:03pm

I przez to dostajesz sugestie zmian na przykład “plac Ronalda Reagana” na “Ronalda Reagana”, co jest traktowane przez edytorów i userów jako ulica, a w terenie może być zupełnie gdzie indziej. Albo ewidentnie ułomna sugestia “Aleja Róż −> Róż”. Do tego im dalej w las, tym więcej false positives (“Norberta Bończyka −> Roberta Oszka”, “Baziowa −> Karasiowa”), warto by to jakoś filtrować, ręczna robota, może przesunąć zakres dopasowywania?
A w ogóle tabelki na wiki tworzysz ręcznie? Urobić się można. Forma tamtych plików tekstowych była równie dobra do czytania, a przynajmniej mogły się generować automatem.

balrog-kun · March 28, 2012, 12:51pm

Polowa znakow w slowie to troche duzo

Generalnie w przetwarzaniu jezyka stosuje sie listy stopwords, czyli slow ktore wystepuja czesto i mozna je pominac w porownywaniu/statystykach/itp. W tym wypadku mysle ze stopwords sa wszystkie te CECHY oraz polskie imiona. Najlatwiej byloby po prostu ignorowac wszystko slowa ktore wystepuja czesto.

Przy dopasowywaniu nazw miejscowosci do TERYTu i Wikipedii w bocie ktory kiedys puscilem, nazwa, po usunieciu stopwords, byla dzielona na slowa, lista slow w nazwie byla sortowana alfabetycznie tak, zeby kolejnosc nie grala roli, a potem wszystko co mozna skrocic bylo skracane (“[śs]wi[eę]t*” → “sw”, itd.).

W imporcie danych z MadMappers w Mozambiku, gdzie jezyk pozwala na rozne (poprawne) pisownie nazwy miejscowosci bylo zalozenie ze odleglosc levensteina w kazdym czlonie musi byc < 3.

Jajcuś · March 28, 2012, 6:41pm

Nie jestem pewien, czy ignorowanie „cechy” to rzeczywiście dobry pomysł. Gdy w TERYT jest „al. Majowa”, a u nas „aleja Majowa”, to jest ok. Ale jeśli u nas będzie samo „Majowa”, to narzędzie w żaden sposób nie podpowie, że coś jest źle. Podobnie z Placami – na hasło „gdzie jest Piłsudzkiego” wielu gliwiczan może się nieco zmieszać… „gdzie jest plac Piłsudzkiego” – to już wiadomo. Dlatego uważam, że należałoby to uwzględnić.

Mogę zrobić odpowiedni skrypt porównujący dane – mając tylko bazę TERYT (oryginalne pliki) i ulice z miasta myślę że mogę raz dwa zrobić narzędzie co to dopasuje – tylko od wyciągania ulic z OSM wolę trzymać się z daleka (niemiło wspominam pracę z plikami Planet i osmosis).

pbm · March 28, 2012, 9:00pm

To po kolei:

Cechę w zasadzie mógłbym sprawdzać, to nie jest wielki problem…
Warszawę mogę spróbować kiedyś zrobić, ale aż się boję na to patrzeć…
Nie ukrywam, że trafiają się fałszywki przez to, że dopasowanie robię od aktualnie 60%, ale to też pozwala na dopasowanie takich rzeczy jak ulica o nazwie “imię drugie_imię nazwisko” gdzie w OSM jest tylko nazwisko. Postaram się to jeszcze przemyśleć, może coś się uda zrobić aby trochę fałszywek odrzucić…
Skrypt generuje mi całą tabelę, ja tylko wklejam to na wiki
Co do tych stopwords - teoretycznie mogę ignorować imiona, ale brak imienia w nazwie OSM to już błąd, a dzięki temu łatwiej już dodać imiona do samych nazwisk…
Wypowiedź balroga muszę przemyśleć w dniu jutrzejszym…
Muszę się jeszcze raz wczytać w to jak dokładnie działa ten algorytm rozmytego porównywania jaki użyłem…
@Jajcuś: w sumie cechy nie ignoruję celowo - po prostu kiedy tworzyłem skrypcik to o tym nie pomyślałem - dorobienie tego to nie jest wielki problem…
@Jajcuś 2: pogadamy w Łodzi - wyciągnięcie ulic z OSM okazało się całkiem proste…

hmm… w sumie wyszło zupełnie nie po kolei… Jutro postaram się wrzucić nowe miejscowości, bo coś sie pojawiło w TODO, ewentualny development skryptu po Łodzi…

spexpl · March 28, 2012, 10:14pm

Co do wiki, może zamiast wrzuczać na http://wiki.openstreetmap.org/wiki/User:Pbm/TERYT, ładuj to do http://wiki.openstreetmap.org/wiki/User:Pbm/TERYT/Nazwa_Miasta ?

ajank · March 29, 2012, 10:24am

A może w ogóle wrzucać to na http://wiki.openstreetmap.org/wiki/Nazwa_Miasta/TERYT?

pbm · March 29, 2012, 6:24pm

Gliwice zrobione, na razie wrzucone jeszcze na stronę ogólną…

waldiwaldi · April 9, 2012, 12:48pm

Jestem tu nowy, bazę Teryt już kiedyś obrabiałem do innych celów.
Panowie, generalnie pomysł jest fajny, ale myślę że trzeba by było coś zrobić bardziej automatycznego dla całości, a nie dla kilku tylko miast. Mamy w Polsce ponad 100 tysięcy miast, miasteczek, wsi, osad itp. Z czego ok. 700 to miasta i miasteczka. Nie wspomnę już o ulicach, grubo ponad 200 tysięcy.
Takie cykanie po jednym mieście mija się moim zdaniem z celem, bo zapał dla takiego indywiduum szybko minie.

Jako że na bazach terytu już się bawiłem kiedyś niejedokrotnie, może bym i tutaj pomógł coś z tego wysupłać. Potrzebowałbym tylko dane z mapy, miasta i ich ulice by móc pokombinować by to zescalić, jakiś podobno plik poland.osm?

A tak w międzyczasie, gdzie są przyjęte (opisane) zasady nazewnictwa ulic w Polsce dla OSM?

Dotevo · April 9, 2012, 8:12pm

Główny problem z pełną automatyzacją to brak większości granic w OSM. Niestety są to dane, które ciężko dostać i równie ciężko się je zbiera.

pbabik · April 9, 2012, 9:16pm

Dwa kluczowe słowa: Terra Observer. Link bezpośredni był nawet na tym forum.
Bardziej legalnie - GADM, ale tylko dla miast na prawach powiatu. Albo zamówić sobie od ESRI wersję 60-dniową ArcGIS, na płytce powinna być garść danych - w tym granice gmin (niestety beznadziejnej jakości, poza bardzo zgrubnymi analizami - nie używać!).
Do oceny jakości można jak najbardziej użyć, byle nic nie importować.

pbm · April 17, 2012, 4:10pm

@waldiwaldi: sory, że tak późno, ale byłem w rozjazdach cały czas…

Co do obróbki danych z OSM to u mnie to wygląda tak:

Pobieram plik poland.osm.bz2 z http://download.geofabrik.de/osm/europe/
Pobieram relację opisującą granicę: http://api.openstreetmap.org/api/0.6/relation/ID_RELACJI/full i wrzucam ją do pliku (tmp/rel.osm)
Za pomocą perlowego skryptu rel2poly ( http://svn.openstreetmap.org/applications/utils/osm-extract/polygons/rel2poly.pl ) konwertuję relację do polygonu (./rel2poly.pl < tmp/rel.osm > tmp/out.poly)
Za pomocą narzędzia osmosis wyciągam z poland.osm wszystko co jest wewnątrz granicy miasta (wewnątrz polygonu):
bzcat poland.osm.bz2 | ~/Pobieranie/osmosis-0.40.1/bin/osmosis --read-xml enableDateParsing=no file=- --bounding-polygon file=tmp/out.poly --write-xml file=tmp/out.osm

I tym sposobem w tmp/out.osm mamy całą zawartość miejscowości w formacie OSM ( http://wiki.openstreetmap.org/wiki/.osm )

Gdybyś chciał to jakoś zautomatyzować, aby wygenerować jakąś większą partię danych to byłoby świetnie (dla wszystkich miejscowości, które mają dodane granice)… W razie pytań jestem do dyspozycji…

marek_kleciak · August 10, 2012, 9:41am

Czy ktos mógby z Was na to zerknac:
http://wiki.openstreetmap.org/wiki/Pl:Miasta_w_Polsce
Mysle ze przyda sie aktualizacja

Paweł_Paprota · August 10, 2012, 9:59am

Hmm, to by się nadawało do automatyzacji - jako kolejny raport w OSMonitor… może kiedyś się za to wezmę, na razie trzeba skończyć raport drogowy.