Uvoz adresnog registra - pravila tagovanja ulica u Srbiji

Ovo je slična tema kao “Uvoz adresnog registra - pravila tagovanja adresa u Srbiji” koja se bavi adresama, a slična je i kao “Pravilno imenovanje ulica” gde smo pričali kako da pravilno imenujemo ulice, ali voleo bih da imamo posebnu diskusiju kako da tagujemo ulice.

Iz prethodne dve teme smo dobili registar ulica (tj. praktično mapiranje iz VELIKIH SLOVA od RGZ-a u ono što mi želimo da imamo u OSM-u). Naime, pošto smo prošli kroz sve ulice kroz Excel, znamo pravila kako napraviti sledeće tagove:

  • name - ono što je u registru imena ulica
  • name:sr - praktično isto kao i name (možda se jednog dana pojavi slučaj da name bude lokalizovan na latinicu prema nekoj manjini, ali za sada toga nema)
  • name:sr-Latn - latinična verzija name taga

Ono što ne znamo je šta raditi sa ostalim tagovima, najviše treba da nam je fokus na alt_name, alt_name:sr, alt_name:sr-Latn, short_name, short_name:sr, short_name:sr-Latn, int_name, name:en i official_name (jel sam neki izostavio?)

Evo da počnem ja sa nekim željama, pa vi vidite da li vam ima smisla. Ideja je da ovo definišemo i da možemo da okačimo na wiki i da ovo postanu neka “zvanična” pravila.

  • name:en - isto što i name:sr-Latn. Dakle, sa sve našim dijakriticima. Zato ga ne treba stavljati ako je isti kao name:sr-Latn. Primer: “Ђаковачка” postaje “Đakovačka”. Bitni su izuzeci. Ukoliko ima neki prefiks (bulevar, most…) umesto ulice, on se prevodi. Npr. “Булевар Зорана Ђинђића” postaje “Zoran Đinđić boulevard”, “Бранков мост” postaje “Branko’s bridge”. Ozbiljno izbegavati čisto prevođenje na engleski, npr. “Европска” ne sme nikako da bude “European St.”. “Ковачка” nikako “Blacksmith st.”. Takvi prevodi su dozvoljeni kada je to logičnija opcija, npr. “Булевар уметности” može da bude “Boulevard of Arts” jer je to logičnije nego “Umetnosti boulevard” ili “Boulevard of umetnosti” (da li stvarno treba ovako, nisam ni ja siguran)? Nemam neka stroga pravila ovde, više su kao smernice.
  • int_name - mislim da je ovo prosto, ovo treba da bude osisana latinica. Dakle, umesto “đ” stavljamo “dj”, “š” postaje “s” itd. Mislim da nema razloga da sve ulice nemaju ovo?
  • alt_name - uf, težak problem. Ovde bi mogli da stavljamo alternative za 4 stvari - brojeve, doktore, dvosmislenosti i skraćena prezimena.
    • brojevi - npr. ako je ime ulice “1. јула”, ovde stavljamo “Првог јула”. Ako je ime ulice “Првог јула”, ovde stavljamo “1. јула”
    • doktori - ako je ime ulice “Доктора Пере”, alt_name treba da ima “Др Пере” i obrnuto. Ako je ime u RGZ-u “Др Пере”, ovde stavljamo “Доктора Пере”
    • dvosmislenosti - npr. ako je ime ulice “Михајла”, ovde može da ide “Михаила”. Ako je ime ulice “Карнеџијева”, ovde može “Карнегијева”
    • prezimena - takođe možemo stavljati prezimena, npr. ako je ime ulice “Бранислава Нушића”, ovde može da ide “Нушићева”. Jel ima još neki primer koji sam zaboravio?
  • short_name - ne vidim mu neku ulogu. Vidim da smo ga koristili da izbacimo tačku, pa ako je ulica “1. јула”, ovde stavimo “1 јула”. Možda ovaj primer sa “Нушићевом” (slučak “prezimena”) iznad treba da stavimo zapravo u “short_name”?
  • official_name - ovo ne treba popunjavati. Jedini izuzetak je kada se tabla i RGZ drastično ne slažu (nije samo mala greška), a nijedan prethodni tag ne odgovara ili je već iskorišćen, pa da ovde stavimo šta je u RGZ-u, a u name stavimo šta je na tabli.
1 Like

OK je.

Slučaj prezimena mi je više za short name.
Kako bismo pomogli pretragama, iako nas nije preterana briga, da li treba da imamo englesku verziju Dr. za doktora?

Fali old_name. Primer: 29. novembra > Bul. Despota Stefana. Ako se ne varam, old_name ima i godine od kada do kada je važio neki od naziva. Šta raditi kada ne znamo godine, a ulica ima dva ex naziva?

Primer: 8. marta > JNA > Svetosavska.

PS. Šta raditi sa bivšim nazivima poput “Nova 35.”, u kom obliku čuvati old_name? Isto pitanje ako je bivši naziv Nušićeva, da li treba nešto poput old_name:int_name?

To već imamo u dobroj meri definisano: Obeležavanje naziva ulica i povezivanje sa Adresnim registrom - Open Street Map Srbija. Ono je nastalo kroz diskusiju na starom forumu.

Već dugo vremena se po ovom uputstvu unose nazivi ulica.

Prednost treba dati ispravnom i tačnom unošenju naziva na srpskom jeziku i usklađivanjem sa RGZ. “prevođenje” treba ostaviti za kasnije.

Nije loše imati pravila za unošenje naziva na stranim jezicima i treba imati uputstva kako se to radi, ali to nije jednostavna stvar i ne može se na brzinu rešiti te ga terba rešavati sa manjim prioritetom. Na kraju krajeva ako je uneseno int_name, to je sasvim dovoljno.

Za “prevođenje” je potrebno je uključivanje jezičke struke i analiza kako se to za svaki jezik radi u drugim zemljama.Problem je dvojak: s jedne strane treba omogućiti strancima da se snalaze na mapi, naročito uporedno sa zvaničnim oznakama na terenu, ali i da mogu da komuniciraju sa lokalnim stanovništvom (koje ne zna engleski jezik) ako im treba pomoć da nađu neku adresu.

Za početam mislim da je ima nekog delimičnog smisla da da se u nazivu ulice prevede samo onaj deo koji se odnosi na namenu objekta (ulica, trg, most, i slično). Moje iskustvo sa mapama na stranim jezicima je da mi nikad nije bilo problem da prokljuvim šta je ulica, trg, most i slično i na “domaćem” jeziku a svakako je dobro to znati ako nekog lokalca treba da pitaš. Ja bih se pre držao transkripcije nego prevođenja.

Ako je potreban celokupan prevod na primer naziva institucije, onda to treba staviti u official_name:en.

Postoji li neka mogućnaost da se vidi kako izgleda na primer mapa Nemačke, Fancuske, Španije, Italije na engleskom jeziku?

Mislim da se svi slažemo za name:en da ne treba prevoditi, tj. da to treba za 99% ulica da bude isto što i name:sr-Latn, tj. da ga ni ne treba unositi. A da int_name bude osisana latinica. Ubaciću onda za to provere na izveštaj, a u paraleli radim konflaciju Novog Beograda i izbacujem “zoran djindjic boulevard” i “aleksinac’s miners” i slične kerefeke:)

Da, rekoh da je to dobro i pomenuo sam ga ranije, samo sam hteo da imamo i diskusiju ovde i da na kraju možemo da imamo i wiki oko ovoga, i da ja na izveštaju mogu da izbacim neke potencijalne greške u tagovanju (npr. sad mogu da izbacim sve slučajeve gde name:en nije isti kao name:sr-Latn, pa da to iskoči…)

Da li se zajednica slaže da, koristeći bota i naravno uz manuelnu proveru svake izmene, uradim sledeće promene:

  • dodavanje int_name taga na sve highway way-eve i relacije koji u imenu imaju bar jedan od “ščćđž” karaktera i prebacivanje na ošišanu latinicu (ima oko 70.000 takvih puteva u Srbiji)
  • uklanjanje name:en taga za sve highway way-eve i relacije gde je name:en već ošišana latinica ili je vrednost taga ista kao name:sr-Latn (oko 20.000 puteva)

Počeo bih u narednih par dana i bio gotov verovatno isto za par dana.

1 Like

Ja sam o ovome već dugo i besplodno razmišljao… :woozy_face:

Da je sve po pe-esu, i da su alati za pretragu i transliteraciju u OSM okruženju napisani ko što bog zapoveda, bilo bi dovoljno da smo uneli ćirilično (tu i tamo latinično, za stvari tipa Raiffeisen) name, eventualno name-SR, i magično bi svi upiti napisani na ćirilici, kosmatoj ili ošišanoj latinici u svim maperima i ruterima radili, bez da maperi i botovi popunjavaju prilično trivijalne i programabilne podatke u bazi… A vek je već uveliko 21., ChatGPT razume pitanja na inuktitutu i na istom odgovara, samo Nominatim ne ume da nađe entitet u bazi ako mu ne titraš jajca i tražiš baš onako kako on očekuje.

…ali što da budem protiv predloga, ako će bot to da odradi, valjaće valjda nekome u narednu dekadu ili dve.

1 Like

Бранко,
Можеш ли да ми наведеш неки пример/ситуацију због које је потребна људска провера?
Чини ми се да и међународне релације не би биле угрожене овим.

Koristim overpass, pa se plašim da ne preskoči slučajno granicu za malko. Osim toga, lepo je da gledaš šta se sve menja u OSM-u, čisto da možeš da uočiš greške ili da uhvatiš još potencijalnih problema. Deluje mnogo izmena, ali ovo je konzolna aplikacija koja ispiše OSM entitet i kaže šta menja i samo se lupa enter. U početku idem polako, posle mogu i brže, ali ne bih da ga blastujem sve odjednom svakako:)

Ja bih rekao da je potrebna ljudska provera samo tamo gde se postojeće name:en ili name:sr-Latn razlikuje od kanonične transliteracije ćiriličnog name. A lakše je pogledati par stotina komada kad se izvuče u kakav izveštaj nego da se ručno lupa enter svaki put.

Чини ми се да постоји могућност да overpass да само објекте који су цели у оквиру граница.

Моје мишљење је да је ефикасније редом обрисати па ако баш негде треба накнадно додати. Не могу да се сетим изузетака вредних људске провере пар десетина хиљада записа.

Mislim da se svi slažemo za name:en da ne treba prevoditi, tj. da to treba za 99% ulica da bude isto što i name:sr-Latn, tj. da ga ni ne treba unositi.

Ne bih rekao da je ovo ispravno. Mi ne možemo da određujemo kako će sa na mapu unositi nazivi na stranim jezicima.To je stvar tih jezika. Ako će da prevode ili samo urade transilteraciju u glasovni sistem tog jezika to je stvar korisnika tog jezika.

Na osnovu našeg znanja i iskustva mi možemo samo da pretpostavimo šta bi odgovaralo govornicima stranog jezika pa da se eventualno trudimo da tako i popunjavamo, to jest da imamo neku preporuku ako neko od nas to popunjava.

Primeri:
Србија - Serbia
Југославија - Yugoslavia
Београд - Belgrade
Филозофски факултет - Faculty of Philosophy

To se isto odnosi i na nazive ulica. name:en svakako neće da sli d aneko traži taj naziv na tablama ali će mu značiti ako nekoga mora da pita jer taj zapis na engleskom verovatno može da mu pomogne da izgovori naziv ulive približno ispravno, nego ako čita srpsku latinicu.

Da li se zajednica slaže da, koristeći bota i naravno uz manuelnu proveru svake izmene, uradim sledeće promene:

Prvo treba da se dogovorimo oko načina unosa name:en polja, da to stavimo u uputstvo i tek onda da primenjujemo kako je dogovoreno.

Milsim d aniej dobro da menjamo, pogotovo automatski sadržaj tog bpoja a naročito da brišemo već unete sadržaje. pogotovo kriterijum za automatske izmene ne treba da bude sadržaj drugih name polja jer ona sa ovim nemaju veze.

Čak i ako je sadržane name:sr_Latn ili int_name identičan varijanti koja treba da stoji u name:en to nikako ne znači da name:en ne treba da bude popunjeno.

name:en treba da sadrži zapis na engleskom jeziku. Kako se to isto zapisuje na srpskom, internacionalno, na ruskom, svahiliju ili nekom drugom jeziku, to nema nikakve veze.

Posmatrajmo to iz istog ugla kako gledamo na popunjavanje name:sr taga na mapi na prostorima van Srbije. Da li bi nam odgovaralo da neko briše name:sr zato što se pogodilo da jezapis isti na srpskom i na jeziku matične zemlje? Kakve bi nam to komplikacija napravilo u renderingu i uopšte upotrebi mape na srpskomjeziku ako zbog nepostojanaj name:sr taga ne možemo da znam da ne postoji zato što ga niko nije uneo ili zato što se naziv zapisuje isto na srpskom kao i na izvornom jeziku?

Uostalom nije teško proveriti koliko se naziva identično piše na mnogo jezika, ukqučujući i izvorni jezik, pa opet postoje uneti nazivi na mnogo takvih jezika.

Peđa, deluje mi da ti pričaš o državama i gradovima (takve primere daješ), a ne o ulicama. Plan je da ulicama izbacimo name:en. Dakle, fokusirajmo se na entitete koji u 99.999% slučajeva nemaju ustaljeno (common) ime na engleskom jeziku. Isto kao što mi nemamo ime za ulice u, lupam, Skandinaviji.

Činjenica je da su većinu (ako ne i skoro sve) name:en tagova na ulice dodali naši ljudi, a ne Englezi. Po ovoj logici imamo obavezu da ih izbrišemo jer je to engleska stvar, a ne naša da određujemo ta imena? Pa kad Englezi dođu, nek unose:) (ko iz onog vica za Šveđane i švedski sto:D)

Ali hajde da pogledamo šta Englezi kažu za naše ulice. Ako pogledaš ovaj SPARQL upit koji pronalazi sve ulice u srpskoj wikipediji koje imaju prevod na engleski, videćeš da ih ima ukupno 41 (od 86.000 ulica iz RGZ-a) (slovima: četrdeset jedna!) i da si im prevodi praktično isti kao naša imena.

Sa druge strane, kako objašnjavaš da jedna Finska (kad sam kod Skandinavaca) ima samo 400 way-eva sa name:en (mnogo veća zemlja od Srbije). Ako pogledamo susede koji ne koriste alfabet, Bugari imaju isto way-eva sa name:en kao i sa int_name (oko 40.000), dok Grci imaju 27.000 sa name:en, a 75.000 sa int_name.

I upravo zato treba da ostavimo int_name, tako da i Englez i Francuz i Finac imaju alfabetsku predstavu šta je ime ulice (što da stavljamo name:en, a ne name:fr, ne vidim razlog za anglocentričnost? hajde da budemo agnostični). Evo npr. i nemačka karta i francuska karta favorizuju int_name u odnosu na name:en (evo primer ulice u Vrdniku koji ima različite vrednosti tagova trenutno, pa je nađite na nemačkoj i francuskoj karti).

Da, evo javno - meni bi bilo skroz OK da se npr. svi name:sr tagovi izbrišu za sve ulice u Skandinaviji i svuda po svetu. Ne postoji ime u srpskom jeziku za njih, prosto je. Sve što bi tu stavili je… izmišljotina. Ne bi mi bilo OK da neko obriše ime grada (“Beč”) ili neku bitnu ulicu (npr. jedino što mi pada na pamet je “Peta avenija” ili “Jelisejska polja”, ali da ironija bude veća, ni oni nemaju prevod na srpski)

To što postoje nazivi na mnogo jezika je opet nešto vezano za države, gradove i sl., ali ne i za ulice. Osim toga, to što je nešto identično uneto, ne znači da je to ispravno.


Nadam se da sam pokazao podacima i primerima da je name:en domaća izmišljotina i da treba da ustupi mesto (boljem) int_name tagu, a da Englezi mogu slobodno da unose sva imena ulica iz Srbije kako ih vekovima zovu u svom govoru (čitaj: celu 41 ulicu, ako i toliko).

1 Like

Бранко, немој да си тако строг. Рецимо, ових дана сам на терену и јездим арапским говорним подручјем. Користим OsnAnd и ставио сам да ми шриказује мапе на енглеском. И то ради супер.

А ево примера како је све мапирано Way: ‪شارع لخْوِيرة‬ (‪264579468‬) | OpenStreetMap . И name и name:ar и name:en.

Могу само да кажем: Хвала свима који су по белом свету уносили name:en таг.

E, izvinjavam se ako sam ispao “strog”, samo pokušavam da navedem razloge. Ovo što si ti naveo je validna kritika. Našao sam ovaj problem gde Grk objašnjava da OsmAnd-u treba int_name pa pominje i nas, kao i ovaj sličan. Ono što sam primetio je da, iako ne može da se postavi int_name u OsmAnd-u, možeš da postaviš “Engleski” i da uključiš preslovljavanje (kao na slici skroz dole) i onda dobijaš konvertovana slova iz ćirilice u latinicu (vidim neke čudne kvačice na “Ј” i “Њ”, ali osim toga radi - mogao bih da pogledam to što im ne radi). Mislim da je ovo logično svakom strancu da se snađe u OsmAnd-u (tj. prirodno će ga naći lako).

Ostaje problem drugih aplikacija/renderera koji ne znaju za int_name i šta raditi tu. Možemo ili da ne radimo ništa (ostavimo ovako polupopunjeno kako ko stigne i po kojim pravilima hoće), da ga popunimo sa name:sr-Latn (dakle, kako smo se dogovorili iznad) ili da obrišemo name:en. Ja sam pre da aktivno radimo nešto nego da ostavimo entropiji i haosu (naročito jer imamo bota i jeftino je uraditi izmene), ali sam pre za brisanje, a ne za punjenje OSM baze sa name:en samo zato što neka aplikacija tamo negde nije sposobna da se snađe sa int_name (“titranje jajaca” što reče Duja). Ostavljam mogućnost da popunimo name:en sa name:sr-Latn ako to želimo. Vidim da je Duja i Microsoft ekipa za brisanje, ja isto, ti za ostavljanje?, Peđa za nediranje, pa ću ostaviti da ovo preleži još par dana/nedelja, očigledno nije zrelo još, da vidimo jel ima još neko mišljenje.

Što se tiče popunjavanja int_name, deluje da tu imamo konsenzus, pa bih to počeo uskoro.

Prijavio već:

2 Likes

Biću kratak. Slažem se sa Kokanovićem da se stavlja int_name za ime koje je transleterovano u engleski alfabet (čitaj: ošišana latinica).

Izmišljen, ali potencijalno legitiman primer bi bio:
name Шпански трг
name:sr Шпански трг
name:sr-Latin Španski trg
int_name Spanski trg
name:en Square of Spain (ili) Spanish square

Dakle int_name je čista transliteracija na alfabet, s druge strane name:en (:fr :fi i svaki drugi) ima smisla koristiti kada se ono zaista razlikuje u prevodu ili transliteraciji. I imajte u vidu da je ovo otvorena baza podataka koja zahteva ustrojavanje, a imamo i znanje i volje, pa zašto da ne uradimo nešto po tom pitanju kada već aplikacije (ili onlajn komponente) koje su korisnici OSM karata neće da se preterano cimaju. Naročito za Srbiju gde je upitno i da li imaju nedeljno trocifren broj jedinstvenih korisnika.

Ja bih čak išao dotle da skroz “zabranimo” prevođenje imena ulica i trgova – to je klizav teren jer te stvari nisu uvek prevodive, a rizikujemo da od eventualnog korisnika sakrijemo originalno srpsko ime, proverljivo na tabli i u adresaru.

Da malo ilustrujem klizavi teren s prevođenjem:
Španski trg → Spanish square - OK, recimo
Trg Nikole Tesle → Nikola Tesla square - ajde-de
Trg Majke Jevrosime → ?!
Partizanski put → ?!
Ulica ruža →

Za većinu drugih stvari mi je prevođenje od strane mapera u redu – i sam prevodim imena institucija pa i crkava – jer potencijalnom korisniku više znači “Church of Transfiguration of Jesus” ili “Institute of Public Health” od srpskog imena, a na mapi će lako uočiti gde je. Ali ulice su mi nekako druga priča, jer u biti ta imena nemaju nikakvu logičku vezu sa onim po čemu su nazvane: ništa na Trgu Majke Jevrosime ne ukazuje da ima veze sa nečijom mother po imenu “Jevrosima” ili, još gore, “Euphrasina”.

5 posts were merged into an existing topic: Uvoz adresnog registra - plan

int_name dodat za sve ulice koje su imale “ščćđž”. Nisam ga dodavao tamo gde se name, name:sr i name:sr-Latn nisu savršeno slagali (ima takvih sad 13.000 slučajeva).

Sad razmišljam, ako pričamo o tome da stranci vide mapu bolje, da li onda treba da odradimo sve ulice, a ne samo one koje imaju “ščćđž”? To je još dodatnih 60.000 ulica.

Свака част на брзини ако си радио ручно, а на памети ако си све аутоматизова :slight_smile:

Додао бих мало размишљање у вези алгоритма. До сада најбоље што смо имали као показатељ да се о некој адреси размишљало, је да су унети name, name:sr и name:sr-Latn као и да се они слажу. Сада имамо ултимативни показатељ да је назив добар и то је постоање РГЗ тага. Мислим да би требало да и овај параметар почнеш да користиш у својим активностима. Нпр. ако има ргз таг онда слободно усаглашавај све у односу на name.