Стандартизация названий

те що на табличці на станції має вищий пріоритет ніж те що на сайті УЗ, просто хтось помилився наповнюючи базу УЗ
я за name=Пенізевичі + alt_name=Пенизевичі
http://railwayz.info/photolines/images/158/1273857839173.jpg
https://uk.wikipedia.org/wiki/Пенізевичі_(станція)

Насправді в УЗ з назвами дуже погано на місці. Є багато прикладів коли офіційна назва не відповідає реальній.
Я думаю що це відбулось через перехід на українську мову в залізниці. Бо корінь слова “Пенизевичі” графічно однаковий як для української так і для російської, тому вирішили що це правильно. Я так думаю. На хоперах УЗ які були збудовані в 2010+ роках на сьогодні є єдиний напис “Приписан станция Пенизевичи”, тобто українська залізниця й досі використовує російську мову і відповідно російське написання. Але воно затверджено так в УЗ і я вважаю що варіант andygol - вірний, бо така офіційна назва. Навіть якщо ми знаємо що вона не вірна, то поки УЗ її не перейменує - в ОСМ має бути УЗшний варіант.

PS
Плутанини “І” та “И” дуже багато навіть в назвах НП. Ось для прикладу НП “Великий Дивлин”, всі здавня кажуть “Дівлин”, впевнений коли царський писар почув це так і записав російською “Дивлин” (варіант “Дивльін” в рос. граматиці ж наче недопустимий"?) А коли приводили назви в україномовний варіант то бачать що всі літери українські - значить Дивлин. Хоча ті хто знали що назва написана російською, але говорили українською не з місцевих читали “Дівлін”. В мене навіть в родичів в росії були проблеми з юридичними питаннями через коверкання нашого “И” в прізвищі.

PPS Плюс до всього інколи назва станції спеціально відрізняється по назві від населного пункту поруч.

Update 2022-09-22: Ця пропозиція вже не актуальна, оскільки алгоритм Nominatim виправлено (див. https://forum.openstreetmap.org/viewtopic.php?pid=872399#p872399 ).

Я погоджуюсь, що символ U+02BC є найбільш правильним символом для відображення українського апострофа. Але на жаль, його використання призводить до помилок пошуку. Розпишу детальніше.

Отже, в Юнікоді є символ апострофа U+02BC “modifier letter apostrophe”

ʼ

(його можна ввести клавішами Shift + ~ у розкладці Ukrainian Unicode). Цей символ використовується в українській та деяких інших мовах. Також він є офіційним апострофом в українських доменних іменах. Але лише там. В усіх інших місцях переважає прямий апостроф U+0027 “apostrophe”

'

(клавіша ~), оскільки саме він вводиться з клавіатури, як у Windows, так і у Linux. На відміну від прямого апострофа, ввести символ U+02BC з клавіатури вже не так просто: треба затискати Shift, і то лише якщо встановлена розкладка Ukrainian Unicode (в Linux вона стоїть за замовчуванням, а у Windows треба ставити). Тому цей символ використовується рідко. Хіба що у доменних іменах, і то тому, що прямий апостроф там заборонений.

Здавалось би, непогано було б перейти поступово на правильний апостроф U+02BC. Але це виявляється проблематичним, оскільки Google, Nominatim та усі інші пошуковики вважають U+02BC та U+0027 різними символами. Якщо частина слів написана через інший апостроф – вони не знайдуться. Виходить, краще все уніфікувати, використовуючи лише один апостроф. На даний момент це де-факто прямий апостроф U+0027. Якщо ж перейти на U+02BC, то нові назви все одно будуть переважно вводитись учасниками через U+0027, і крім цього користувачі будуть шукати в Nominatim слова з символом U+0027 і нічого взагалі не знайдуть.

Зараз я спробував знайти у Nominatim:

"Слов'янська вулиця"

(через U+0027) – результатів багато, а також

"Словʼянська вулиця"

(через U+02BC) – результатів лише 4. Причому останні – не знаходяться у першому запиті. Мабуть варто подумати, щоб зробити заміну апострофа в усіх українських назвах в OSM на U+0027.

Вішенька на торті - Word та Writer автоматично замінюють апостроф U+0027 на ще один (вже третій) апостроф – одинарну закривальну лапку U+2019 “right single quotation mark”

(в Ukrainian Unicode – клавіші Right Alt + Shift + 2). Проте пошуковики вважають U+2019 та U+0027 однаковим символом, і тому проблем це не викликає.

Теж знаю про цю проблему і хочу поділитися думками. Використання правильного апострофа схоже на запровадження нового теґа. Коли теґ тільки зʼявляється, ніякі сервіси його не показують і не знаходять. У той момент хочеться поставити неточний теґ, щоб на мапі відрендерився нанесений обʼєкт. Але це хибний шлях. Правильний шлях, коли розробники оновлюють стилі на мапах. Для ситуації з різними апострофами варто покращити алгоритми пошуку.

На комерційні сервіси, такі як Apple Maps ми не маємо впливу, але багато сервісів на базі OpenStreetMap є відкритим ПЗ. Цю проблему можливо й потрібно вирішувати у відповідних репозиторіях. Один з варіантів — можна вдосконалювати алгоритми так, щоб для української мови при уведенні в пошукове поле слова з одним із трьох апострофів йшов пошук по словах з усіма трьома варіантами апострофа.

Ось чому я б віддав перевагу не символу U+0027 з часів друкарських машинок, і не правим одинарним лапкам U+2019, а саме апострофу-модифікатору букви U+02BC. Чим у більшій кількості місць буде правильний апостроф, тим швидше розробники його помітять.

Хай живе ʼ :slight_smile:

Погоджуюсь с darkonus: треба боротись за правильний апостроф ʼ (U+02BC). Для цього необхідно змінити алгоритми пошуковиків так, щоб вони вважали його тим же символом, що й інші апострофи (U+0027 та U+2019). Звісно, домогтись цього від Google поки важко, а от з Nominatim проблему вже вдалось вирішити!

У січні я написав issue (https://github.com/osm-search/Nominatim/issues/2569) і розробники Nominatim внесли необхідні зміни у свій алгоритм. Їм, правда, для цього довелось букву-апостроф U+02BC додати до списку розділових знаків (це звісно неправильно), але в принципі нам неважливо, як воно працює, головне - що працює. Після внесення змін в алгоритм довелось чекати багато місяців, поки зроблять імпорт. І ось зараз вже все працює. Пошук назв в OSM видає однакові результати, незалежно від того, який апостроф використовується (U+02BC, U+0027 та U+2019). Це можна перевірити, наприклад, зробивши три таких пошуки:

  1. Завʼялівка (через U+02BC)
  2. Зав’ялівка (через U+0027)
  3. Зав’ялівка (через U+2019)

Усі три пошуки дають однаковий результат - знаходять три об’єкти, один з яких написано через U+02BC.

Таким чином, зараз нам нічого (крім війни) не заважає виконати стандартизацію назв, що містять апостроф. Пропоную, якщо є така технічна можливість, замінити усі апострофи в назвах на правильний український апостроф U+02BC, а також прописати у wiki рекомендацію використовувати саме цей апостроф в українських назвах. Набрати апостроф U+02BC на клавіатурі можна клавішами Shift + ~ (в Linux це працює, а у Windows треба встановити розкладку UkrainianUnicode).

Якщо в OSM буде всюди використовуватись апостроф U+02BC, то далі це може бути аргументом, щоб спробувати змінити алгоритм Google.

2 Likes

Velikodsky чудова новина!