Velikodsky
(Velikodsky)
25
Погоджуюсь с darkonus: треба боротись за правильний апостроф ʼ (U+02BC). Для цього необхідно змінити алгоритми пошуковиків так, щоб вони вважали його тим же символом, що й інші апострофи (U+0027 та U+2019). Звісно, домогтись цього від Google поки важко, а от з Nominatim проблему вже вдалось вирішити!
У січні я написав issue (https://github.com/osm-search/Nominatim/issues/2569) і розробники Nominatim внесли необхідні зміни у свій алгоритм. Їм, правда, для цього довелось букву-апостроф U+02BC додати до списку розділових знаків (це звісно неправильно), але в принципі нам неважливо, як воно працює, головне - що працює. Після внесення змін в алгоритм довелось чекати багато місяців, поки зроблять імпорт. І ось зараз вже все працює. Пошук назв в OSM видає однакові результати, незалежно від того, який апостроф використовується (U+02BC, U+0027 та U+2019). Це можна перевірити, наприклад, зробивши три таких пошуки:
- Завʼялівка (через U+02BC)
- Зав’ялівка (через U+0027)
- Зав’ялівка (через U+2019)
Усі три пошуки дають однаковий результат - знаходять три об’єкти, один з яких написано через U+02BC.
Таким чином, зараз нам нічого (крім війни) не заважає виконати стандартизацію назв, що містять апостроф. Пропоную, якщо є така технічна можливість, замінити усі апострофи в назвах на правильний український апостроф U+02BC, а також прописати у wiki рекомендацію використовувати саме цей апостроф в українських назвах. Набрати апостроф U+02BC на клавіатурі можна клавішами Shift + ~ (в Linux це працює, а у Windows треба встановити розкладку UkrainianUnicode).
Якщо в OSM буде всюди використовуватись апостроф U+02BC, то далі це може бути аргументом, щоб спробувати змінити алгоритм Google.
2 Likes