Ударения в названиях

Не надо ставить ударения в именах!
Лучше уж в отдельном теге!

Потом не зная верного ударения ничего найти нельзя будет. А если верное не единственно?

В старославянской википедии http://cu.wikipedia.org/wiki однажды решили писать с ударениями — так в старославянском языке положено.

Статьи все пришлось переименовывать, поиск без верного ударения не ищет. Мрак — на пол-года всё застопорилось.

Значит, поиск сделан очень плохо. Точнее, индексация.

Я за отдельный тег, в него хоть транскрибцию пихайте.

А откуда уверенность, что этот символ уместен на карте?
На вывеске можно написать (или даже нарисовать) все, что угодно. Даже то, для чего нет юникод-символов. И что тогда? Вставлять графические файлы в поле name?
Как, кстати, это кафе называется в учредительных документах?

А как кто-то название проговаривает - это вообще отношения к теме не имеет. Хотите иметь транскрипцию - пожалуйста. Только в отдельном теге, плиз.

В русской википедии названия статей без ударений. Даже странно)

Имхуется мне, что это заносится в тег operator=*

Кто-то переименует улицу в Ле́нина, а от этого все дома на улице исчезнут из поиска. Кому это нужно?

Замечу, что в Википедии ударения используются в статьях ОДИН РАЗ, в самом начале статьи. Все последующие упоминания - без ударений. Ударение - не часть названия.

  1. Не следует путать название конкретного предприятия (например, кафе) с наименованием его собственника (который и вносится в тег operator). Хотя, если дело касается торговой сети, эти наименования обычно совпадают (тот же Макдоналдс).
  2. В случае, когда наименования не совпадают, в тег name вносится именно название торгового предприятия, а в operator - его владельца.
  3. В случае, когда наименования совпадают, они указываются в теге name. Можно, конечно, продублировать его и в теге operator, но “имхуется мне”, это уже несколько избыточно (впрочем, для примитивного поиска может оказаться полезным).

PS. Вообще же речь шла о том, что если вывеска может содержать какие угодно изображения, то название в учредительных документах содержит лишь определенный допустимый набор символов. Именно этот набор и следует использовать в теге name вне зависимости от того, как оформлена вывеска.

Кажется мне, что в теге name надо использовать вовсе не название из учредительных документов. Там нужно писать общеупотребительное название, и обычно оно совпадает с тем, что написано на вывеске.

Вот замечание про поиск - верное.

Конечно, технически решение уже существует, называется нормализацией юникода. Это когда символы приводятся к некой нормальной форме, где нет ударений, и разные экзотические символы приводятся к их простой форме. Типа Ç = C. Прежде чем составлять поисковый индекс строки надо нормализировать, и с поисковыми запросами надо делать то же самое. Тогда всё будет отлично находиться.

Но вот поддерживает ли это поисковые движки, работающие с данными OSM - вопрос для меня открытый. Как я понимаю родные для OSM инструменты должны работать с юникодом предельно корректно, а при конвертации данных в другие форматы, конвертер должен делать нормализацию сам, если целевые приложения не умеют искать с учетом особенностей юникода.

PS. Я побаловался с поиском OpenStreetMap Nominatim, и кажется мне что он отлично работает с юникодом.

На вывеске может быть не только написано, но и нарисовано. В частности, написание некоторых букв может быть стилизовано, отличаться от нормативного или буквы могут быть заменены изображением предметов.
Так что, согласен, в поле name должно быть общеупотребительное название, но при этом содержащее только тот ограниченный набор символов, который используется в нормативных документах.

Боюсь что мы не вправе задавать что должно быть на вывеске, а что не должно
И даже не согласен что вносить с вывески только то что упоминается в документах

Я про набор символов и говорю, юникод будут использовать и в вывесках и в учредительных документах. И с этим надо иметь дело.

Magomogo, что ж тебя так переклинило на этом юникоде??
Никто никогда не отказывался его использовать.

Возможно, это я ввел его в заблуждение вчера в личке:

Я это уже понял. Просто выше кто-то сказал, что будут проблемы с поиском названий с экзотическими символами. Я с этим согласился.

А еще сказали что на вывесках всякие картинки рисуют, и это не значит, что их надо вставлять в тег name. С этим я тоже согласен, с оговоркой, что допустимые символы юникода - не картинки, и их надо писать прямо в тег.

Описался. Исправил.
Вместо “вывеске” читать следует “в поле name”.

Давай отделим мух от котлет.
Из следующих утверждений:

  1. В поле name допустимы любые unicode символы.
  2. Поле name следует ограничивать только символами, входящими в 1251.
    Я считаю неверными оба.
    Другими словами, то, что символ не входит в 1251 не является противопоказанием для включения этого символа в строку name.
    И в то же время наличие некоторого символа в unicode не означает допустимости его применения в поле name.
    Т.е. для множеств справедливо: [cp1251] <= [<то, что допустимо в name>] <= [unicode].

Давайте на конкретном примере.

Есть такая фирма Dell.

Так вот, её маркетологи не только в логотипе букву наклонили, но и своих рекламных текстах часто её рисуют перекошенной. Для этого применяют свой шрифт, конечно, но это именно типа текстовый символ у них получается. Раньше этим же самым страдала славная фирма Intel.

Теоретически, какая-нибудь контора может вставить в своё название юникодную фигнюшку, да хоть смайлик или псевдографику. Это совсем не значит, что надо и в осме эти выкрутасы повторять.

Перестаньте, не путайте шрифтовые вариации начертания буквы с утвержденным набором символов. Dell - это всегда dell, каким бы шрифтом его не писать.

Я уже привел пример, когда в вывеске может быть использован суперскрипт. Однобайтовые кодировки этого не позволяют, юникод - да.