Населенные пункты без name:ru

То, что такой бот был - известно. Что наделал немало кривого - тоже известно.
Но “давить” имеет смысл только то, что “криво”. В противном случае ты поступаешь ничем не лучше упомянутого бота.
И вообще, нужно не “давить” а исправлять.

andriano, а я уже объяснял, что криво. Криво само наличие name:ru на территории России.
Чтой-то я не замечал использования name:en на территории Англии, name:fr на территории Франции, name:de на территории Германии. Может потому, что люди у них головой думают?

Не замечал, значит плохо смотрел.


>fetch http://download.geofabrik.de/osm/europe/great_britain/england.osm.bz2
england.osm.bz2                               100% of  342 MB  720 kBps 00m00s
>bunzip2 england.osm.bz2 
>grep -c name:en england.osm 
435
>grep -c name:ru england.osm 
137
>

Как видишь они есть и их число даже превышает число некоторых имортных name, в частности name:ru.

Так что предлагаю прекратить удаление из базы валидных данных, а то придётся обращаться в DWG.

А вот ещё пища для размышлений. Великобритания, так же как и РФ многонациональная страна с несколькими языками. Вот например в Шотландии, OSM-файл которой в 7 раз меньше, чем файл Англии:


>fetch http://download.geofabrik.de/osm/europe/great_britain/scotland.osm.bz2
scotland.osm.bz2                              100% of   46 MB  349 kBps 00m00s
>bunzip2 scotland.osm.bz2 
>grep -c name:en scotland.osm 
332
>

Это исключительно твое личное мнение.
А личное мнение - не есть оправдание для вандализма.

435 имен на несколько-гиговый файл? Это граничные объекты. Фактически мусор или ошибка эксперимента. 0.000001%
А где проверка других дампов? Франция, Германия, Испания, Италия и пр?

С какого бодуна дубликаты стали валидными данными?
А если не помнишь, то напомню, что в результате той заливки в name:ru попало столько мусора… Вплоть до китайских иероглифов. Так что считать “это” валидными данными - ссать мимо унитаза.

Конечно-конечно, иди стучи. Я тут, бывает, еще и addr:xxx/cladr:xxx затираю…

Твое личное мнение - необходимость name:ru на территории РФ. А мое мнение - это информационный мусор. Т.к. для этих объектов name и name:ru должны совпадать на 100%. Т.е. это дубликаты. Чем они и являются.
Можешь провести голосование о необходимости наличия name:ru. Но если ты изначально криво поставил задачу, то никакой подгонкой тегов ты ее не решишь.

+1

435 имен на несколько-гиговый файл? Это граничные объекты. Фактически мусор или ошибка эксперимента. 0.000001%

Фактически это больше чем name:ru в том же файле. То есть англичане и шотландцы прописывают локальный name:en чаще, чем импортный name:ru.

А где проверка других дампов? Франция, Германия, Испания, Италия и пр?

Я и так потратил более 5 минут личного времени на тебя. Извини, больше не буду. Хочешь - доказывай далее сам.
http://ru.wikipedia.org/wiki/%D0%A7%D0%B0%D0%B9%D0%BD%D0%B8%D0%BA_%D0%A0%D0%B0%D1%81%D1%81%D0%B5%D0%BB%D0%B0

А если не помнишь, то напомню, что в результате той заливки в name:ru попало столько мусора… Вплоть до китайских иероглифов. Так что считать “это” валидными данными - ссать мимо унитаза.

Пока удаляешь ошибки - без проблем. Как только увижу войну правок про валидные name:ru буду писать в DWG.

Опять ошибаешься. name:ru дело не англичан и шотландцев. А, как не странно, дело русскоговорящих.

Слив не засчитан. Не я, а ты полез проверять дампы.
Я то просто делал выборочные загрузки территорий джосмом.

Дубликат имени - ошибка. Где та грань, за которой дубликат перестает быть ошибкой и становится валидной информацией?

Много бы хотел написать, но не вижу смысла…

Окей, я буду удалять name, чтобы не было дубликатов. Ты не против? Потому что тэг name:ru несёт больше информации, чем name.

Вот пока ты не видишь эту грань (я её тоже не вижу) то постарайся свою удалялку волевым усилием задавить и рисовать новую информацию в базе, а не удалять существующую.

Да…
Считать, оказывается, тоже надо уметь.
И сравнивать сравнимое. Если отнести количество населенных пунктов к количеству узлов, то тоже окажется, что все населенные пункты - не более, чем ошибка эксперимента.

Я анализировал, в частности, full.osm, объем которого в архиве примерно вдвое больше чем указанные выше 342 MB.
В нем обнаружилось 4278 населенных пунктов, для которых указаны теги name:* кроме русского.
Для Британии из пропорции таковых порядка 2100.
435 - это более 20%, а отнюдь не 0.000001%.

Вообще-то ситуация отнюдь не является симметричной.
Есть два основополагающих принципа.

  1. Исходя из того, что “ломать - не строить” для уничтожения чего-то следует иметь гораздо более веские основания, чем для создания. Другими словами, при равном (или даже просто сравнимом) количестве соображений “за” и “против” выбирать следует “за”.

  2. Из любого набора данных всегда окажется, что часть из них кому-то не нужна. Но если она ХОТЬ КОМУ-ТО нужна, их следует хранить. Вот такое вот “право вето” на уничтожение.

Приписывать оппоненту заведомо абсурдную точку зрения, чтобы ее тут же опровергнуть - недостойный прием в споре.
Я не создавал бота, копирующего из name в name:ru, и, если ты внимательно читал обсуждение, отношусь к подобным “начинаниям” резко отрицательно.
Необходимость name:ru ВО ВСЕХ населенных пунктах РФ мне представляется сомнительной. Но я считаю наличие этого тега чрезвычайно полезным ПРИ УСЛОВИИ наличия других name:*. Хотя бы потому, что выбор подходящего названия в этом случае может быть осуществлен “локально”, т.е. без использования геометрии и, следовательно, ресурсоемких вычислений. Не говоря уже о точности границ и наличии в данных OSM достаточно высокого процента ошибок.

Давайте все-таки вернемся к теме.
А тема - наличие name:ru.
В первую очередь - за рубежом. (просто потому, что там потребность в этом больше)
Столкнулся со следующей проблемой.
Город, который сегодня, согласно Википедии, называется Сикайн:
http://ru.wikipedia.org/wiki/%D0%A1%D0%B8%D0%BA%D0%B0%D0%B9%D0%BD_%28%D0%B3%D0%BE%D1%80%D0%BE%D0%B4%29
Еще недавно было принято называть его Сагайн.
Собственно, думаю, более чем в половине источников город называется именно так, поэтому хотелось бы как-то отметить и этот вариант написания.
Но Сагайн - это не старое название (old_name), а просто вариант транслитерации не с языка оригинала, а с одного из европейских языков. Ну и потом, даже old_name полагается на языке оригинала.
Есть какие-нибудь средства указать в качестве альтернативного русского написания Сагайн?

PS. Если что, то id:26576195. Но вопрос на самом деле более общий - как поступать с растущими городами Азии и Африки, которые мы исторически знали по названиям, заимствованных с языка колонизаторов, но у которых идет тенденция к замене на транскрипцию/транслитерацию с языка местного населения.

alt_name:ru=Сагайн

Если речь об этом, то ИМХО только Гонконг, но, естественно, Гуанчжоу вместо Кантон.