Сейчас вот разгребая ошибки рендера состряпал на скорую руку скриптик, который выводит подозрительные теги.
И подумалось, что вдруг такое есть уже? А если нет, не будет ли другим интересно?
Пример вывода:
Подозрительные теги по bridge:
Значение Количество
P62 1
pipe 4
plank 3
pontone 1
pri 3
true 1
yes;no 1
Деревянный мост через р.Ел… 1
Очень в этом сомневаюсь.
Исходя из написанного, под “подозрительными” понимается пара код=значение. Список таких комбинаций огромен. Даже если взять только один код, то окажется, что уникальных (т.е. встречающихся в единственном экземпляре) кодов несколько сотен (анализировал давно, возможно, сегодня их количество уже перехрлдит за тысячу).
RusFox, напишите, пожалуйста, по каким признакам Вы отличаете подозрительные теги от всех остальных? И что именно Вы подразумеваете под стовом “тег” - пара код=значение или только код?
Я такие списки составлял не раз но исправить что-то не спросив автора - а что конкретно он имел в виду непросто. Действуя своей логикой можно внести вандализм а логика создавшего бывает порой очень нетривиальной.
На http://taginfo.openstreetmap.org таких тегов можно сотни найти. Например, на последних страницах http://taginfo.openstreetmap.org/keys/landuse#values :
landuse=Гаражи
landuse=“residential=rural”
landuse=farmtard
landuse=ineustrial
landuse=Cimetiere
и т.д.
Был бы бот, который бы правил явные опечатки - было бы прекрасно, но описать это алгоритмом - имхо, нереально, только самому следить и ручками исправлять.
Ну пока алгоритм такой: отметаются сначала те, что есть в вики (список вручную делал), из оставшихся выбираются те, что в единственном экземпляре (эти явно подозрительные), потом выбираются те, что имеют маленький коэффициент использования относительно общего количества.
Непонятен в чем конечный профит. При таком подходе можно будет исправить очень мало. (да и то непонятно можно ли?). Трудозатраты помоему существенно больше чем полученный результат.