Кладротеги

Sergey_Astakhov · June 13, 2013, 4:46pm

Из геометрии, ага. Напомню одну цитату из прошлых обсуждений, которую вы наверное пропустили:

И вы думаете, что такие “данные” будут лучше чем прямое использование геометрии и границ, даже частично где-то поломанных? Только если вас не заботит качество результата.

andriano · June 13, 2013, 4:47pm

Это по нашенски - снести теги в целой области, и ждать - а не появится ли у кого претензий!

Лично я обрабатываю local.osm целиком, поэтому наблюдаю у себя лишь статистически уменьшение доли “точно” адресации в пользу “приближенной”, но ввиду того, что вывод у меня осуществляется в алфавитном порядке, идентифицировать конкретную область, за счет которой произошло ухудшение, не удается.

andriano · June 13, 2013, 4:52pm

Даже при радикальной смене самого кода, иерархическая структура изменяется очень незначительно.
И если интересует не сам код, а именно место объекта в структуре, может оказаться, что и с устаревшим кодом (как самого объекта, так и включающих его объектов) его место в структуре не изменится.
Т.е. с практической точки зрения неактуальный код может оказаться либо почти либо в точности так же полезен, как и актуальный.

andriano · June 13, 2013, 4:57pm

Давайте говорить только за себя.
Я использую OSM для тех задач, для которых считаю нужным, и таким образом, каким считаю рациональным.

Вполне допускаю, что у Вас другие задачи и другие способы их решения.
Но не думаю, что это повод пытаться навязать мне свое мнение либо затруднить мне решение моих задач, даже если лично Вы их не понимаете.

andriano · June 13, 2013, 5:08pm

Совсем недавно на одном из программистских форумов мне преподали ценный урок.
Вопрос был в преобразовании числа в строку типа: “123” → “сто двадцать три”. Я заметил, что в некоторых случаях преобразование совершалось с ошибками (типа “дванадцать” вместо “двенадцать” или “четыренадцать” вместо “четырнадцать”), о чем написал автору. Он возразил, что такая точность для его задачи вполне приемлема.
Понятно, что в финансовых документах такое недопустимо, но у них была ситуация с низким качеством печати квитанций, из-за которого не всегда однозначно можно было распознать цифры, а текстовая строка, хоть и была не совсем правильной, устраняла эту неоднозначность.

В общем, из этой переписки лично для себя я вынес вывод, что спектр реальных задач намного шире, чем может показаться, и “неточные” данные могут быть полезны в той же мере, что и “точные”. Все зависит от конкретной задачи.

AMDmi3 · June 13, 2013, 5:15pm

Угу, только кладрокоды были проставлены по ещё менее полным данным.

А вы сравните процент поломанных границ с непроставленными кодами.

Да-да, но вы почему-то думаете что КЛАДР-бот её как-то решил.

Вы обманываете сам себя. Как минимум, взяв те же алгоритмы, по которым действовал бот, можно получить

полное покрытие
актуальные данные со стороны КЛАДР
актуальные данные со стороны ОСМ

но куда интереснее бодаться за тухлятину в базе.

AMDmi3 · June 13, 2013, 5:51pm

Не-а, вы видите уменьшение доли одной приближенной адресации в пользу другой приближенной, причём вторая считается контролируемо и по новым данным.

Алсо, посчитал процент проставленных кладрокодов. Их уже меньше четверти для улиц и меньше 8.3% для домов.

Scondo · June 13, 2013, 6:08pm

Да, только это уже не является кладром. А то так можно addr:housename = “торговый центр” хранить. Польза вроде как есть, но по смыслу не то и не там.
Непосредственно для места объекта в структуре существует роль subarea в отношении boundary и тег is_in.

Но это не повод хранить в кладротегах то, что кладром не является.

andriano · June 14, 2013, 2:33pm

AMDmi3:

andriano:

Существующие в OSM границы проведены по чему угодно: кадастру, ОКАТО, ОКТМО, но только не по КЛАДРУ, а потому восстановить именно адресацию по имеющимся данным задача если и решаемая (в чем лично я не уверен - даже при гипотетическом наличии всех границ, причем, в исправном состоянии), то весьма нетривиальными средствами.

Да-да, но вы почему-то думаете что КЛАДР-бот её как-то решил.

Вы обманываете сам себя. Как минимум, взяв те же алгоритмы, по которым действовал бот, можно получить

полное покрытие

актуальные данные со стороны КЛАДР

актуальные данные со стороны ОСМ

но куда интереснее бодаться за тухлятину в базе.

Теоретически Вы правы.
Ровно в той степени, в какой теоретическая возможность написать некоторый алгоритм равна реальным данным, полученным в результате работы уже написанного алгоритма.

Но данные мне нужны уже сейчас, а повторять работу по написанию алгоритма, проставляющего КЛАДР-коды, у меня сейчас нет ни времени, ни желания*.
Тем более, что результат этой работы, очевидно, будет того же порядка качества, что и у КЛАДР-бота.
Так какой смысл повторять работу, если уже есть результат примерно совпадающий по качеству с результатом предполагаемой работы.

кстати, отсутствие желания в значительной степени объясняется как раз принципиальной невозможностью получить хороший результат.

И еще интересный момент.
КЛАДР-бот проставлял 3 cladr-тега и несколько addr-тегов.
Вопросы:

Почему никто не требует удаления addr-тегов?
Почему удаляются cladr-теги, проставленные ручками, а не ботом?

Небольшая статистика по наличию cladr-тегов (напомню, что cladr-бот работал в 2009-2010 годах):

февраль 2011 г
cladr:code - 247121 шт.
cladr:note -   3336 шт.

апрель 2013 г
cladr:code - 211510 шт.
cladr:note -   3105 шт.

Кто может объяснить, почему наряду с проставленными ботом кодами cladr:code, cladr:name и cladr:suffix удаляются проставленные ручками cladr:note? Разве это не вандализм?

Зачем введен новый тег kladr:user, назначение которого в точности повторяет назначение cladr:note?

Кстати, на апрель 2013 г тегов kladr:user насчитывалось всего 1900 шт, т.е. по количеству они не дотягивают не то что до cladr:code, но даже до cladr:note.

AMDmi3 · June 14, 2013, 2:56pm

Неверно. Алгоритм уже написан - просто возьмите его из кладробота.

Неверно. Запустив алгоритм вместо использования существующих данных, вы получите данных как минимум в 4 раза больше умножить на устаревание кладр умножить на устаревание ОСМ умножить на теоретическую возможность улучшить алгоритм.

Разумеется надо удалять всё. addr:postcode там такая же помойка что и коды.

Константин_Гам · June 14, 2013, 3:00pm

addr: теги уже многие руками людей перерабатывались, а postcode найти уже будет непросто правильные - неправильные ибо всё смешалось, но теги cladr: от этого нужности точно не приобрели…

akks · June 14, 2013, 3:32pm

“Хороший” способ удалить эти теги был упомянут - удалять те, которые не внесены вручную. Правда, это посложнее)

AMDmi3 · June 14, 2013, 3:36pm

Технически это не сложно. Меня больше беспокоит то, что вот они-то как раз могут быть корректными и кем-то использоваться, и не менялись только потому что из-за удивительного стечения обстоятельств проставились ботом правильно.

Scondo · June 14, 2013, 4:41pm

Господа, а можно удаление обсуждать в теме про удаление, благо таковая есть.
Эта тема - про применение.

Например про то, почему adriano использует для определения вложенности кладр неизвестной достоверности, а не предназначенные для этого теги. Какая объективная причина тому есть?

Delin · September 4, 2013, 8:56pm

А вообще есть какой-то резон сейчас ставить kladr:user или нет? Я видел у себя в области cladr:code, ну и стал сам ручками его добавлять - а тут вот оно как оказалось - что он и не нужен вовсе.

Scondo · September 5, 2013, 10:12am

kladr:user ставится для исправления ошибок автоматического сопоставления, cladr:code - для ручного сопоставления.
Соответственно kaldr:user добавляется если вы пользуетесь (или проверяете) какую-то автоматическую сопоставлялку и находите несоответствие, которое вызвано нельзя исправить уточнением в OSM e.g. валидатор границ

citrin · September 5, 2013, 11:08am

Данный валидатор уже давно не работает Хотя был очень полезным инструментом. Только для него нужно было проставлять тэги oktmo:user с кодом ОКТМО из валидатора.

BTW - кто нибудь пробовал связаться с автором валидатора и попросить его код?