"Огни Москвы": собираем ОТК. Импорт по уличным столбам из data.mos.ru

Так сами параметры качества и их желаемые значения зачастую именно рождаются в процессе обсуждения, а зачастую только в процессе реализации.

  • “я хочу-хочу!”
  • “нам это не надо по этим, этим, этим и еще вот этим причинам”
  • “сообщество недееспособно!”

классика, не первый раз за эти годы

Вот это уже предметно. Не факт что основная подложка при создании БД 2ГИС, но внутридворовые столбы пешеходных дорожек и площадок можно отсеять. Вот и один из принципов отсева.

Почему сразу вносить? В названии темы: собираем ОТК. Нужно понять что именно мы имеем во всей конкретике.

Собственно, я так и делаю. Сейчас вылеживается импорт по часам с того же самого портала.

Рассмотрим: “нам это не надо по этим, этим, этим и еще вот этим причинам”. Рациональное обоснование, да ещё с картинкой, появилось только за 2 реплики до Вашего заявления, ув. literan. Указанная там фильтрация отсеивает не менее 20% набора данных. То есть значение слова в Вашем высказывании “нам это не надо по этим, этим, этим и еще вот этим причинам” прояснилось только 2 реплики назад.

Что касается “сообщество недееспособно!”, то не нужно игнорировать важное и изначальное замечание: в качестве ОТК.

От Grass-snake

Небольшому кругу специалистов и моделистов. Не возразишь.

Предлагайте. Передам скрипты и поддержу обсуждение в соседних темах.

Быстро не нужно. Пока нет идей кроме объхода и осомтра. Надеялся что кто-нибудь сможет предложить исследование данных на уровне операторов PostGIS, чтобы самое подозрительнео вырезать а самое предположительно достоверное выборочно проверить.

Можно через maproulette или аналогичную службу на много месяцев запустить ручную выверку участков. Дело не в скорости, а в качестве.

Посмотрел случайные места, увы, качество данных низкое:

  • Много мест, где столб есть, но в датасете его нет (интересная закономерность: обычно это рядом с территориями школ, детских садов, и других отдельных территориях.
  • При этом около половины точек задублировано. Конечно, можно отсеять, но нужно уточнить. Возможно это как-то связано с отсутствием точек там, где они должны быть.
  • Некоторые точки размещены прямо посередине дороги. Я не знаю как качественно ровняют подложку 2ГИС и как импорт будет выглядеть в OSM, но у меня подозрение, что нужно будет очень много сил потратить на выравнивание.

Спасибо, Grass-snake! Обсуждение пошло по существу.

Это общая закономерность. Подозревается отставание данных на год или больше. По хорошему, мы обнаружили задачу для фильтрации. Подозрительны не только школы и детские сады, а также собачьи, спортивные и детские площадки.

Вот этого не заметил, кроме одного специфического случая на парковой аллее. Можете раскрыть утверждение или просто назвать код столба, где вокруг дубли?

Да, увидел. На отдельных удицах до 10-15%. что, увы, обесценивает более-менее простой перенос. Для исправления получается процесс с использованеим проекции столба на дорогу через ST_ClosestPoint, линии от столба до дороги и среднего расстояния в зависимости от типа дороги. Слишком сложно считается и долго.

PostGIS + DBeaver на материалах материализованного представления “1 Столбы data.mos.ru” из https://github.com/mkgrgis/OSM_clock_mos/blob/main/PostGIS%20часы%20Москвы%20Моссвет.sql#L251

Что скажите?

Я пользовался стандартным функционалом портала открытых данных, там карта группирует рядомстоящие точки. Возможно в исходных данных данные отличаются.
Я имел ввиду не исключать данные, я имел ввиду что данные очень сильно проверять, даже на качественных спутниковых снимках столбы не видно.
Я не представляю как проверять эти данные.

ЯПанорамы, mapillary, survey, дронофото, …

При таком размере значка столба группировка скорее препятстсвует просмотру положения столбов, чем способствует. На рисунках из Вашей, Grass-snake, реплики и из моей это хорошо видно.

Нисколько. Представление фонарных столбов было получено самым тупым способом, если Вы заглядывали в скрипт PostGIS.

На первом исследовательском этапе принято пытаться фильтровать сомнительное подмножество. После выясняется возможна ли нормализация того, что обозначено как некачественное.

Вывод по набору данных
Столбы на проезжей части слишком частые, есть глюки дублирования и отставания от реальности на год или больше. Особенно подозрительны школы, детские сады, собачьи, спортивные и детские площадки.
Автоматизированный импорт без предварительной нормализации не целессообразен. Ее алгоритм обещает быть сложным. Опираясь на три содержательных отзыва по выборочной проверке данных считаю нужным прекратить обсуждение импорта данных по столбам.

В сухом остатке имеем три возможных работы по имопрту в ОСМ ограниченных подмножеств набора данных по столбам.

  1. Соотнесение с уличными часами после их импорта
  2. Соотнесение с существующими столбами. По выборке со стороны ОСМ географические данные точнее более чем в 80% случаев, но бедные описательные данные.
  3. Соотнесение с вышками мобильной связи (подписаны как “опора двойного назначения”)

Импорт отлежался. Прошу посоветовать куда дальше. Попробовал подписаться на Talks:ru. Отправил сообщение и тишина. Ни ответов ни просто сообщений нет.

Обновление: ошибся веткой форума.

Ничего не отлежалось.

Сообщество против импорта, в теме один голос за импорт и все остальные - против.

Я предлагаю тему этого импорта закрывать, по причине выше.

Дальше попробовать на маленьком кусочке и попробовать его довести до ума.
— Будет прикидка трудозатрат при масштабировании процесса.
— Появятся отзывы, основанные на фактическом материале проведенной пробы, а не на теоретических прикидках.

Вообще не в ту тему написал… Ошибся веткой.