Приведение названий улиц в соответствие соглашению и правка адресов

Пышму поправил, но это нельзя сделать по всей области - отсутствующие статусные части нужно брать из КЛАДР для каждого отдельного НП. Ещё где-то нужно?

каким плагином?)

Без плагина, тупо поиском - за семь :wink:

FixAddresses

del

Как многим уже известно, последний месяц я занимался, как и собирался, общероссийским реестром топонимов. Думаю, пришло время его анонсировать.

Проект назвается streetmangler, лежит тут https://github.com/AMDmi3/streetmangler и состоит из базы названий улиц, C++ библиотеки для работы с ней и утилиты, позволяющей выбрать из дампа .osm улицы, сравнить с базой и классифицировать.

Что умеет: всё то же, что и старый нормализатор (т.е. сказать, правильно ли написано название, в противном случае по возможности предложить исправление), быстрее, без костылей и с дополнительными возможностями плюс функциональность моего Perl модуля Geo::Names::Russian::Mangle, т.е. возможность конвертировать адреса в нужный формат (например, “улица Ленина” → “Ленина ул.” для навигаторов).

  • быстрее, потому что на C++. Россия парсится за 4 минуты.
  • есть биндинги к Python, в планах также Perl
  • улицы сравниваются с базой, поэтому вероятность ложных срабатываний (по крайней мере по части канонического написания) крайне мала и возможна только при ошибках в базе. На данный момент всё, что добавляется в базу я кропотливо просматриваю, а в будущем планируется также сверка с КЛАДР и базы с самой собой, что позволит выявить закравшиеся ошибки, если таковые будут
  • более продвинутая классификация улиц. Кроме канонической формы (т.е. полная статусная часть с правильной стороны) ищутся опечатки с произвольной глубиной:

улци 50 лет Октября|улица 50 лет Октября
ульвар Яна Райниса|бульвар Яна Райниса
уляца Зимняя|Зимняя улица

а также автоматически определяется отсутствие статусной части.

  • возможность задавать свои правила написания статусных частей и добавлять поддержку новых языков.

Основной минус проекта вытекает из того же, из чего вытекают плюсы, а именно из наличия базы и того факта, что она должна быть полной. На данный момент 42.94% уникальных названий улиц в OSM совпадают с базой (старый нормализатор давал 77.40% +/- ошибки в обе стороны). По общему количеству названий (т.е. название с улицы + со всех addr:street на домах) 84.33% и 96.29% соответственно. В общем, наполнена пока только половина базы, но, во-первых, пополнение продолжается, во-вторых, “уникальные” неправильно написанные названия из OSM рано или поздно будут исправлены, и в будущем старый нормализатор будет обогнан.

Планы:

  • перевод нормализации названий на новые рельсы. Собственно, я уже некоторое время ей не занимался, так что число ошибок возросло, но теперь вместо ручной проверки списка замен можно будет исправлять всю Россию автоматически ежедневно с выкладыванием лога замен, для чего, наверное, стоит зарегистрировать нового пользователя. Это, разумеется, касается только приведения к канонической форме, опечатки всегда будут проверяться руками (особенно при неполной базе)
  • наверное, стоит запилить просматривалку по аналогии с addresses.amdmi3.ru
  • дальнейшее пополнение и проверка базы. Нужно как минимум догнать старый нормализатор.
  • потихоньку начать (пока ручное) исправление улиц - канонические формы по областям и отдельные опечатки по всей России. Чем правильнее данные в OSM, тем легче пополнять базу.

Да, проект уже используется в поиске на http://openstreetmap.by, и если ваша улица написана неправильно или её нет в базе, находиться она не будет, так что исправляйте названия в OSM и присылайте добавления к базе.

Всю Россию, всё-таки, не стоит. Лучше сделать poly с только теми регионами, участники из которых согласились на такое. Новый пользователь нужен, конечно.

Zverik
+1
Иногда правильное с точки зрения бота название просто режет слух местного жителя. Давайте уважать мнение тех кто рисует свои города и не навязывать им грамотность, учитывая что все почтовые адреса и вывески в городе принято писать иначе (даже в официальных документах).

Южно-Сахалинск: улица Комсомольская (не Комсомольская улица), улица Бумажная (не Бумажная улица), улица Украинская (а не Украинская улица) и т.д. Что за мода у программистов принимать решения за всю страну.

Верно! Соглашение - не догма! Волгодонск и Южно-Сахалинск братья на век!
http://forum.openstreetmap.org/viewtopic.php?pid=155516#p155516

wowik
Спасибо, почитал, всё понял - спорить с яйцеголовыми бесполезно. Всё равно для них мы планктон, от которого требуется молча наполнять базу.

Согласились участники всех регионов кроме Волгодонска, и исправляется уже давно вся страна, возражений пока не было.

Возражений не было т.к. многие люди просто рисуют карту, а не следят за форумом и что там натворил бот.
Смотрю страницу http://wiki.openstreetmap.org/wiki/User:AMDmi3/Конвертация_названий_улиц, вижу максимум пару десятков имен. Маловато на всю страну. Не вижу ни запросов, ни согласия от сахалинцев, особенно пользователя S_Pavlukhin, отрисовавшего почти весь остров.
Может хватит проталкивать принцип “не мытьем так катаньем” ? Нам, простым смертным, сложно угнаться за ботом.

AMDmi3, табличка в вики давно не обновлялась видимо, там нет Кирова и Кировской области :slight_smile:

chnav, извините, если может каким то боком ущемлю ваше ЧСВ, но люди, которые “просто рисуют карту” я наблюдаю в списке согласившихся и вклад их весьма более существенный.

В своё время я тоже был категорически против, но чисто по технической причине, я использую ОСМ, который сам и русую, в своих целях и мои конверторы очень болезненно реагировали на любое переименование частей адресной схемы. Со временем, тот же AMDmi3 помог с реализацией преобрразования канонический вид <-> произвольный вид и как только у меня перестала крошиться жизненно важная для меня автосборка карты, я первым попросил произвести нормализацию своих данных в ОСМ. Расскажите нам о своих проблемах, почему для вас так важно, что бы именно ваша улица писалась наоборот и возможно эту проблему уже решали те, кто успешно исправляют улицы уже несколько месяцев.

Во-первых, не бот. Я уже много раз писал что все проверяется руками.
Во-вторых, я рассылал кучу писем и активно рисующим новичкам и людям из топа по областям.

Оно лежит у меня в inbox вместе с ещё несколькими десятками писем такого же рода.

А может хватит плевать на правила топонимики по причине личного их неприятия?

AMDmi3
Очень неприятно чувствовать себя придатком “бота”. Я так понимаю это - пустые слова.
ОСМ (особенно русский) - сплошные двойные стандарты, кто больше времени проводит в IRC - тот и прав.

PS: “правила топонимики” не производят новые данные.

А мне очень неприятно, что на полгода, потраченные на написание и отладку кода, отправку десятков писем, многократный просмотр списков из десятков тысяч названий, кропотливое выяснение истории происхождения топонимов чтобы выяснить их правильное написание, сокращение количества адресных багов в 4 раза мне говорят “я так не привык”.

Без кавычек, без кавычек. И относительно удаляемых вами данных о порядке слов, букве ё и всего остального в чём приходится ковыряться, ещё как производят.

AMDmi3
А кто-то потратил эти пол-года на сбор реальных данных, запись треков и простановку точек, кропотливое внесение их в базу. И таких людей сотни-тысячи. Не надо думать что ваше время стоит дороже и требует особого отношения.

Ваши реальные данные никуда не делись.

Мда… Проще послать проект на…
Помню я смеялся, когда мне говорили: “ты рисуешь и работаешь на дядю”. Теперь я вижу что ТАК И ЕСТЬ.

о, дядя нашёлся! поздравляю!