Какой тулзой выгрузить из слепка планеты точки с нужными тэгами?

В идеале под дебиан, что-нибудь с параметрами или конфигом под прогон, что бы на выходе получить список меток в каком угодно структурированном формате, главное, без остальных 499ГБ данных. В самом идеале, что бы можно была задать на сколько частей (ещё лучше по размеру файла), делить файл выхода данных. Ну и программка должна быть стабильной, что бы не обвалится от файла планеты.
Самый идиальный вариант, чтоб как пример, есть:





задали поиск нод с тэгами “amenity=restaurant” и на выходе



http://wiki.openstreetmap.org/wiki/Osmosis
http://wiki.openstreetmap.org/wiki/Osmfilter

За что я люблю опенсоурс. Спасибо и привет родному городу :slight_smile:

Еще можно пойти сюда http://overpass-turbo.eu/

Что-то мне кажется, что либо их сервер либо мой браузер ляжет, от запроса на всю планету ))
А где лучше всего почитать про то, какие есть тэги, и что означает что?

catalog.openstreetmap.ru и wiki

Можно начать отсюда: http://wiki.openstreetmap.org/wiki/Map_Features

Однако есть таймаут. Где-то от 180 до 800 секунд, выборка из базы или выдача данных прерывается. В запросе timeout можно увеличить.
Опыт показывает, что если запрашиваемых данных в базе мало - они придут быстро и даже в планетарном запросе. Например node[natural=water|wetland|volcano|peak] выгрузились - 300k точек, 115MB.
А если данных много, то даже небольшие запросы могут отваливаться по таймауту - way[admin_level=2|3|4|5] по bbox 5х5 градусов обламывается 3 раза в Германии, хотя там всего 57MB данных в этих 3-х bbox-ах (остальная планета - 600MB в сумме). Возможно, из-за того что в Германии просто очень много данных и bbox по ней “даются” серверу сложнее.

Ваяю конфиг под osmfilter, не могу понять, как сделать, что бы вырезало все ноды без тэгов?
А ещё в идеале выпилить в нодах id и version. Не могу до конца разобраться с командами (

Я ведь верно понял, что флаг --ignore-dependencies ускорит прогон?
Моя задача примерно такая, в первом прогоне, выпилить из файла планеты (470гб), всё лишние, нужно оставить только ноды с тэгами.
А потом уже из того, что выйдет с первого прогона вытягивать нужные мне метки. Они будут разные, типа отели налево, бары направо, что бы не лопатить каждый раз 470ГБ, хочу сделать максимально обезжиренный файлик :slight_smile:

Отели и бары могут быть и на полигонах, и на отношениях (мультиполигонах) - до 30 процентов примерно.
http://taginfo.openstreetmap.org/tags/?key=tourism&value=hotel

Так что если стоит задача вытягивать из осм ПОИ, то она так не решается.

Спасибо, за своевременную подсказку, но как тогда, лучше всего обрезать исходную планету, что бы было легче прогонять по отдельным точкам?

Лучше делать это за один проход, при работе с большими файлами на ввод/вывод уходит очень много.
За osmfilter не скажу, osmosis это точно умеет (но нужны приседания и не вполне очевидные комбинации параметров).
И лучше сразу работать с pbf, он читается в разы быстрее.

Да, и точек для POI конечно будет мало, лучше сразу работайте со всеми типами объектов.

А не получится за один проход, ещё даже толком не известно, что конкретно нужно будет, а что нет. Для начало как “тренировка на кошках”, задача сделать базу ресторанов и отелей. А если я слепом в pbf загружу (это же бинарки вроде бы или?) то в каком формате результат получу?

Спасибо, я немного не ожидал, что кто-то такие локации будет чем-то большим чем точкой помечать, но как говорится “век живи век учись”.

Что кроме “–drop-author”, ещё запихнуть в первую зачистку?

Я правильно понимаю, что 470ГБ весит не вся история ОСМ, а только её последние версии ? Просто как-то странно, Россия 6-я часть суши весит всего 2ГБ.

osmfilter вроде как с pbf работать не умеет (только с osm и o5m), это только для osmosis
У osmosis вывод можно делать в разных форматах, задаётся ключами.
А написав свой плугин к нему можно сразу генерить свой собственный формат. Но для этого уже надо java знать.

Это наверное в распакованном виде.

В сжатом там покомпактнее:
planet-latest.osm.bz2 02-Oct-2013 21:18 30G
history-latest.osm.bz2 08-Feb-2013 16:28 40G

Нет, хотелось бы как можно меньше писать, не нужен мне велосипед, тем более с явой не знаком.

И да это “planet-latest.osm.bz2 02-Oct-2013 21:18 30G”, только я не совсем понял, а что такое “history-latest.osm.bz2 08-Feb-2013 16:28 40G” ?

В мире 70% воды, а весит всего пару килобайт :wink:
http://habrahabr.ru/post/142089/

Это вы coastline не пробовали выкачать :smiley: