Беру распакованную планету, осмосисом применяю к ней дневной диф, получаю файл размером на 2 ГБ меньше означального файла. Это КАК???
Еще вопрос - почему в часовых диффах попадаются узлы с одинаковым ID разных версий? Осмозис при накатывании такого диффа выходит с ошибкой.
Это разбиралось в листе рассылки, но к решению там вроде не пришли.
http://lists.openstreetmap.org/pipermail/osmosis-dev/2010-January/000438.html
Может, кто знает, как это побороть или обойти?
P.S. Нашел - нужен ключ --simplify-change.
Да что же за хрень… На свежую планету 0825 накатываю суточный дифф - 0824-0825, чтобы влить в нее возможно отсутствующие данные конца дня, когда она уже генерилась. И размер файла уменьшается на 3 ГИГА, со 160 до 157… ЧЯДНТ???
может, в планете при применении диффа чистятся все линии без точек и отношения без участников — и их там скопилось дофига?
Как это - линии без точек? Звучит как дырка от бублика.
именно
На два ГИГА???
Сделайте diff и посмотрите, что изменилось.
Дифф 160 гб файла? И как я потом отловлю какие 200 метров изменение от диффа, а какие левые?
В чем проблема?
Если там 3GB минус 200MB изменений не от диффа, это тривиально.
Ezhick, попробуй вручную сделать дифф на 100 байт (ну, или как получится — добавить одну точку, например).
Ну попробую оставить на ночь сравниваться…
UPD: diff отказывается сравнивать, говорит память исчерпана, это при 8 гб оперативки.
Посмотрел глазками начала файлов - сравнивать бесполезно - вообще другое расположение данных, совпадает только первая строка.
osmosis сортировать умеет - думается, отсортированные planet и результат применения диффа будут совпадать с точностью до диффа + тех 3GB которые исчезли.
Может там просто форматирование разное? Типа там кол-во пробелов, табуляций, \r\n и т.п.
кстати да.
может, были виндовые переводы строк, а стали юниксовые.
Вполне может быть, в июньской планете было как раз 2G строк.
Виндовые? Откуда???
Запустил osmosis --sort потом диффну, посмотрим.
Ну или, к примеру вот - в планете в перез закрывающим слешом стоит пробел, в выхлопе осмозиса - нет. Тэгов, правда, всего полмиллиарда.