planet dump + daily diffs = бред...

Беру распакованную планету, осмосисом применяю к ней дневной диф, получаю файл размером на 2 ГБ меньше означального файла. Это КАК???

Еще вопрос - почему в часовых диффах попадаются узлы с одинаковым ID разных версий? Осмозис при накатывании такого диффа выходит с ошибкой.

Это разбиралось в листе рассылки, но к решению там вроде не пришли.
http://lists.openstreetmap.org/pipermail/osmosis-dev/2010-January/000438.html
Может, кто знает, как это побороть или обойти?

P.S. Нашел - нужен ключ --simplify-change.

Да что же за хрень… На свежую планету 0825 накатываю суточный дифф - 0824-0825, чтобы влить в нее возможно отсутствующие данные конца дня, когда она уже генерилась. И размер файла уменьшается на 3 ГИГА, со 160 до 157… ЧЯДНТ???

может, в планете при применении диффа чистятся все линии без точек и отношения без участников — и их там скопилось дофига?

Как это - линии без точек? Звучит как дырка от бублика.

именно

На два ГИГА???

Сделайте diff и посмотрите, что изменилось.

Дифф 160 гб файла? И как я потом отловлю какие 200 метров изменение от диффа, а какие левые?

В чем проблема?

Если там 3GB минус 200MB изменений не от диффа, это тривиально.

Ezhick, попробуй вручную сделать дифф на 100 байт (ну, или как получится — добавить одну точку, например).

Ну попробую оставить на ночь сравниваться…

UPD: diff отказывается сравнивать, говорит память исчерпана, это при 8 гб оперативки.

Посмотрел глазками начала файлов - сравнивать бесполезно - вообще другое расположение данных, совпадает только первая строка.

osmosis сортировать умеет - думается, отсортированные planet и результат применения диффа будут совпадать с точностью до диффа + тех 3GB которые исчезли.

Может там просто форматирование разное? Типа там кол-во пробелов, табуляций, \r\n и т.п.

кстати да.
может, были виндовые переводы строк, а стали юниксовые.

Вполне может быть, в июньской планете было как раз 2G строк.

Виндовые? Откуда???

Запустил osmosis --sort потом диффну, посмотрим.

Ну или, к примеру вот - в планете в перез закрывающим слешом стоит пробел, в выхлопе осмозиса - нет. Тэгов, правда, всего полмиллиарда.